회사에서 머신 러닝을 위해 우선적으로 고려했던 방법이 AWS Sagemaker였는데, 효율성이 좋지 않아 물리 서버에서 직접 모델을 돌리게 됐습니다. (Sagemaker가 너무 비쌉니다..너무…)
[Spark] map, flatMap
map과 flatMap은 spark transformation의 대표적인 연산입니다. 이 둘을 사용해보고 차이점이 무엇인지 살펴보겠습니다. pyspark을 이용합니다.
[카카오] 2021 블라인드 공채 - 순위 검색
https://programmers.co.kr/learn/courses/30/lessons/72412
[Spark] Window function in Pyspark
window function은 행을 기준으로 하는 연산입니다. 이전 row, 다음 row에 접근할 수 있고 그 범위를 정해 그 안에서 여러 연산을 수행할 수 있습니다.
서른 즈음에
매일 이별하며 살고 있구나,
[Python] 함수에서 다른 함수 변수 접근하기(c 포인터처럼 사용해보기)
Python에서 list를 key로 받는 dictionary를 만들고자 시도를 하다가, 포인터 개념을 이용해 객체의 주소를 key로 사용하면 key로 객체에 바로 접근할 수 있지 않을까 하는 생각에서 출발했습니다. 물론 list를 tuple로 변경해 immutable하게 만들어 dictionary key로 사용할수도 있겠지만 iterable한 객체를 key로 사용한다는 게 별로 마음에 들지 않았습니다.
[Pandas] DataFrame iterate 7가지 방법 비교
pandas dataframe을 가공하면서 더 빠른 방법을 찾다보디 총 7가지 방법을 찾았습니다. Jupyeter notebook 환경에서 측정했고 정확한 시간은 환경마다 다를 수 있습니다.
[Spark] Execution Plan: Stage, Task
Stage가 나눠지는 기준은 Job 안에 repartition이 얼마나 들어있는가, Task갯수는 repartition으로 인해 몇 개의 partition으로 나눠졌는가입니다. Executer가 각 Task를 처리함으로써 RDD가 분산처리됩니다.
[Spark] Execution Plan: Job
데이터에 관련된 업무를 하다보니 자연스럽게 Spark에 대해서 공부하고 있습니다. 아직까지는 내부 동작원리와 같은 복잡한 내부구조는 잘 모르고, 결과과 현상에 대해서만 얕게 체험해보는 중입니다.
[AWS] Lake Formation Error Case
blueprint로 workflow를 만들고 실행하면서 만나봤던 에러 케이스들과 해결했던 방안에 대해 적어봅니다.