[Spark] reduce / fold

작성일 2021-03-16 | In spark |

Reduce

[airflow] airflow - depends_on_past / wait_for_downstream

작성일 2021-03-13 | In airflow |

airflow task 설정을 하다가, 이전 task에 의존적으로 실행 계획을 만들 수 있는 옵션 2개를 찾았습니다. 이전 task에 상관없이 실행 가능한 모든 task를 실행시키는 경우에는 이 옵션들이 의미가 없겠지만, task의 성공여부에 따라 ETL 계획에서 조건을 주고 싶은 경우에는 이 두가지 옵션이 도움이 될 것입니다.

더 읽어보기 »

[airflow] airflow 사용기 2. docker/airflow 설정 파일

작성일 2021-03-06 | In airflow |

docker / airflow의 설정 파일을 크게 3가지로 나눴습니다.

더 읽어보기 »

[airflow] airflow 사용기 1. 소개

작성일 2021-03-06 | In airflow |

회사에서 머신 러닝을 위해 우선적으로 고려했던 방법이 AWS Sagemaker였는데, 효율성이 좋지 않아 물리 서버에서 직접 모델을 돌리게 됐습니다. (Sagemaker가 너무 비쌉니다..너무…)

더 읽어보기 »

[Spark] map, flatMap

작성일 2021-02-25 | In spark |

map과 flatMap은 spark transformation의 대표적인 연산입니다. 이 둘을 사용해보고 차이점이 무엇인지 살펴보겠습니다. pyspark을 이용합니다.

더 읽어보기 »

[카카오] 2021 블라인드 공채 - 순위 검색

작성일 2021-02-02 | In 코딩테스트 |

https://programmers.co.kr/learn/courses/30/lessons/72412

더 읽어보기 »

[Spark] Window function in Pyspark

작성일 2021-01-29 | In spark |

window function은 행을 기준으로 하는 연산입니다. 이전 row, 다음 row에 접근할 수 있고 그 범위를 정해 그 안에서 여러 연산을 수행할 수 있습니다.

더 읽어보기 »

서른 즈음에

작성일 2021-01-26 |

매일 이별하며 살고 있구나,

더 읽어보기 »

[Python] 함수에서 다른 함수 변수 접근하기(c 포인터처럼 사용해보기)

작성일 2021-01-21 |

Python에서 list를 key로 받는 dictionary를 만들고자 시도를 하다가, 포인터 개념을 이용해 객체의 주소를 key로 사용하면 key로 객체에 바로 접근할 수 있지 않을까 하는 생각에서 출발했습니다. 물론 list를 tuple로 변경해 immutable하게 만들어 dictionary key로 사용할수도 있겠지만 iterable한 객체를 key로 사용한다는 게 별로 마음에 들지 않았습니다.

더 읽어보기 »

[Pandas] DataFrame iterate 7가지 방법 비교

작성일 2021-01-12 | In pandas |

pandas dataframe을 가공하면서 더 빠른 방법을 찾다보디 총 7가지 방법을 찾았습니다. Jupyeter notebook 환경에서 측정했고 정확한 시간은 환경마다 다를 수 있습니다.

더 읽어보기 »