박상원 깃헙블로그


  • 홈

  • 카테고리

  • About

  • 아카이브

  • 태그

  • 검색

[spark] Docker Ubuntu 컨테이너로 Spark 실습환경 만들기 3. spark application 실행

작성일 2021-05-14 | In spark |

worker와 master도 연결했으니 스파크 어플리케이션을 실행해보겠습니다.

더 읽어보기 »

[spark] Docker Ubuntu 컨테이너로 Spark 실습환경 만들기 2. master - worker 환경 구성

작성일 2021-05-09 | In spark |

worker 컨테이너를 띄우고 master 컨테이너와 연결해보겠습니다.

더 읽어보기 »

[spark] Docker Ubuntu 컨테이너로 Spark 실습환경 만들기 1. 컨테이너 준비

작성일 2021-05-08 | In spark |

최근 스파크를 공부하고 있습니다. 실무에서 aws glue를 사용하면서 직접 스파크 코드를 작성하기도 하지만, 단순히 문법이나 메서드보다는 spark의 클러스터 환경을 직접 구축해보고 경험해보는 게 더 값지고 재밌을거라 생각했습니다.

더 읽어보기 »

[airflow] Airflow - PythonOperator에서 execution_date 사용하기

작성일 2021-05-01 | In airflow |

airflow에서 DAG instance는 execution_date를 기준으로 생성됩니다. 주기적으로 발생하는 ETL 스케줄을 편리하게 task / dag 단위로 관리할 수 있다는게 airflow의 큰 장점입니다.

더 읽어보기 »

[AWS] glue에서 내 프로젝트 import하기

작성일 2021-04-02 | In AWS |

glue job을 사용하다보니 불편함을 느낀 점은 2가지입니다.

더 읽어보기 »

[Spark] reduce / fold

작성일 2021-03-16 | In spark |

Reduce

더 읽어보기 »

[airflow] airflow - depends_on_past / wait_for_downstream

작성일 2021-03-13 | In airflow |

airflow task 설정을 하다가, 이전 task에 의존적으로 실행 계획을 만들 수 있는 옵션 2개를 찾았습니다. 이전 task에 상관없이 실행 가능한 모든 task를 실행시키는 경우에는 이 옵션들이 의미가 없겠지만, task의 성공여부에 따라 ETL 계획에서 조건을 주고 싶은 경우에는 이 두가지 옵션이 도움이 될 것입니다.

더 읽어보기 »

[airflow] airflow 사용기 2. docker/airflow 설정 파일

작성일 2021-03-06 | In airflow |

docker / airflow의 설정 파일을 크게 3가지로 나눴습니다.

더 읽어보기 »

[airflow] airflow 사용기 1. 소개

작성일 2021-03-06 | In airflow |

회사에서 머신 러닝을 위해 우선적으로 고려했던 방법이 AWS Sagemaker였는데, 효율성이 좋지 않아 물리 서버에서 직접 모델을 돌리게 됐습니다. (Sagemaker가 너무 비쌉니다..너무…)

더 읽어보기 »

[Spark] map, flatMap

작성일 2021-02-25 | In spark |

map과 flatMap은 spark transformation의 대표적인 연산입니다. 이 둘을 사용해보고 차이점이 무엇인지 살펴보겠습니다. pyspark을 이용합니다.

더 읽어보기 »
1 2 3 4 5
psw

psw

Elegant theme for Jekyll.

50 포스트
12 카테고리
17 태그
RSS
© 2022 psw
Powered by Jekyll
Theme - NexT.Muse