[Spark] Execution Plan: Stage, Task

작성일 2021-01-08 | In spark |

Stage가 나눠지는 기준은 Job 안에 repartition이 얼마나 들어있는가, Task갯수는 repartition으로 인해 몇 개의 partition으로 나눠졌는가입니다. Executer가 각 Task를 처리함으로써 RDD가 분산처리됩니다.

[Spark] Execution Plan: Job

작성일 2021-01-07 | In spark |

데이터에 관련된 업무를 하다보니 자연스럽게 Spark에 대해서 공부하고 있습니다. 아직까지는 내부 동작원리와 같은 복잡한 내부구조는 잘 모르고, 결과과 현상에 대해서만 얕게 체험해보는 중입니다.

작성일 2020-12-23 |

blueprint로 workflow를 만들고 실행하면서 만나봤던 에러 케이스들과 해결했던 방안에 대해 적어봅니다.

작성일 2020-12-23 |

작성일 2020-12-13 | In AWS |

다른 AWS 서비스와 Glue를 함께 사용해보자.

작성일 2020-12-10 | In AWS |

Crawler로 생성된 테이블을 기반으로 데이터를 추출, 가공, 적재하는 Job을 만들고 실행시켜보자.

작성일 2020-12-09 |

Glue의 Crawler를 만들고 실행한 뒤, 메타 데이터 테이블이 만들어지는지 확인하고 여러 특성을 살펴본다.

작성일 2020-12-05 | In python |

Python에서 list에 어떻게 메모리를 할당하는가에 대한 나름의 생각을 정리해본다. 확실한 사실을 향해 가도록 공식 문서와 자료들을 더 찾아보고 공부할 것이다.

작성일 2020-12-05 | In AWS |

앞서 소개했던 ETL은 상당한 공수를 요구한다. ETL은 물론 중요한 작업이고 설계 및 아키텍쳐도 중요하지만 특별한 알고리즘을 요구하거나 분석 모델을 필요로 하지는 않는 작업이기 때문에 최대한 공수를 줄이는 것이 좋다.

작성일 2020-12-03 | In data |

여러 IT 기업들은 앞다투어 예측 솔루션을 개발하거나 서비스에 적용시키고 있다. 심지어 국비지원 수업에도 인공지능 / 머신러닝 등의 이름이 붙은 수업들이 우후죽순 나오고 있으니, 데이터의 중요성이 점점 커진다는 것은 자명하다.