박상원 깃헙블로그


  • 홈

  • 카테고리

  • About

  • 아카이브

  • 태그

  • 검색

[Spark] map, flatMap

작성일 2021-02-25 | In spark |

map과 flatMap은 spark transformation의 대표적인 연산입니다. 이 둘을 사용해보고 차이점이 무엇인지 살펴보겠습니다. pyspark을 이용합니다.

더 읽어보기 »

[카카오] 2021 블라인드 공채 - 순위 검색

작성일 2021-02-02 | In 코딩테스트 |

https://programmers.co.kr/learn/courses/30/lessons/72412

더 읽어보기 »

[Spark] Window function in Pyspark

작성일 2021-01-29 | In spark |

window function은 행을 기준으로 하는 연산입니다. 이전 row, 다음 row에 접근할 수 있고 그 범위를 정해 그 안에서 여러 연산을 수행할 수 있습니다.

더 읽어보기 »

서른 즈음에

작성일 2021-01-26 |

매일 이별하며 살고 있구나,

더 읽어보기 »

[Python] 함수에서 다른 함수 변수 접근하기(c 포인터처럼 사용해보기)

작성일 2021-01-21 |

Python에서 list를 key로 받는 dictionary를 만들고자 시도를 하다가, 포인터 개념을 이용해 객체의 주소를 key로 사용하면 key로 객체에 바로 접근할 수 있지 않을까 하는 생각에서 출발했습니다. 물론 list를 tuple로 변경해 immutable하게 만들어 dictionary key로 사용할수도 있겠지만 iterable한 객체를 key로 사용한다는 게 별로 마음에 들지 않았습니다.

더 읽어보기 »

[Pandas] DataFrame iterate 7가지 방법 비교

작성일 2021-01-12 | In pandas |

pandas dataframe을 가공하면서 더 빠른 방법을 찾다보디 총 7가지 방법을 찾았습니다. Jupyeter notebook 환경에서 측정했고 정확한 시간은 환경마다 다를 수 있습니다.

더 읽어보기 »

[Spark] Execution Plan: Stage, Task

작성일 2021-01-08 | In spark |

Stage가 나눠지는 기준은 Job 안에 repartition이 얼마나 들어있는가, Task갯수는 repartition으로 인해 몇 개의 partition으로 나눠졌는가입니다. Executer가 각 Task를 처리함으로써 RDD가 분산처리됩니다.

더 읽어보기 »

[Spark] Execution Plan: Job

작성일 2021-01-07 | In spark |

데이터에 관련된 업무를 하다보니 자연스럽게 Spark에 대해서 공부하고 있습니다. 아직까지는 내부 동작원리와 같은 복잡한 내부구조는 잘 모르고, 결과과 현상에 대해서만 얕게 체험해보는 중입니다.

더 읽어보기 »

[AWS] Lake Formation Error Case

작성일 2020-12-23 |

blueprint로 workflow를 만들고 실행하면서 만나봤던 에러 케이스들과 해결했던 방안에 대해 적어봅니다.

더 읽어보기 »

[AWS] Lake Formation Blueprint 설정

작성일 2020-12-23 |

Lake Formation

더 읽어보기 »
1 … 3 4 5 6
psw

psw

Elegant theme for Jekyll.

51 포스트
12 카테고리
17 태그
RSS
© 2023 psw
Powered by Jekyll
Theme - NexT.Muse