#spark
#scheduling
#data-locality
#streaming
『스파크를 다루는 기술』 정리 세 번째 글입니다. 이번 글에서는 Spark 애플리케이션을 구성하는 런타임 컴포넌트와 스케줄링 방식을 정리하고, 마지막으로 실시간 대시보드 예제를 살펴봅니다. 앞선 글에서 RDD, 파티셔닝, 셔플링을 다뤘다면, 이번 글은 실제 클러스...
더 읽기 →
#spark
#partitioning
#shuffle
#rdd
『스파크를 다루는 기술』 정리 두 번째 글입니다. 첫 번째 글에서 Spark의 기본 실행 흐름과 RDD를 살펴봤다면, 이번 글에서는 성능에 직접적인 영향을 주는 파티셔닝과 셔플링을 정리합니다. Spark에서 파티션이 어떻게 나뉘고, 언제 데이터 이동이 발생하는지 ...
더 읽기 →
#spark
#hadoop
#mapreduce
#rdd
페타 제체비치, 마르코 보나치의 『스파크를 다루는 기술』을 읽으며 정리한 내용을 세 편으로 나누어 기록해보려고 합니다. 첫 번째 글에서는 Spark를 이해하기 위한 배경으로 MapReduce와 Hadoop을 먼저 살펴보고, Spark의 기본 실행 흐름과 RDD 개...
더 읽기 →