data-engineering

Sep 8, 2025

스파크를 다루는 기술 3: 런타임, 스케줄링, 실시간 처리 예제

#spark #scheduling #data-locality #streaming

『스파크를 다루는 기술』 정리 세 번째 글입니다. 이번 글에서는 Spark 애플리케이션을 구성하는 런타임 컴포넌트와 스케줄링 방식을 정리하고, 마지막으로 실시간 대시보드 예제를 살펴봅니다. 앞선 글에서 RDD, 파티셔닝, 셔플링을 다뤘다면, 이번 글은 실제 클러스...

더 읽기 →

Aug 29, 2025

스파크를 다루는 기술 2: 파티셔닝과 셔플링 이해하기

#spark #partitioning #shuffle #rdd

『스파크를 다루는 기술』 정리 두 번째 글입니다. 첫 번째 글에서 Spark의 기본 실행 흐름과 RDD를 살펴봤다면, 이번 글에서는 성능에 직접적인 영향을 주는 파티셔닝과 셔플링을 정리합니다. Spark에서 파티션이 어떻게 나뉘고, 언제 데이터 이동이 발생하는지 ...

더 읽기 →

Aug 19, 2025

스파크를 다루는 기술 1: MapReduce에서 RDD까지

#spark #hadoop #mapreduce #rdd

페타 제체비치, 마르코 보나치의 『스파크를 다루는 기술』을 읽으며 정리한 내용을 세 편으로 나누어 기록해보려고 합니다. 첫 번째 글에서는 Spark를 이해하기 위한 배경으로 MapReduce와 Hadoop을 먼저 살펴보고, Spark의 기본 실행 흐름과 RDD 개...

더 읽기 →

카테고리 #데이터 엔지니어링