dongwooshin

english

Modern Data Pipeline Implementation with Paasup DIP #4: Framework Application and ELT Monitoring Dashboard

Introduction In the previous posts of the PaasUp DIP modern data pipeline series (#1~3), we implemented data pipelines purely using open-source libraries (pyspark, delta-spark, boto3, etc.) without any framework. This was a crucial learning process for understanding basic principles and direct implementation. However, in actual production environments, framework adoption
9 min read
Experiments

파스업DIP로 구현하는 현대적 데이터 파이브라인 #4 : 프레임워크 적용과 ELT모니터링 대시보드

들어가며 지금까지 파스업DIP로 구현하는 현대적 데이터 파이프라인 시리즈 #1~3에서는 프레임워크 없이 공개된 라이브러리(pyspark, delta-spark, boto3 등)를 활용하여 순수하게 데이터 파이프라인을 구현해왔습니다. 이는 기본 원리를 이해하고 직접 구현해보는 측면에서 매우 중요한 학습 과정이었습니다. 하지만 실제 운영환경에서는 다음과 같은 이유로 프레임워크 적용이 일반적입니다: * 개발 생산성 향상: 반복적인 코드 작성
13 min read
Experiments

파스업DIP로 구현하는 현대적 데이터 파이프라인: 지하철 이용자 통계 분석 프로젝트 #3

서울시 지하철 시간별 승하차 집계 데이터로 도시 교통 패턴 분석하기 프로젝트 개요 서울시 지하철 네트워크는 하루 평균 700만 명이 넘는 시민들이 이용하는 대한민국 최대 규모의 도시철도 시스템입니다. 본 프로젝트는 이전 블로그에서 제시했던 향후 발전계획 중 '시간대별 데이터 확보를 통한 출퇴근 패턴 분석' 과제를 실제로 구현한 결과입니다. 공공데이터포털에서 제공하는
11 min read
Experiments

파스업DIP로 구현하는 현대적 데이터 파이프라인: 지하철 이용자 통계 분석 프로젝트 #2

들어가며 이전 블로그(파스업DIP로 구현하는 현대적 데이터 파이프라인: 지하철 이용자 통계 분석 프로젝트#1)에서는 Jupyter Notebook 환경에서 Spark Session을 생성하여 데이터 파이프라인을 구현했습니다. 이번 시리즈에서는 DIP의 프로젝트 서비스 카탈로그 중 하나인 Airflow를 활용하여, 실제 운영 환경에서 데이터 파이프라인을 구현하고 실행하는 과정을 다루겠습니다. Airflow DAGs를 통한 워크플로우 관리와 스케줄링 기능을
10 min read
Experiments

파스업DIP로 구현하는 현대적 데이터 파이프라인: 지하철 이용자 통계 분석 프로젝트 #1

들어가며 본 프로젝트의 첫번째 파트에서는 현대 도시에서 지하철은 가장 중요한 대중교통 수단 중 하나입니다. 수많은 시민들이 매일 이용하는 지하철의 이용 패턴을 분석하면 도시의 흐름과 시민들의 생활패턴을 이해할 수 있습니다. 본 프로젝트에서는 지하철 노선별, 일별 이용객수 데이터를 수집하고 분석하여 의미있는 인사이트를 도출하고자 합니다. 이를 통해 교통정책 수립, 상권 분석, 도시계획 등
19 min read