DuckDB: 현대적인 분석용 데이터베이스 가이드

DuckDB는 SQLite의 분석 버전을 지향하는 임베디드 분석 데이터베이스입니다. 별도의 서버 설정 없이 로컬 환경에서 대용량 데이터를 빠르게 분석할 수 있으며, CSV, Parquet, JSON 등 다양한 파일 형식을 직접 쿼리할 수 있습니다. 이 글에서는 DuckDB의 아키텍처부터 설치 방법, 그리고 실무에서 활용할 수 있는 다양한 SQL 예제까지 상세히 다룹니다.

14 min read

More issues

StarRocks MView를 활용한 No-ETL 데이터 파이프라인 구현

복잡한 ETL 프로세스 없이 StarRocks의 Materialized View로 다양한 데이터 소스를 실시간 통합하는 방법을 소개합니다. StarRocks 내부 테이블과 Apache Iceberg를 원천으로 하는 두 시나리오를 통해 데이터 적재부터 Apache Superset 시각화까지 완전한 파이프라인을 구현하며, 운영비용 절감과 뛰어난 쿼리 성능을 달성하는 실무 가이드입니다.
12 min read

Kubernetes 에 StarRocks 배포

이 기술 블로그는 StarRocks 분산 분석 데이터베이스를 Kubernetes 환경에서 실제로 배포하고 운영하는 실습 가이드입니다. Shared-nothing과 Shared-data 두 가지 아키텍처 모드를 모두 배포해보며, Helm Chart를 활용한 설치부터 MinIO 객체 스토리지 연동, 실제 데이터 로딩 및 성능 테스트까지 전 과정을 다룹니다. 각 모드별 특성과 성능 차이를 직접 체험할 수 있도록 구성되어 있으며, 운영 환경에서의 모드 선택 기준을 실습을 통해 이해할 수 있게 합니다.
9 min read

StarRocks 아키텍처 이해

StarRocks는 FE(Frontend)와 BE/CN(Backend/Compute Nodes) 두 종류 컴포넌트로 구성된 단순한 아키텍처의 분석 데이터베이스입니다. 로컬 저장소를 사용하는 Shared-nothing 모드(고성능)와 객체 스토리지를 활용하는 Shared-data 모드(비용 효율적)를 환경에 따라 선택할 수 있습니다. 복잡한 외부 의존성 없이 MPP 구조로 뛰어난 성능과 운영 중단 없는 수평 확장을 제공하는 것이 핵심 특징입니다.
5 min read

NeMo Curator로 텍스트 큐레이션 파이프라인 구축하기

이 가이드는 NVIDIA NeMo Curator를 활용해 대규모 언어 모델(LLM) 학습에 필요한 고품질 데이터셋을 구축하는 방법을 다룹니다. 우리는 간단한 테스트 예시를 해 데이터 수집부터 클리닝, 중복 제거, 언어 라벨링까지, 체계적인 텍스트 큐레이션 파이프라인을 구축하고 실행하는 엔드투엔드 절차를 실습 중심으로 정리했습니다.
21 min read

NeMo Evaluator로 LLM 평가하기: 표준 벤치마크부터 커스텀까지 엔드투엔드 가이드

이번 가이드는 PAASUP DIP 환경에서 NVIDIA NeMo Evaluator를 활용해 OpenAI 호환 엔드포인트(NIM Proxy) 에 연결하고, 표준 벤치마크(LM Evaluation Harness)와 커스텀 데이터로 LLM을 일관된 절차로 평가하는 방법을 다룹니다. 설정 → 타깃 등록 → 실행 → 결과 해석까지 엔드투엔드 흐름을 실습 중심으로 정리했습니다.
21 min read

Subscribe to PAASUP IDEAS

Don’t miss out on the latest issues. Sign up now to get access to the library of members-only issues.
jamie@example.com
Subscribe