1. 델타 레이크 (Delta Lake)의 개요 (1) 데이터 레이크의 문제점 및 델타 레이크의 필요성 (2) 델타 레이크의 개념 및 특징 개념 데이터 레이크의 Lakehouse 구축 위해 ACID 트랜잭션, 메타데이터 처리, 스트리밍 기반 다양한 형식의 데이터를 저장하는 스토리지 프레임워크 특징 데이터 신뢰성 보장 빅데이터 워크로드에 대한 ACID 직렬 트랜잭션 기반 데이터 무결성, 신뢰성 보장 확장 가능
1. ETL (Extract, Transform, Load)의 개념 및 필요성 개념도 개념 BI, 고급 분석 등 위해 다양한 소스의 데이터를 추출(Extract)하고 변환(Transform)하여 데이터 웨어하우스, 데이터 레이크 등에 적재(Load)하는 데이터 통합 프로세스 현대 데이터 분석 환경은 데이터 규모/소스/유형 증가와 BI(Business Intelligence) 업무, 머신 러닝 등 고급 분석 필요성이 증가하여 센서, CRM, ERP의 원시 데이터를 필요한 시스템에서 사용하도록 정형화하여
1. 데이터 웨어하우스와 데이터 레이크의 개념/처리과정 비교 항목 데이터 웨어하우스 (Data Warehouse) 데이터 레이크 (Data Lake) 개념 기업 및 조직의 데이터 기반 의사결정을 지원하기 위해 데이터를 추출, 변환, 적재(ETL)하여 분석, 시각화를 제공하는 통합 데이터 저장소 AI/ML 및 고급 분석을 위해 정형, 비정형의 다양한 원천 데이터를 그대로 수집/적재 하여 변환, 분석, 시각화를 제공하는 통합 데이터 저장소
I. 다차원 데이터 분석 자료 제공, DW 가. DW(Data Warehouse)의 개념 관계형 DB 기반 대단위 데이터를 분석하여 의사결정에 도움을 주는 저장소 및 시스템 나. DW의 특징 특징 설명 주제 중심적 – 분석하려는 주제 중심 시스템 구조화 – 고객, 거래처, 상품 등 주제 중심 구현 비휘발성 – DW 기록 후 변경되지 않으며 분석 일관성 – 대규모