1. 델타 레이크 (Delta Lake)의 개요 (1) 데이터 레이크의 문제점 및 델타 레이크의 필요성 (2) 델타 레이크의 개념 및 특징 개념 데이터 레이크의 Lakehouse 구축 위해 ACID 트랜잭션, 메타데이터 처리, 스트리밍 기반 다양한 형식의 데이터를 저장하는 스토리지 프레임워크 특징 데이터 신뢰성 보장 빅데이터 워크로드에 대한 ACID 직렬 트랜잭션 기반 데이터 무결성, 신뢰성 보장 확장 가능
1. ETL (Extract, Transform, Load)의 개념 및 필요성 개념도 개념 BI, 고급 분석 등 위해 다양한 소스의 데이터를 추출(Extract)하고 변환(Transform)하여 데이터 웨어하우스, 데이터 레이크 등에 적재(Load)하는 데이터 통합 프로세스 현대 데이터 분석 환경은 데이터 규모/소스/유형 증가와 BI(Business Intelligence) 업무, 머신 러닝 등 고급 분석 필요성이 증가하여 센서, CRM, ERP의 원시 데이터를 필요한 시스템에서 사용하도록 정형화하여
1. 데이터 웨어하우스와 데이터 레이크의 개념/처리과정 비교 항목 데이터 웨어하우스 (Data Warehouse) 데이터 레이크 (Data Lake) 개념 기업 및 조직의 데이터 기반 의사결정을 지원하기 위해 데이터를 추출, 변환, 적재(ETL)하여 분석, 시각화를 제공하는 통합 데이터 저장소 AI/ML 및 고급 분석을 위해 정형, 비정형의 다양한 원천 데이터를 그대로 수집/적재 하여 변환, 분석, 시각화를 제공하는 통합 데이터 저장소
I. 머신러닝 파이프라인(ML Pipeline)의 개요 가. 머신러닝 파이프라인의 개념 데이터 수집부터 전처리, 학습 모델 배포, 예측까지 전과정을 순차적으로 처리하도록 설계된 머신러닝 아키텍처 나. 머신러닝 파이프라인의 필요성 머신러닝 자동화 머신러닝 모델 전 과정 지속 수행 위한 파이프라인 기반 자동화 예측 정확성 향상 내부 구조 이해를 통한 머신러닝 성능(예측의 정확성) 향상 II. 머신러닝 파이프라인의 데이터 처리
I. 단일 통합 데이터 저장소, 데이터 레이크(Data Lake)의 개요 가. 데이터 레이크(Data Lake)의 개념 정형, 반정형, 비정형의 다양한 원형(Raw) 데이터들을 실시간으로 수집, 전처리, 변환, 저장, 제공하는 통합 데이터 저장소, 데이터 호수 나. 데이터 레이크(Data Lake)의 부각 배경 부각 배경 주요 이슈 Hadoop의 등장 데이터 레이크로의 전환 용이 비즈니스 민첩성 요구 비즈니스 유연성 및 신속성 제공