1. 델타 레이크 (Delta Lake)의 개요 (1) 데이터 레이크의 문제점 및 델타 레이크의 필요성 (2) 델타 레이크의 개념 및 특징 개념 데이터 레이크의 Lakehouse 구축 위해 ACID 트랜잭션, 메타데이터 처리, 스트리밍 기반 다양한 형식의 데이터를 저장하는 스토리지 프레임워크 특징 데이터 신뢰성 보장 빅데이터 워크로드에 대한 ACID 직렬 트랜잭션 기반 데이터 무결성, 신뢰성 보장 확장 가능
1. 파운데이션 모델 (Foundation Model)의 개요 (1) 파운데이션 모델의 개념 개념도 개념 맞춤형 AI 서비스의 효율적 구축을 위해 자기 지도 학습과 트랜스포머 아키텍처 기반 다운스트림 작업을 통해 다양한 AI 모델에 최적화 되도록 준비된 범용 AI 기초 모델 (2) 파운데이션 모델의 특징 구분 특징 특징 설명 학습 측면 자기 지도 학습 – 전이학습 형태로, 데이터의 어노테이션
1. CDC (Change Data Capture)의 개념 개념도 개념 소스/대상 DB 간 데이터 동기화를 위해 트랜잭션 발생 시 변경 로그를 추출/전송하여 대상 DB에 반영하는 데이터 통합 기술 특징 실시간 데이터 동기화 변경 데이터 추출로 준실시간 동시 운영 환경 구축 운영 DBMS 부하 감소 트랜잭션 로그를 추출하여 DBMS 시스템 부하 감소 신뢰성 있는 데이터 복제 동기화된 소스
1. ETL (Extract, Transform, Load)의 개념 및 필요성 개념도 개념 BI, 고급 분석 등 위해 다양한 소스의 데이터를 추출(Extract)하고 변환(Transform)하여 데이터 웨어하우스, 데이터 레이크 등에 적재(Load)하는 데이터 통합 프로세스 현대 데이터 분석 환경은 데이터 규모/소스/유형 증가와 BI(Business Intelligence) 업무, 머신 러닝 등 고급 분석 필요성이 증가하여 센서, CRM, ERP의 원시 데이터를 필요한 시스템에서 사용하도록 정형화하여
1. 데이터 웨어하우스와 데이터 레이크의 개념/처리과정 비교 항목 데이터 웨어하우스 (Data Warehouse) 데이터 레이크 (Data Lake) 개념 기업 및 조직의 데이터 기반 의사결정을 지원하기 위해 데이터를 추출, 변환, 적재(ETL)하여 분석, 시각화를 제공하는 통합 데이터 저장소 AI/ML 및 고급 분석을 위해 정형, 비정형의 다양한 원천 데이터를 그대로 수집/적재 하여 변환, 분석, 시각화를 제공하는 통합 데이터 저장소
I. 단일 통합 데이터 저장소, 데이터 레이크(Data Lake)의 개요 가. 데이터 레이크(Data Lake)의 개념 정형, 반정형, 비정형의 다양한 원형(Raw) 데이터들을 실시간으로 수집, 전처리, 변환, 저장, 제공하는 통합 데이터 저장소, 데이터 호수 나. 데이터 레이크(Data Lake)의 부각 배경 부각 배경 주요 이슈 Hadoop의 등장 데이터 레이크로의 전환 용이 비즈니스 민첩성 요구 비즈니스 유연성 및 신속성 제공