1. CDC (Change Data Capture)의 개념 개념도 개념 소스/대상 DB 간 데이터 동기화를 위해 트랜잭션 발생 시 변경 로그를 추출/전송하여 대상 DB에 반영하는 데이터 통합 기술 특징 실시간 데이터 동기화 변경 데이터 추출로 준실시간 동시 운영 환경 구축 운영 DBMS 부하 감소 트랜잭션 로그를 추출하여 DBMS 시스템 부하 감소 신뢰성 있는 데이터 복제 동기화된 소스
1. ETL (Extract, Transform, Load)의 개념 및 필요성 개념도 개념 BI, 고급 분석 등 위해 다양한 소스의 데이터를 추출(Extract)하고 변환(Transform)하여 데이터 웨어하우스, 데이터 레이크 등에 적재(Load)하는 데이터 통합 프로세스 현대 데이터 분석 환경은 데이터 규모/소스/유형 증가와 BI(Business Intelligence) 업무, 머신 러닝 등 고급 분석 필요성이 증가하여 센서, CRM, ERP의 원시 데이터를 필요한 시스템에서 사용하도록 정형화하여
1. 데이터 웨어하우스와 데이터 레이크의 개념/처리과정 비교 항목 데이터 웨어하우스 (Data Warehouse) 데이터 레이크 (Data Lake) 개념 기업 및 조직의 데이터 기반 의사결정을 지원하기 위해 데이터를 추출, 변환, 적재(ETL)하여 분석, 시각화를 제공하는 통합 데이터 저장소 AI/ML 및 고급 분석을 위해 정형, 비정형의 다양한 원천 데이터를 그대로 수집/적재 하여 변환, 분석, 시각화를 제공하는 통합 데이터 저장소
I. 머신러닝 파이프라인(ML Pipeline)의 개요 가. 머신러닝 파이프라인의 개념 데이터 수집부터 전처리, 학습 모델 배포, 예측까지 전과정을 순차적으로 처리하도록 설계된 머신러닝 아키텍처 나. 머신러닝 파이프라인의 필요성 머신러닝 자동화 머신러닝 모델 전 과정 지속 수행 위한 파이프라인 기반 자동화 예측 정확성 향상 내부 구조 이해를 통한 머신러닝 성능(예측의 정확성) 향상 II. 머신러닝 파이프라인의 데이터 처리
I. 다차원 데이터 분석 자료 제공, DW 가. DW(Data Warehouse)의 개념 관계형 DB 기반 대단위 데이터를 분석하여 의사결정에 도움을 주는 저장소 및 시스템 나. DW의 특징 특징 설명 주제 중심적 – 분석하려는 주제 중심 시스템 구조화 – 고객, 거래처, 상품 등 주제 중심 구현 비휘발성 – DW 기록 후 변경되지 않으며 분석 일관성 – 대규모