X

데이터 웨어하우스(DW)와 데이터 레이크(DL)

1. 데이터 웨어하우스와 데이터 레이크의 개념/처리과정

비교 항목 데이터 웨어하우스 (Data Warehouse) 데이터 레이크 (Data Lake)
개념 기업 및 조직의 데이터 기반 의사결정을 지원하기 위해 데이터를 추출, 변환, 적재(ETL)하여 분석, 시각화를 제공하는 통합 데이터 저장소 AI/ML 및 고급 분석을 위해 정형, 비정형의 다양한 원천 데이터를 그대로 수집/적재 하여 변환, 분석, 시각화를 제공하는 통합 데이터 저장소
처리
과정

 

2. 데이터 웨어하우스와 데이터 레이크의 특징 비교

비교 항목 데이터 웨어하우스 데이터 레이크
데이터 구조 – 수집된 데이터를 목적에 맞게 가공하여 정형화된 형태로 저장 스키마 없이 모든 데이터를 원천 데이터 (raw data) 그대로 저장
데이터 처리 – 다양한 기업형 APP 데이터 흡수
– 사전정의된 스키마로 데이터 변환
– 조직의 스키마에 맞추는 과정 불필요
– 정보는 수집 데이터에서 탐색/검색
데이터 품질 – 전사 차원의 마스터 데이터 관리
– 데이터 품질확보 위한 협업/관리
– 데이터 정제와 표준화에 많은 노력
– 데이터 거버넌스 정착 필수
스키마 부여 – Schema on write
(데이터 저장 시 부여)
– Schema on read
(데이터 활용/분석 시 부여)
프로세싱 전처리(Pre-processing) – 후처리(Post-processing)
데이터복잡도 – Complex Integrations – Complex Processing
사용자 – Business Analysts – Data Scientists / Data Engineer
분석 목적 – Batch Reporting, BI, 시각화 등 – AI/ML, Data Discovery/Profiling 등
접근성 ETL 등 전용 도구 필요, 고비용
– 데이터 통합 및 접근 어려움
– 쉬운 접근, 신속 업데이트, Scale-out
– 인프라스트럭처 기반 볼륨 통합 가능
빅데이터
활용
– 정형 데이터 중심의 DW에 비정형 데이터 기반 빅데이터 기술이 적용되어 실질적 빅데이터 활용에 제약 – 정제되지 않은 다양한 형태의 저장 데이터에 대해 다양한 빅데이터 요소기술 활용 가능
  • 데이터 웨어하우스 기반 데이터 관리 방식은 데이터 수집 시 변환하여 정제된 정형 데이터를 적재(ETL)하고, 데이터 레이크 기반 데이터 관리 방식은 데이터 수집 시 정형/반정형/비정형 원천 데이터를 그대로 적재하여 AI/ML 및 고급 분석 서비스에 적합

[참고]

  • techtarget, Data Lake vs. Data Warehouse: Key Differences Explained
Categories: 데이터베이스
도리: