데이터 웨어하우스(DW)와 데이터 레이크(DL)

1. 데이터 웨어하우스와 데이터 레이크의 개념/처리과정

비교 항목데이터 웨어하우스 (Data Warehouse)데이터 레이크 (Data Lake)
개념기업 및 조직의 데이터 기반 의사결정을 지원하기 위해 데이터를 추출, 변환, 적재(ETL)하여 분석, 시각화를 제공하는 통합 데이터 저장소AI/ML 및 고급 분석을 위해 정형, 비정형의 다양한 원천 데이터를 그대로 수집/적재 하여 변환, 분석, 시각화를 제공하는 통합 데이터 저장소
처리
과정

 

2. 데이터 웨어하우스와 데이터 레이크의 특징 비교

비교 항목데이터 웨어하우스데이터 레이크
데이터 구조– 수집된 데이터를 목적에 맞게 가공하여 정형화된 형태로 저장스키마 없이 모든 데이터를 원천 데이터 (raw data) 그대로 저장
데이터 처리– 다양한 기업형 APP 데이터 흡수
– 사전정의된 스키마로 데이터 변환
– 조직의 스키마에 맞추는 과정 불필요
– 정보는 수집 데이터에서 탐색/검색
데이터 품질– 전사 차원의 마스터 데이터 관리
– 데이터 품질확보 위한 협업/관리
– 데이터 정제와 표준화에 많은 노력
– 데이터 거버넌스 정착 필수
스키마 부여– Schema on write
(데이터 저장 시 부여)
– Schema on read
(데이터 활용/분석 시 부여)
프로세싱전처리(Pre-processing)– 후처리(Post-processing)
데이터복잡도– Complex Integrations– Complex Processing
사용자– Business Analysts– Data Scientists / Data Engineer
분석 목적– Batch Reporting, BI, 시각화 등– AI/ML, Data Discovery/Profiling 등
접근성ETL 등 전용 도구 필요, 고비용
– 데이터 통합 및 접근 어려움
– 쉬운 접근, 신속 업데이트, Scale-out
– 인프라스트럭처 기반 볼륨 통합 가능
빅데이터
활용
– 정형 데이터 중심의 DW에 비정형 데이터 기반 빅데이터 기술이 적용되어 실질적 빅데이터 활용에 제약– 정제되지 않은 다양한 형태의 저장 데이터에 대해 다양한 빅데이터 요소기술 활용 가능
  • 데이터 웨어하우스 기반 데이터 관리 방식은 데이터 수집 시 변환하여 정제된 정형 데이터를 적재(ETL)하고, 데이터 레이크 기반 데이터 관리 방식은 데이터 수집 시 정형/반정형/비정형 원천 데이터를 그대로 적재하여 AI/ML 및 고급 분석 서비스에 적합

[참고]

  • techtarget, Data Lake vs. Data Warehouse: Key Differences Explained

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^