2023년 5월 6일
데이터 웨어하우스(DW)와 데이터 레이크(DL)
1. 데이터 웨어하우스와 데이터 레이크의 개념/처리과정
비교 항목 | 데이터 웨어하우스 (Data Warehouse) | 데이터 레이크 (Data Lake) |
---|---|---|
개념 | 기업 및 조직의 데이터 기반 의사결정을 지원하기 위해 데이터를 추출, 변환, 적재(ETL)하여 분석, 시각화를 제공하는 통합 데이터 저장소 | AI/ML 및 고급 분석을 위해 정형, 비정형의 다양한 원천 데이터를 그대로 수집/적재 하여 변환, 분석, 시각화를 제공하는 통합 데이터 저장소 |
처리 과정 |
2. 데이터 웨어하우스와 데이터 레이크의 특징 비교
비교 항목 | 데이터 웨어하우스 | 데이터 레이크 |
---|---|---|
데이터 구조 | – 수집된 데이터를 목적에 맞게 가공하여 정형화된 형태로 저장 | – 스키마 없이 모든 데이터를 원천 데이터 (raw data) 그대로 저장 |
데이터 처리 | – 다양한 기업형 APP 데이터 흡수 – 사전정의된 스키마로 데이터 변환 | – 조직의 스키마에 맞추는 과정 불필요 – 정보는 수집 데이터에서 탐색/검색 |
데이터 품질 | – 전사 차원의 마스터 데이터 관리 – 데이터 품질확보 위한 협업/관리 | – 데이터 정제와 표준화에 많은 노력 – 데이터 거버넌스 정착 필수 |
스키마 부여 | – Schema on write (데이터 저장 시 부여) | – Schema on read (데이터 활용/분석 시 부여) |
프로세싱 | – 전처리(Pre-processing) | – 후처리(Post-processing) |
데이터복잡도 | – Complex Integrations | – Complex Processing |
사용자 | – Business Analysts | – Data Scientists / Data Engineer |
분석 목적 | – Batch Reporting, BI, 시각화 등 | – AI/ML, Data Discovery/Profiling 등 |
접근성 | – ETL 등 전용 도구 필요, 고비용 – 데이터 통합 및 접근 어려움 | – 쉬운 접근, 신속 업데이트, Scale-out – 인프라스트럭처 기반 볼륨 통합 가능 |
빅데이터 활용 | – 정형 데이터 중심의 DW에 비정형 데이터 기반 빅데이터 기술이 적용되어 실질적 빅데이터 활용에 제약 | – 정제되지 않은 다양한 형태의 저장 데이터에 대해 다양한 빅데이터 요소기술 활용 가능 |
- 데이터 웨어하우스 기반 데이터 관리 방식은 데이터 수집 시 변환하여 정제된 정형 데이터를 적재(ETL)하고, 데이터 레이크 기반 데이터 관리 방식은 데이터 수집 시 정형/반정형/비정형 원천 데이터를 그대로 적재하여 AI/ML 및 고급 분석 서비스에 적합
[참고]
- techtarget, Data Lake vs. Data Warehouse: Key Differences Explained