2019년 12월 26일
데이터 레이크 (Data Lake)
I. 단일 통합 데이터 저장소, 데이터 레이크(Data Lake)의 개요
가. 데이터 레이크(Data Lake)의 개념
- 정형, 반정형, 비정형의 다양한 원형(Raw) 데이터들을 실시간으로 수집, 전처리, 변환, 저장, 제공하는 통합 데이터 저장소, 데이터 호수
나. 데이터 레이크(Data Lake)의 부각 배경
부각 배경 | 주요 이슈 |
---|---|
Hadoop의 등장 | 데이터 레이크로의 전환 용이 |
비즈니스 민첩성 요구 | 비즈니스 유연성 및 신속성 제공 필요성 증가 |
머신러닝 및 AI 활용 | 인공지능 및 기계학습으로 예측 가능 |
Silo 회피 | 사일로(Silo) 데이터의 통합 필요 |
II. 데이터 레이크(Data Lake)의 구성도 및 기술요소
가. 데이터 레이크(Data Lake) 구성도
- 방대한 원천 소스인 빅데이터를 Elastic 등 공개 SW를 활용하여 클라우드에서 처리하여 실시간 결정을 위한 참조 정보 제공
나. 데이터 레이크(Data Lake) 기술요소
구분 | 기술요소 | 상세 설명 |
---|---|---|
Data Source (생성자) | Real-time data, Macro, Batch, Application | 실시간/배치 파일로 정형/비정형/반정형 데이터 원천 생성자 |
Ingestion Layer (수징) | Database, Webserver, FTP, IoT, Storage | 데이터 수집 프로시저, 웹서버, 파일서버, IoT 기반 스토리지 수집 |
Caching Layer (저장) | SQL, NoSQL, Elastic Search, Neo4J, Stream | 사전 정의된 데이터, 그래픽 등 비관계적 데이터를 임시 또는 영구적으로 저장 |
Processing Layer (처리) | Elastic Search, HDFS, Metadata Management | 알고리즘 실행, 요구사항 전처리 및 실시간 처리 |
Insight Layer (통찰, 활용) | Data Discovery, Data Dashboard | 시스템 모니터링, BI, 정책결정, 방향 즉시평가 참조 활용 |
- 최근 데이터 저장과 분석을 분리한 데이터 독립과 고속의 스키마 온 리드(Scheme on Read) 아키텍처로 발전
III. 데이터 레이크(Data Lake)와 데이터 웨어하우스(DW)의 비교
항목 | Data Lake | Data Warehouse |
---|---|---|
데이터 범위 | 모든 데이터원본 혹은 원형 데이터 | 비즈니스 목표에 따른 데이터 |
데이터 유형 | 정형, 비정형, 반정형 | 정형, 구조적 데이터 |
운영 목적 | 데이터 공유 및 데이터 저장소 | 데이터 요약/최적화 |
주 사용자 | 데이터 과학자 | 업무 전문가, 현업 사용자, 경영자 |
접근 통제 | 적은 통제력 제공 | 높은 데이터 통제력 제공 |
데이터 단위 | 낮은 수준의 Raw Data | 요약 또는 집계된 세부 수준의 데이터 |
주요 도구 | Hadoop, Map Reduce 등 오픈소스 | 상용 솔루션 |
- 그래픽, 이미지, 데이터 Set 등 비정형, 반정형 정보를 원천소스로 저장하여 오픈소스를 활용한다는 점에서 기존의 Data Warehouse와 차이로 현재 대부분 데이터 산업의 발전으로 원천의 빅데이터를 저장, 활용하는 단계로 발전