데이터 레이크 (Data Lake)

I. 단일 통합 데이터 저장소, 데이터 레이크(Data Lake)의 개요

가. 데이터 레이크(Data Lake)의 개념

  • 정형, 반정형, 비정형의 다양한 원형(Raw) 데이터들을 실시간으로 수집, 전처리, 변환, 저장, 제공하는 통합 데이터 저장소, 데이터 호수

나. 데이터 레이크(Data Lake)의 부각 배경

부각 배경주요 이슈
Hadoop의 등장데이터 레이크로의 전환 용이
비즈니스 민첩성 요구비즈니스 유연성 및 신속성 제공 필요성 증가
머신러닝 및 AI 활용인공지능 및 기계학습으로 예측 가능
Silo 회피사일로(Silo) 데이터의 통합 필요

 

II. 데이터 레이크(Data Lake)의 구성도 및 기술요소

가. 데이터 레이크(Data Lake) 구성도

  • 방대한 원천 소스인 빅데이터를 Elastic 등 공개 SW를 활용하여 클라우드에서 처리하여 실시간 결정을 위한 참조 정보 제공

나. 데이터 레이크(Data Lake) 기술요소

구분기술요소상세 설명
Data Source
(생성자)
Real-time data, Macro, Batch, Application실시간/배치 파일로 정형/비정형/반정형 데이터 원천 생성자
Ingestion Layer
(수징)
Database, Webserver, FTP, IoT, Storage데이터 수집 프로시저, 웹서버, 파일서버, IoT 기반 스토리지 수집
Caching Layer
(저장)
SQL, NoSQL, Elastic Search, Neo4J, Stream사전 정의된 데이터, 그래픽 등 비관계적 데이터를 임시 또는 영구적으로 저장
Processing Layer
(처리)
Elastic Search, HDFS, Metadata Management알고리즘 실행, 요구사항 전처리 및 실시간 처리
Insight Layer
(통찰, 활용)
Data Discovery, Data Dashboard시스템 모니터링, BI, 정책결정, 방향 즉시평가 참조 활용
  • 최근 데이터 저장과 분석을 분리한 데이터 독립과 고속의 스키마 온 리드(Scheme on Read) 아키텍처로 발전

 

III. 데이터 레이크(Data Lake)와 데이터 웨어하우스(DW)의 비교

항목Data LakeData Warehouse
데이터 범위모든 데이터원본 혹은 원형 데이터비즈니스 목표에 따른 데이터
데이터 유형정형, 비정형, 반정형정형, 구조적 데이터
운영 목적데이터 공유 및 데이터 저장소데이터 요약/최적화
주 사용자데이터 과학자업무 전문가, 현업 사용자, 경영자
접근 통제적은 통제력 제공높은 데이터 통제력 제공
데이터 단위낮은 수준의 Raw Data요약 또는 집계된 세부 수준의 데이터
주요 도구Hadoop, Map Reduce 등 오픈소스상용 솔루션
  • 그래픽, 이미지, 데이터 Set 등 비정형, 반정형 정보를 원천소스로 저장하여 오픈소스를 활용한다는 점에서 기존의 Data Warehouse와 차이로 현재 대부분 데이터 산업의 발전으로 원천의 빅데이터를 저장, 활용하는 단계로 발전

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^