X

데이터 레이크 (Data Lake)

I. 단일 통합 데이터 저장소, 데이터 레이크(Data Lake)의 개요

가. 데이터 레이크(Data Lake)의 개념

  • 정형, 반정형, 비정형의 다양한 원형(Raw) 데이터들을 실시간으로 수집, 전처리, 변환, 저장, 제공하는 통합 데이터 저장소, 데이터 호수

나. 데이터 레이크(Data Lake)의 부각 배경

부각 배경 주요 이슈
Hadoop의 등장 데이터 레이크로의 전환 용이
비즈니스 민첩성 요구 비즈니스 유연성 및 신속성 제공 필요성 증가
머신러닝 및 AI 활용 인공지능 및 기계학습으로 예측 가능
Silo 회피 사일로(Silo) 데이터의 통합 필요

 

II. 데이터 레이크(Data Lake)의 구성도 및 기술요소

가. 데이터 레이크(Data Lake) 구성도

  • 방대한 원천 소스인 빅데이터를 Elastic 등 공개 SW를 활용하여 클라우드에서 처리하여 실시간 결정을 위한 참조 정보 제공

나. 데이터 레이크(Data Lake) 기술요소

구분 기술요소 상세 설명
Data Source
(생성자)
Real-time data, Macro, Batch, Application 실시간/배치 파일로 정형/비정형/반정형 데이터 원천 생성자
Ingestion Layer
(수징)
Database, Webserver, FTP, IoT, Storage 데이터 수집 프로시저, 웹서버, 파일서버, IoT 기반 스토리지 수집
Caching Layer
(저장)
SQL, NoSQL, Elastic Search, Neo4J, Stream 사전 정의된 데이터, 그래픽 등 비관계적 데이터를 임시 또는 영구적으로 저장
Processing Layer
(처리)
Elastic Search, HDFS, Metadata Management 알고리즘 실행, 요구사항 전처리 및 실시간 처리
Insight Layer
(통찰, 활용)
Data Discovery, Data Dashboard 시스템 모니터링, BI, 정책결정, 방향 즉시평가 참조 활용
  • 최근 데이터 저장과 분석을 분리한 데이터 독립과 고속의 스키마 온 리드(Scheme on Read) 아키텍처로 발전

 

III. 데이터 레이크(Data Lake)와 데이터 웨어하우스(DW)의 비교

항목 Data Lake Data Warehouse
데이터 범위 모든 데이터원본 혹은 원형 데이터 비즈니스 목표에 따른 데이터
데이터 유형 정형, 비정형, 반정형 정형, 구조적 데이터
운영 목적 데이터 공유 및 데이터 저장소 데이터 요약/최적화
주 사용자 데이터 과학자 업무 전문가, 현업 사용자, 경영자
접근 통제 적은 통제력 제공 높은 데이터 통제력 제공
데이터 단위 낮은 수준의 Raw Data 요약 또는 집계된 세부 수준의 데이터
주요 도구 Hadoop, Map Reduce 등 오픈소스 상용 솔루션
  • 그래픽, 이미지, 데이터 Set 등 비정형, 반정형 정보를 원천소스로 저장하여 오픈소스를 활용한다는 점에서 기존의 Data Warehouse와 차이로 현재 대부분 데이터 산업의 발전으로 원천의 빅데이터를 저장, 활용하는 단계로 발전
Categories: 디지털서비스
도리: