도리의 디지털라이프

도리

7년 ago

데이터 레이크 (Data Lake)

I. 단일 통합 데이터 저장소, 데이터 레이크(Data Lake)의 개요

가. 데이터 레이크(Data Lake)의 개념

정형, 반정형, 비정형의 다양한 원형(Raw) 데이터들을 실시간으로 수집, 전처리, 변환, 저장, 제공하는 통합 데이터 저장소, 데이터 호수

나. 데이터 레이크(Data Lake)의 부각 배경

부각 배경	주요 이슈
Hadoop의 등장	데이터 레이크로의 전환 용이
비즈니스 민첩성 요구	비즈니스 유연성 및 신속성 제공 필요성 증가
머신러닝 및 AI 활용	인공지능 및 기계학습으로 예측 가능
Silo 회피	사일로(Silo) 데이터의 통합 필요

II. 데이터 레이크(Data Lake)의 구성도 및 기술요소

가. 데이터 레이크(Data Lake) 구성도

방대한 원천 소스인 빅데이터를 Elastic 등 공개 SW를 활용하여 클라우드에서 처리하여 실시간 결정을 위한 참조 정보 제공

나. 데이터 레이크(Data Lake) 기술요소

구분	기술요소	상세 설명
Data Source (생성자)	Real-time data, Macro, Batch, Application	실시간/배치 파일로 정형/비정형/반정형 데이터 원천 생성자
Ingestion Layer (수징)	Database, Webserver, FTP, IoT, Storage	데이터 수집 프로시저, 웹서버, 파일서버, IoT 기반 스토리지 수집
Caching Layer (저장)	SQL, NoSQL, Elastic Search, Neo4J, Stream	사전 정의된 데이터, 그래픽 등 비관계적 데이터를 임시 또는 영구적으로 저장
Processing Layer (처리)	Elastic Search, HDFS, Metadata Management	알고리즘 실행, 요구사항 전처리 및 실시간 처리
Insight Layer (통찰, 활용)	Data Discovery, Data Dashboard	시스템 모니터링, BI, 정책결정, 방향 즉시평가 참조 활용

최근 데이터 저장과 분석을 분리한 데이터 독립과 고속의 스키마 온 리드(Scheme on Read) 아키텍처로 발전

III. 데이터 레이크(Data Lake)와 데이터 웨어하우스(DW)의 비교

항목	Data Lake	Data Warehouse
데이터 범위	모든 데이터원본 혹은 원형 데이터	비즈니스 목표에 따른 데이터
데이터 유형	정형, 비정형, 반정형	정형, 구조적 데이터
운영 목적	데이터 공유 및 데이터 저장소	데이터 요약/최적화
주 사용자	데이터 과학자	업무 전문가, 현업 사용자, 경영자
접근 통제	적은 통제력 제공	높은 데이터 통제력 제공
데이터 단위	낮은 수준의 Raw Data	요약 또는 집계된 세부 수준의 데이터
주요 도구	Hadoop, Map Reduce 등 오픈소스	상용 솔루션

그래픽, 이미지, 데이터 Set 등 비정형, 반정형 정보를 원천소스로 저장하여 오픈소스를 활용한다는 점에서 기존의 Data Warehouse와 차이로 현재 대부분 데이터 산업의 발전으로 원천의 빅데이터를 저장, 활용하는 단계로 발전

머클트리 (Merkle Tree) »

« 이용자 중심의 지능정보사회를 위한 원칙

Categories: 디지털서비스

Tags: IngestionInsights정형반정형 데이터 저장소데이터 호수실시간데이터 레이크스토리지Data Lake원본데이터 분석/저장 분리 아키텍처비정형데이터 저장소스키마 온 라이트

도리:

Leave a Comment

Related Post