2019년 4월 16일
데이터 리니지
I. 데이터 계보 관리, 데이터 리니지
가. 데이터 리니지의 개념
- 데이터의 흐름을 시각화하고 계보로 구현한 메타데이터 기반 데이터 계보 관리 솔루션
나. 데이터 리니지 등장 배경
기업 업무의 복잡성, 시스템 간 연계 증가 → 데이터 계보 파악 니즈 증가 사례) DW기반 기업에서 BI 데이터 정합성 문제 |
다. 데이터 리니지의 특징
데이터 생명주기 | – 생성, 변경, 이동 등 전 생명주기 관리 |
적시 확인 | – 데이터 최적화 형태 적시 확인 |
정확성, 안전성 | – 데이터 계보 현행화 시스템 안정성 향상 |
II. 데이터 리니지 구성도 및 구성요소
가. 데이터 리니지 구성도
나. 데이터 리니지 절차 별 구성요소
절차 | 구성요소 | 설명 |
---|---|---|
수집/ 분석 | EDF | – AP, ETT, DA 모델 |
외부 솔루션 | – BI/DW, EAI, ETL, CDC, Log | |
적재/ 관리 | 맵핑정보 | – Data Flow, Data Mgmt. |
메타데이터 | – 데이터모델, 맵핑/시스템정보 | |
시각화 | 시각화 툴 | – 데이터 맵, 테이블/컬럼 흐름 |
리포팅 | – 연관레포팅, BI 리포팅 |
- 데이터 기반 비즈니스 영위 기업 증가에 따라 데이터 계보 관리 필요성 및 수요 증가 전망
4 Comments
안녕하세요. 도리님 블로그 많이 보고있습니다. 데이터 리니지는 데이터 레이크와 연관 지어서 생각되는데 .. 실무적은 솔루션 영역으로 풀어가야 할까요?
아 그리고 실례지만.. 혹시 멘토링 하십니까? 지도 받고 싶습니다 ㅜㅜ
데이터 리니지는 데이터 흐름 시각화 관점의 기술이고, 데이터 레이크는 데이터 활용 관점의 기술이므로, 데이터 리니지나 데이터 레이크 모두 데이터 거버넌스의 일환으로 보면 될 듯 합니다. 예를 들어 데이터 레이크에 수집/저장/활용되는 흐름을 데이터 리니지 관점으로 시각화하는 것을 들 수 있습니다. 시험 답안에 작성하실 때는 기술 중심으로 작성하시되 실무적인 부분은 간글이나 추가 단락에 제시하시는 것을 권장드립니다.
멘토링은 여건상 하지 않고 있으니 양해부탁드리며, 이와 관련하여 추천 메일 드렸으니 참고해주시기 바랍니다.^^
안녕하세요 도리님. 혹시 데이터 리니지를 구현한 솔루션이 있을까요? 있다면 그 중에 추천해주실 만한 게 있을까요?
국내에서는 지티원, 엔코아, 데이터스트림즈 등의 업체가 데이터 리니지 솔루션을 보유하고 있는 것으로 보이며, 해외에는 Talend Open Studio나 Apatar 같은 오픈소스 데이터 리니지 도구 들이 있습니다. 솔루션 선택 시 관리해야할 데이터의 특성을 고려해서 제품이나 솔루션 별 특징을 살펴보시고, 필요 시 BMT 등을 통해 최적의 제품을 선택하는 것을 추천드립니다.