1. 데이터 웨어하우스와 데이터 레이크의 개념/처리과정 비교 항목 데이터 웨어하우스 (Data Warehouse) 데이터 레이크 (Data Lake) 개념 기업 및 조직의 데이터 기반 의사결정을 지원하기 위해 데이터를 추출, 변환, 적재(ETL)하여 분석, 시각화를 제공하는 통합 데이터 저장소 AI/ML 및 고급 분석을 위해 정형, 비정형의 다양한 원천 데이터를 그대로 수집/적재 하여 변환, 분석, 시각화를 제공하는 통합 데이터 저장소
1. IMDG(In-Memory Data Grid)의 개요 (1) IMDG의 개념 대용량 데이터 관리 위해 다수의 컴퓨터 메모리를 그리드로 연결하여 주 데이터 저장소로 활용하는 고가용성 및 확장성 제공 분산 메모리 시스템 (2) IMDG의 특징 및 요구사항 특징 요구사항 세부 사항 고가용성 복제 데이터 복제를 통한 이중화 구성 지속적 관리 Write-through, Write-behind, DRM 확장성 파티셔닝 데이터 분할 규칙에 따른
I. 데이터 활용 패러다임의 전환, 데이터 주권 가. 데이터 주권의 개념과 국가 동향 개념 신체나 재산의 권리처럼, 각 주체에 정보 권리를 부여해 자신의 데이터가 어디서, 어떻게, 어떤 목적으로 사용될 지 결정할 수 있는 권리 국가 동향 나. 데이터 주권의 중요성 구분 중요성 세부 설명 국가차원 국내 데이터 보호 자국 내 데이터 현지 보관, 해외반출 금지
I. 비정형 데이터 저장 기반, 오브젝트 스토리지 가. 오브젝트 스토리지의 개념 데이터에 식별자를 부여하여 컨테이너에 저장, 필요 시 식별자로 호출하여 비정형 데이터 처리에 우수한 저장장치 나. 오브젝트 스토리지의 특징 메타데이터 – 식별자 기반 오브젝트 단위 서비스 중복 최소화 – 단일 오브젝트를 여러 사용자가 공유 컨텐츠 수명 – 컨텐츠 수명(보유 기간) 주기 지정 가능 II.
I. Polyglot 환경 빅데이터 분석, 람다 아키텍처 가. 람다 아키텍처의 개념 데이터 대상 분석 기능 수행 위해 배치, 스피드, 서빙 레이어로 구성된 데이터 분석 아키텍처 나. 람다 아키텍처의 특징 범용성, 확장성, 결함허용성 전송 지연최소화, 분석 결과 일관성, 성능, 확장의 균형, 정확성 다. 람다 아키텍처의 구성도 저장된 데이터를 일괄 처리하는 배치 레이어와 실시간 유입 데이터 처리용
I. 대용량 실시간 로그 처리, 카프카 가. 카프카의 개념 대용량 실시간 처리 위한 확장성과 고가용성을 가지는 publish-subscribe 구조의 오픈소스 분산 메시징 시스템 나. 카프카의 특징 비휘발성 메시지 – 디스크 구조로 설계, 별도의 설정하지 않아도 데이터 영속성 보장 TCP 기반 프로토콜 – TCP 기반의 프로토콜을 사용하여 프로토콜에 의한 오버헤드 감소 II. 카프카의 아키텍처 및 구성 요소 가.
I. 범용 분산 플랫폼, 스파크 가. 스파크의 개념 디스크 I/O를 효율화하고 데이터 분석 작업에 용이한 인메모리 컴퓨팅 기반 데이터 분산처리 시스템 나. 스파크의 특징 HDFS 사용 – 하둡의 파일시스템 기반 동작 직관적 이해 – 스칼라 기반 최소화 코드로 작성 RDD – RDD 단위로 데이터 연산을 수행 II. 스파크의 구조 및 구성요소 가. 스파크의 구조
I. 분산 환경 최적 DBMS, NoSQL의 개념 테이블-컬럼 스키마 없이 분산 환경에서 Key-Value 기반 단순 검색 및 추가 작업이 용이한 DBMS II. NoSQL 데이터 모델 구조 모델 구조 개념도 설명 Key/Value Store Key/Value Model Column Family Model – Unique한 Key에 하나의 Value 형태 모델 – Column Family Key 내 (Column, Value) 조합으로 된 여러 필드를 갖는 모델 Ordered Key/Value Store – Key/Value Store의 확장된 형태로, 데이터가 Key 순서로Sorting Document Key/Value Store – 저장되는 Value 데이터가 Document 타입