I. 대용량 실시간 로그 처리, 카프카 가. 카프카의 개념 대용량 실시간 처리 위한 확장성과 고가용성을 가지는 publish-subscribe 구조의 오픈소스 분산 메시징 시스템 나. 카프카의 특징 비휘발성 메시지 – 디스크 구조로 설계, 별도의 설정하지 않아도 데이터 영속성 보장 TCP 기반 프로토콜 – TCP 기반의 프로토콜을 사용하여 프로토콜에 의한 오버헤드 감소 II. 카프카의 아키텍처 및 구성 요소 가.
I. 범용 분산 플랫폼, 스파크 가. 스파크의 개념 디스크 I/O를 효율화하고 데이터 분석 작업에 용이한 인메모리 컴퓨팅 기반 데이터 분산처리 시스템 나. 스파크의 특징 HDFS 사용 – 하둡의 파일시스템 기반 동작 직관적 이해 – 스칼라 기반 최소화 코드로 작성 RDD – RDD 단위로 데이터 연산을 수행 II. 스파크의 구조 및 구성요소 가. 스파크의 구조
I. YARN 기반 빅데이터 관리, Hadoop 2.0 개념 하둡 1.0 대비 개선점 기존 Hadoop 1.0 시스템의 네임 노드 SPOF 취약점을 보완한 YARN기반 빅데이터 분산처리 시스템 – Job Tracker 분리 – YARN 기반 분산처리 확대 – Name Node 고가용성 지원 II. 하둡 2.0 구성도 및 구성요소 가. 하둡 2.0 구성도/동작방식 – 클러스터 전반 자원 관리