1. 대용량 실시간 로그 처리, 카프카 (Kafka) (1) 카프카 (Kafka)의 개념 대용량 실시간 처리 위한 확장성과 고가용성을 가지는 publish-subscribe 구조의 오픈소스 분산 메시징 시스템 (2) 카프카의 특징 비휘발성 메시지 – 디스크 구조로 설계, 별도의 설정하지 않아도 데이터 영속성 보장 TCP 기반 프로토콜 – TCP 기반의 프로토콜을 사용하여 프로토콜에 의한 오버헤드 감소 2. 카프카 아키텍처
1. 범용 분산 플랫폼, 스파크 (1) 스파크의 개념 디스크 I/O를 효율화하고 데이터 분석 작업에 용이한 인메모리 컴퓨팅 기반 데이터 분산처리 시스템 (2) 스파크의 특징 HDFS 사용 – 하둡의 파일시스템 기반 동작 직관적 이해 – 스칼라 기반 최소화 코드로 작성 RDD – RDD 단위로 데이터 연산을 수행 2. 스파크 구조 및 구성요소 (1) 스파크 구조
1. YARN 기반 빅데이터 관리, Hadoop 2.0 개념 하둡 1.0 대비 개선점 기존 Hadoop 1.0 시스템의 네임 노드 SPOF 취약점을 보완한 YARN기반 빅데이터 분산처리 시스템 – Job Tracker 분리 – YARN 기반 분산처리 확대 – Name Node 고가용성 지원 2. 하둡 2.0 구성도 및 구성요소 (1) 하둡 2.0 구성도/동작방식 클러스터 전반 자원 관리 담당