[태그:] HDFS

카프카 (Kafka)

I. 대용량 실시간 로그 처리, 카프카 가. 카프카의 개념 대용량 실시간 처리 위한 확장성과 고가용성을 가지는 publish-subscribe 구조의 오픈소스 분산 메시징 시스템 나. 카프카의 특징 비휘발성 메시지 – 디스크 구조로 설계, 별도의 설정하지 않아도 데이터 영속성 보장 TCP 기반 프로토콜 – TCP 기반의 프로토콜을 사용하여 프로토콜에 의한 오버헤드 감소   II. 카프카의 아키텍처 및 구성 요소 가.

스파크 (Apache Spark)

I. 범용 분산 플랫폼, 스파크 가. 스파크의 개념 디스크 I/O를 효율화하고 데이터 분석 작업에 용이한 인메모리 컴퓨팅 기반 데이터 분산처리 시스템 나. 스파크의 특징 HDFS 사용 – 하둡의 파일시스템 기반 동작 직관적 이해 – 스칼라 기반 최소화 코드로 작성 RDD – RDD 단위로 데이터 연산을 수행   II. 스파크의 구조 및 구성요소 가. 스파크의 구조

하둡 2.0 (Hadoop 2.0)

I. YARN 기반 빅데이터 관리, Hadoop 2.0 개념 하둡 1.0 대비 개선점 기존 Hadoop 1.0 시스템의 네임 노드 SPOF 취약점을 보완한 YARN기반 빅데이터 분산처리 시스템 – Job Tracker 분리 – YARN 기반 분산처리 확대 – Name Node 고가용성 지원   II. 하둡 2.0 구성도 및 구성요소 가. 하둡 2.0 구성도/동작방식 – 클러스터 전반 자원 관리