[카테고리:] 데이터베이스

정렬 합병 조인 (Sort Merge Join)

I. 동시 스캔 조인 방식, 정렬 합병 조인 가. 정렬 합병 조인(Sort Merge Join)의 개념 두 테이블이 모두 정렬 시 조인 애트리뷰트 순서에 따라 동시 스캔하며 A, B값이 동일 레코드 검색 나. 정렬 합병 조인 특징 연결 시 랜덤 액세스 미수행 정렬 영역에 따라 사용 효율 차이 발생   II. 정렬 합병 조인 구성도 및

중첩 반복 조인 (Nested Loop Join)

I. 중첩 반복 조인(Nested Loop Join) 가. 중첩 반복 조인(Nested Loop Join)의 개념 다수 테이블에서 하나의 집합 기준 순차적 상대방 Row 결합하여 필요 결과 추출하는 조인 기법 나. 중첩 반복 조인의 특징 주로 좁은 범위에서 유리 순차적 처리, Random Access 위주 후행 테이블에 조인 위한 인덱스 생성 필요   II. 중첩 반복 조인 절차 구성도

데이터베이스 조인(Join) 유형

I. 조인의 개념 한 데이터베이스 내 여러 테이블을 조합하여 하나의 테이블로써 사용하기 위한 조합 방법   II. 조인의 유형 가. 논리적 조인의 종류 조인 종류 설명 Inner Join – 두 개의 관련 키로 컬럼 비교 – 조인 조건에 맞는 행만 검색 Outer Join – 조인 키에 대응되는 row가 없는 경우 null로 추출 (LEFT, RIGHT, FULL)

데이터베이스 언어 (DDL, DML, DCL)

I. DDL, DML, DCL, 데이터베이스 언어 가. 데이터베이스 언어의 개념 데이터 정의, 조작, 제어를 통한 데이터베이스 구축 및 사용자와 데이터베이스 간 통신수단   II. 데이터베이스 언어의 종류 가. 데이터 정의 언어 (DDL: Data Definition Language) – DB구조, 데이터 형식, 접근 방식 등 DB 구축, 수정 목적으로 사용하는 언어 구성요소 설명 CREATE – Schema, Domain, Table,

데이터베이스 반정규화

I. 성능 향상을 위한 데이터 중복 허용, 반정규화 개념 필요성 데이터베이스 정규화 후 성능향상, 개발편의성 등 위해 정규화기법 위배행위 의도적 수행 기법 – 다수 Join시 성능하락 방지 – 개발 및 운영 단순화 – DB 검색 성능 향상   II. 반정규화 필요 대상 및 유형 가. 반정규화 필요 대상 구분 필요 대상 설명 접근빈도 측면 고빈도 테이블 – 단일

함수적 종속성 (FD, Functional Dependency)

I. 데이터 일관성 보장의 이해, 함수적 종속성 개념도 개념 – 두 튜플 T1, T2에 대하여, T1[x]=T2[x]이면, T1[y]=T2[y] 데이터 속성의 의미와 속성 간 상호 관계로부터 발생하는 제약조건(Constraints)의 일종, FD – FD(Functional Dependency) II. 함수적 종속성의 유형 유형 종속성 사례 설명 정규화 완전/부분 함수 종속 [학번] → 이름: 부분 [학과,과목]→성적:완전 – 부분함수 종속 제거 2차 정규화 적용

카프카 (Kafka)

I. 대용량 실시간 로그 처리, 카프카 가. 카프카의 개념 대용량 실시간 처리 위한 확장성과 고가용성을 가지는 publish-subscribe 구조의 오픈소스 분산 메시징 시스템 나. 카프카의 특징 비휘발성 메시지 – 디스크 구조로 설계, 별도의 설정하지 않아도 데이터 영속성 보장 TCP 기반 프로토콜 – TCP 기반의 프로토콜을 사용하여 프로토콜에 의한 오버헤드 감소   II. 카프카의 아키텍처 및 구성 요소 가.

스톰 (Apache Storm)

I. 빅데이터 실시간 처리, 스톰 가. 스톰의 개념 데이터 실시간 처리를 위해 개발된 범용 분산 환경 기반 실시간 데이터 처리시스템 나. 스톰의 특징 실시간 처리 – 인메모리기반 실시간 스트리밍 처리 방식 스트리밍 – IoT 등 지속적 발생 데이터 처리 솔루션   II. 스톰의 아키텍처 및 구성 요소 가. 스톰의 아키텍처 – 스톰의 클러스터는 마스터 노드(Nimbus)와

스파크 (Apache Spark)

I. 범용 분산 플랫폼, 스파크 가. 스파크의 개념 디스크 I/O를 효율화하고 데이터 분석 작업에 용이한 인메모리 컴퓨팅 기반 데이터 분산처리 시스템 나. 스파크의 특징 HDFS 사용 – 하둡의 파일시스템 기반 동작 직관적 이해 – 스칼라 기반 최소화 코드로 작성 RDD – RDD 단위로 데이터 연산을 수행   II. 스파크의 구조 및 구성요소 가. 스파크의 구조

하둡 2.0 (Hadoop 2.0)

I. YARN 기반 빅데이터 관리, Hadoop 2.0 개념 하둡 1.0 대비 개선점 기존 Hadoop 1.0 시스템의 네임 노드 SPOF 취약점을 보완한 YARN기반 빅데이터 분산처리 시스템 – Job Tracker 분리 – YARN 기반 분산처리 확대 – Name Node 고가용성 지원   II. 하둡 2.0 구성도 및 구성요소 가. 하둡 2.0 구성도/동작방식 – 클러스터 전반 자원 관리