1. 델타 레이크 (Delta Lake)의 개요 (1) 데이터 레이크의 문제점 및 델타 레이크의 필요성 (2) 델타 레이크의 개념 및 특징 개념 데이터 레이크의 Lakehouse 구축 위해 ACID 트랜잭션, 메타데이터 처리, 스트리밍 기반 다양한 형식의 데이터를 저장하는 스토리지 프레임워크 특징 데이터 신뢰성 보장 빅데이터 워크로드에 대한 ACID 직렬 트랜잭션 기반 데이터 무결성, 신뢰성 보장 확장 가능
1. 데이터 전처리 (Data Preprocessing)의 개념 개념 데이터의 정합성과 가치 확보 위해 정제, 통합, 변환 등의 과정을 통해 데이터 분석 및 처리에 적합하도록 데이터를 조작하는 과정 완벽한 데이터 획득은 실제로 불가능하며, GIGO 이론에 따라 고품질의 데이터 분석을 위해서는 데이터 측정/수집 과정에서 발생한 오류에 대해 중복 제어, 모순/불일치 해소, 결측치/이상치를 처리하여 분석에 용이한 형태로 변환하여 제공하는
1. CDC (Change Data Capture)의 개념 개념도 개념 소스/대상 DB 간 데이터 동기화를 위해 트랜잭션 발생 시 변경 로그를 추출/전송하여 대상 DB에 반영하는 데이터 통합 기술 특징 실시간 데이터 동기화 변경 데이터 추출로 준실시간 동시 운영 환경 구축 운영 DBMS 부하 감소 트랜잭션 로그를 추출하여 DBMS 시스템 부하 감소 신뢰성 있는 데이터 복제 동기화된 소스
1. ETL (Extract, Transform, Load)의 개념 및 필요성 개념도 개념 BI, 고급 분석 등 위해 다양한 소스의 데이터를 추출(Extract)하고 변환(Transform)하여 데이터 웨어하우스, 데이터 레이크 등에 적재(Load)하는 데이터 통합 프로세스 현대 데이터 분석 환경은 데이터 규모/소스/유형 증가와 BI(Business Intelligence) 업무, 머신 러닝 등 고급 분석 필요성이 증가하여 센서, CRM, ERP의 원시 데이터를 필요한 시스템에서 사용하도록 정형화하여
1. Headless CMS의 개요 (1) Headless CMS의 개념 및 특징 Headless CMS: Headless Content Management System 개념 특징 자유로운 콘텐츠 전달 채널 제공 위해 내장된 front-end 없이 back-end의 콘텐츠를 API 기반 제공하는 콘텐츠 관리 시스템 – 웹앱, IoT 기기 등 멀티 콘텐츠 채널 제공 – 프론트/백엔드 분리로 모놀리식 단점 보완 – 콘텐츠 제작 및 개발에
1. 벡터 데이터베이스 (Vector Database)의 개념, 필요성 개념 필요성 대량의 고차원 데이터 저장 및 조회 위해 컨텐츠 벡터 임베딩 및 쿼리 벡터 유사도 비교 기반 신속하게 인덱싱하는 데이터베이스 – 고차원 데이터 저장 및 조회 수요 증가 – 데이터 내용 유사성에 따른 맥락 이해 – AI 서비스의 신속한 연산 처리 요구 – 대규모 언어 모델에 장기
1. 그래프QL (GraphQL)의 개념 및 특징 개념 특징 데이터 접근성 보장을 위해 서버에서 정확히 지정된 구조로 데이터를 반환하도록 필요 데이터 구조를 지정하는 데이터 질의어 – 오버페칭과 언더페칭 해결 – 하나의 엔드포인트에 여러 API 요청 – 오브젝트의 필요한 필드만 요청 – 클라이언트 로직 간결화 그래프QL은 그래프(Graph)가 현실 세계의 데이터를 표현하는 적합한 방법이라는 사실에 착안하여 메타(구 페이스북)에서
1. 데이터베이스 스키마(Schema)의 개요 (1) 데이터베이스 스키마의 개념 데이터 개체(entity), 속성(attribute), 관계(relationship)를 포함하는 데이터베이스 구조(structure)와 제약조건(constraints)에 대한 명세 (2) 데이터베이스 스키마의 특징 메타데이터 시스템 카탈로그(데이터 사전)에 저장되며, 데이터에 관한 데이터를 의미 데이터 모델링 현실 세계의 특정한 부분을 추상화하여 데이터 모델로 표현 시간 불변성 스키마는 시간의 흐름에 따라 변하지 않음 구조화 데이터의 구조적 특성을 의미하며, 인스턴스에
1. 데이터 웨어하우스와 데이터 레이크의 개념/처리과정 비교 항목 데이터 웨어하우스 (Data Warehouse) 데이터 레이크 (Data Lake) 개념 기업 및 조직의 데이터 기반 의사결정을 지원하기 위해 데이터를 추출, 변환, 적재(ETL)하여 분석, 시각화를 제공하는 통합 데이터 저장소 AI/ML 및 고급 분석을 위해 정형, 비정형의 다양한 원천 데이터를 그대로 수집/적재 하여 변환, 분석, 시각화를 제공하는 통합 데이터 저장소
1. 데이터베이스 수평 분할, 샤딩(Sharding)의 개념 개념도 개념 물리적으로 다른 데이터베이스에 동일한 테이블 스키마를 가진 데이터를 수평 분할하여 분산 저장 및 조회하는 데이터베이스 수평 분할 기법 샤딩 기법은 RDBMS 뿐 아니라 MongoDB 등 NoSQL, 블록체인 등에서도 활용하는 Scale-out 방식의 신뢰성 확보 및 성능 개선 기법 2. 샤드(Shard) 분할 기법 및 분할 시 고려사항 (1)