[카테고리:] 데이터베이스

SEMMA (Sample, Explore, Modify, Model, and Assess)

1. 데이터 마이닝 방법론, SEMMA의 개념 SEMMA (Sample, Explore, Modify, Model, and Assess): 샘플링, 탐색, 수정, 모델링, 평가 절차 개념 이전에 알려지지 않았던 패턴 발견 위해 대량의 데이터를 샘플링, 탐색, 수정, 모델링 및 평가하는 데이터 마이닝 방법론 특징 데이터 샘플링 샘플은 중요한 정보 포함하고 처리 가능한 크기여야 함 데이터 패턴 도출 예상 못한 추세, 이상

CRISP-DM (Cross-Industry Standard Process for Data Mining)

1. 데이터 마이닝 방법론, CRISP-DM의 개념 CRISP-DM (Cross-Industry Standard Process for Data Mining): 데이터 마이닝을 위한 산업 간 표준 절차 개념 비즈니스 이해를 바탕으로 데이터를 분석하기 위해 6단계 프로세스 기반 비즈니스 상황에 따른 통계적 규칙, 패턴을 찾아내는 데이터 마이닝 방법론 특징 6단계 프로세스 ① 비즈니스 이해 ② 데이터 이해 ③ 데이터 준비 ④ 모델링 ⑤

KDD (Knowledge Discovery in Database)

1. 데이터 마이닝 방법론, KDD의 개요 KDD (Knowledge Discovery in Database) (1) KDD의 개념 및 특징 개념 특징 DW, OLAP, SQL, 데이터 분석 Tool 등을 이용하여 데이터에 잠재된 유용한 지식 및 패턴을 발견하여 조직의 구조와 프로세스를 변경하는 데이터 마이닝 방법론 – 데이터 범람 문제 해결 지원 – 유용한 정보 검색 위한 선별 작업 – DB

ODS (Operational Data Store)

1. ODS (Operational Data Store)의 개념 및 특징 개념 데이터에 추가 작업 위해 다양한 데이터 원천(Source)들로부터의 데이터를 추출·통합한 데이터베이스 특징 데이터 통합/보정 – 데이터 클린징, 중복 제거, 비즈니스 규칙에 따른 무결성 점검 하위 수준 데이터 저장 – 실시간(Real-time), 실시간 근접(Near Real-time) 트랜잭션이나 원자성을 지닌 하위 수준 데이터 저장 ODS 내 데이터는 향후 비즈니스 지원을 위해

델타 레이크 (Delta Lake)

1. 델타 레이크 (Delta Lake)의 개요 (1) 데이터 레이크의 문제점 및 델타 레이크의 필요성 (2) 델타 레이크의 개념 및 특징 개념 데이터 레이크의 Lakehouse 구축 위해 ACID 트랜잭션, 메타데이터 처리, 스트리밍 기반 다양한 형식의 데이터를 저장하는 스토리지 프레임워크 특징 데이터 신뢰성 보장 빅데이터 워크로드에 대한 ACID 직렬 트랜잭션 기반 데이터 무결성, 신뢰성 보장 확장 가능

데이터 전처리 (Data Preprocessing)

1. 데이터 전처리 (Data Preprocessing)의 개념 개념 데이터의 정합성과 가치 확보 위해 정제, 통합, 변환 등의 과정을 통해 데이터 분석 및 처리에 적합하도록 데이터를 조작하는 과정 완벽한 데이터 획득은 실제로 불가능하며, GIGO 이론에 따라 고품질의 데이터 분석을 위해서는 데이터 측정/수집 과정에서 발생한 오류에 대해 중복 제어, 모순/불일치 해소, 결측치/이상치를 처리하여 분석에 용이한 형태로 변환하여 제공하는

CDC (Change Data Capture)

1. CDC (Change Data Capture)의 개념 개념도 개념 소스/대상 DB 간 데이터 동기화를 위해 트랜잭션 발생 시 변경 로그를 추출/전송하여 대상 DB에 반영하는 데이터 통합 기술 특징 실시간 데이터 동기화 변경 데이터 추출로 준실시간 동시 운영 환경 구축 운영 DBMS 부하 감소 트랜잭션 로그를 추출하여 DBMS 시스템 부하 감소 신뢰성 있는 데이터 복제 동기화된 소스

ETL (Extract, Transform, Load)

1. ETL (Extract, Transform, Load)의 개념 및 필요성 개념도 개념 BI, 고급 분석 등 위해 다양한 소스의 데이터를 추출(Extract)하고 변환(Transform)하여 데이터 웨어하우스, 데이터 레이크 등에 적재(Load)하는 데이터 통합 프로세스 현대 데이터 분석 환경은 데이터 규모/소스/유형 증가와 BI(Business Intelligence) 업무, 머신 러닝 등 고급 분석 필요성이 증가하여 센서, CRM, ERP의 원시 데이터를 필요한 시스템에서 사용하도록 정형화하여

Headless CMS (Content Management System)

1. Headless CMS의 개요 (1) Headless CMS의 개념 및 특징 Headless CMS: Headless Content Management System 개념 특징 자유로운 콘텐츠 전달 채널 제공 위해 내장된 front-end 없이 back-end의 콘텐츠를 API 기반 제공하는 콘텐츠 관리 시스템 – 웹앱, IoT 기기 등 멀티 콘텐츠 채널 제공 – 프론트/백엔드 분리로 모놀리식 단점 보완 – 콘텐츠 제작 및 개발에

벡터 데이터베이스 (Vector Database)

1. 벡터 데이터베이스 (Vector Database)의 개념, 필요성 개념 필요성 대량의 고차원 데이터 저장 및 조회 위해 컨텐츠 벡터 임베딩 및 쿼리 벡터 유사도 비교 기반 신속하게 인덱싱하는 데이터베이스 – 고차원 데이터 저장 및 조회 수요 증가 – 데이터 내용 유사성에 따른 맥락 이해 – AI 서비스의 신속한 연산 처리 요구 – 대규모 언어 모델에 장기