[월:] 2025년 01월

랜덤 포레스트 (Random Forest)

1. 랜덤 포레스트 (Random Forest)의 개요 개념도 개념 분류/회귀 분석 등에 사용하기 위해 다수 의사결정 트리를 결합하여 분류/회귀 모형을 생성하는 앙상블 기반 머신러닝 학습 기법 특징 임의성 임의로 각 트리들이 서로 다른 특성을 가짐 과적합 극복 임의화를 통한 과적합 문제를 극복 앙상블 학습 기법 중 bagging 보다 더 많은 임의성을 주어 학습기 생성 후 결합하여

PET (Privacy-Enhancing Technology)

1. PET (Privacy-Enhancing Technology)의 개요 PET(Privacy-Enhancing or Privacy-Enhanced Technology): 개인정보 보호 강화 기술 배경 디지털전환 가속화로 데이터 분석을 통해 가치있는 정보를 생산/획득할 수 있게 되었지만 데이터 처리 과정에서 역공학 등으로 악용 사례가 증가하여 EU의 GDPR, 국내 데이터 3법 등을 통해 데이터를 안전하게 수집·처리·파기할 수 있는 제도가 마련됨 이러한 데이터 보호 제도에 맞추어 안전하게 대규모 데이터

SEMMA (Sample, Explore, Modify, Model, and Assess)

1. 데이터 마이닝 방법론, SEMMA의 개념 SEMMA (Sample, Explore, Modify, Model, and Assess): 샘플링, 탐색, 수정, 모델링, 평가 절차 개념 이전에 알려지지 않았던 패턴 발견 위해 대량의 데이터를 샘플링, 탐색, 수정, 모델링 및 평가하는 데이터 마이닝 방법론 특징 데이터 샘플링 샘플은 중요한 정보 포함하고 처리 가능한 크기여야 함 데이터 패턴 도출 예상 못한 추세, 이상

CRISP-DM (Cross-Industry Standard Process for Data Mining)

1. 데이터 마이닝 방법론, CRISP-DM의 개념 CRISP-DM (Cross-Industry Standard Process for Data Mining): 데이터 마이닝을 위한 산업 간 표준 절차 개념 비즈니스 이해를 바탕으로 데이터를 분석하기 위해 6단계 프로세스 기반 비즈니스 상황에 따른 통계적 규칙, 패턴을 찾아내는 데이터 마이닝 방법론 특징 6단계 프로세스 ① 비즈니스 이해 ② 데이터 이해 ③ 데이터 준비 ④ 모델링 ⑤

KDD (Knowledge Discovery in Database)

1. 데이터 마이닝 방법론, KDD의 개요 KDD (Knowledge Discovery in Database) (1) KDD의 개념 및 특징 개념 특징 DW, OLAP, SQL, 데이터 분석 Tool 등을 이용하여 데이터에 잠재된 유용한 지식 및 패턴을 발견하여 조직의 구조와 프로세스를 변경하는 데이터 마이닝 방법론 – 데이터 범람 문제 해결 지원 – 유용한 정보 검색 위한 선별 작업 – DB

ODS (Operational Data Store)

1. ODS (Operational Data Store)의 개념 및 특징 개념 데이터에 추가 작업 위해 다양한 데이터 원천(Source)들로부터의 데이터를 추출·통합한 데이터베이스 특징 데이터 통합/보정 – 데이터 클린징, 중복 제거, 비즈니스 규칙에 따른 무결성 점검 하위 수준 데이터 저장 – 실시간(Real-time), 실시간 근접(Near Real-time) 트랜잭션이나 원자성을 지닌 하위 수준 데이터 저장 ODS 내 데이터는 향후 비즈니스 지원을 위해