1. KDD (Knowledge Discovery in Database)의 개요
(1) KDD의 개념 및 특징
개념 | 특징 |
---|---|
DW, OLAP, SQL, 데이터 마이닝 Tool 등을 이용하여 데이터에 잠재된 유용한 지식 및 패턴을 발견하여 조직의 구조와 프로세스를 변경하는 데이터 분석 방법론 | – 데이터 범람 문제 해결 지원 – 유용한 정보 검색 위한 선별 작업 – DB 이론, 통계, 패턴인식 등 여러 분야에 접목하여 패턴 발견 지원 |
(2) KDD 패턴 탐색 프로세스
① | 분석 대상 비즈니스 도메인의 이해 |
② | 분석 대상 데이터셋 선택과 생성 |
③ | 데이터에 포함된 노이즈, 이상값 제거/정제 |
④ | 분석 목적에 맞는 변수 탐색, 데이터의 차원 축소 |
⑤ | 분석 목적에 맞는 데이터 마이닝 기법 선택 |
⑥ | 분석 목적에 맞는 데이터 마이닝 알고리즘 선택 |
⑦ | 데이터 마이닝 시행 |
⑧ | 데이터 마이닝 결과에 대한 해석 |
⑨ | 데이터 마이닝에서 발견된 지식 활용 |
2. KDD 기반 데이터 분석 절차 및 단계 별 세부 활동
(1) KDD 기반 데이터 분석 절차
(2) KDD 기반 데이터 분석 단계 별 세부 활동
# | 데이터 분석 단계 | 세부 활동 |
---|---|---|
① | 데이터셋 선택 (Selection) | – 도메인에 대한 이해와 프로젝트 목표 설정 – DB 또는 원시 데이터에서 필요한 데이터를 선택 |
② | 데이터 전처리 (Preprocessing) | – 잡음(Noise), 이상값(Outlier), 결측치(Missing Value) 식별 – 필요 시 제거 및 의미있는 데이터로 처리/정제 |
③ | 데이터 변환 (Transformation) | – 분석 목적에 맞는 변수를 선택, 데이터의 차원을 축소 – 데이터 마이닝을 효율적으로 적용되도록 데이터셋 변경 |
④ | 데이터 마이닝 (Data Mining) | – 분석 목적에 맞는 데이터 마이닝 기법 선택 – 패턴 탐색, 분류, 예측 등 마이닝 작업 시행 |
⑤ | 데이터 마이닝 결과 평가 (Interpretation/Evaluation) | – 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인 – 발견된 지식을 업무에 활용하기 위한 방안 수립 |
- KDD는 마케팅, 제품 유지보수, 자원관리, 신용카드 이상탐지 등 금융 산업 등 여러 산업에 활용 가능
3. KDD 기반 데이터 분석 시스템 분석 사례
분석 아키 텍처 | |
---|---|
분석 절차 | ① 다양한 DB 와 Web Data 등에서 필요한 데이터를 선별하여 추출 ② DW, OLAP 서버들을 활용하여 다차원 쿼리 준비 ③ 데이터 마이닝 OLAP, SQL I/F 등의 기능 수행 가능한 통합 KDD Server 구축 ④ 새로운 지식 탐색이 있는 경우 필요한 데이터 선별부터 프로세스 수행 후 지식 반환 |
- KDD는 CRISP-DM, SEMMA 등과 함께 다양한 산업 분야에서 다양한 형태로 활용 가능
[참고]
- 한국데이터산업진흥원(Kdata), 데이터 분석 전문가 가이드, 2021.3