KDD (Knowledge Discovery in Database)

1. KDD (Knowledge Discovery in Database)의 개요

(1) KDD의 개념 및 특징

개념특징
DW, OLAP, SQL, 데이터 마이닝 Tool 등을 이용하여 데이터에 잠재된 유용한 지식 및 패턴을 발견하여 조직의 구조와 프로세스를 변경하는 데이터 분석 방법론– 데이터 범람 문제 해결 지원
– 유용한 정보 검색 위한 선별 작업
– DB 이론, 통계, 패턴인식 등 여러 분야에 접목하여 패턴 발견 지원

(2) KDD 패턴 탐색 프로세스

분석 대상 비즈니스 도메인의 이해
분석 대상 데이터셋 선택과 생성
데이터에 포함된 노이즈, 이상값 제거/정제
분석 목적에 맞는 변수 탐색, 데이터의 차원 축소
분석 목적에 맞는 데이터 마이닝 기법 선택
분석 목적에 맞는 데이터 마이닝 알고리즘 선택
데이터 마이닝 시행
데이터 마이닝 결과에 대한 해석
데이터 마이닝에서 발견된 지식 활용

 

2. KDD 기반 데이터 분석 절차 및 단계 별 세부 활동

(1) KDD 기반 데이터 분석 절차

(2) KDD 기반 데이터 분석 단계 별 세부 활동

#데이터 분석 단계세부 활동
데이터셋 선택
(Selection)
– 도메인에 대한 이해와 프로젝트 목표 설정
– DB 또는 원시 데이터에서 필요한 데이터를 선택
데이터 전처리
(Preprocessing)
– 잡음(Noise), 이상값(Outlier), 결측치(Missing Value) 식별
– 필요 시 제거 및 의미있는 데이터로 처리/정제
데이터 변환
(Transformation)
– 분석 목적에 맞는 변수를 선택, 데이터의 차원을 축소
– 데이터 마이닝을 효율적으로 적용되도록 데이터셋 변경
데이터 마이닝
(Data Mining)
– 분석 목적에 맞는 데이터 마이닝 기법 선택
– 패턴 탐색, 분류, 예측 등 마이닝 작업 시행
데이터 마이닝 결과 평가
(Interpretation/Evaluation)
– 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인
– 발견된 지식을 업무에 활용하기 위한 방안 수립
  • KDD는 마케팅, 제품 유지보수, 자원관리, 신용카드 이상탐지 등 금융 산업 등 여러 산업에 활용 가능

 

3. KDD 기반 데이터 분석 시스템 분석 사례

분석
아키
텍처
분석
절차
① 다양한 DB 와 Web Data 등에서 필요한 데이터를 선별하여 추출
DW, OLAP 서버들을 활용하여 다차원 쿼리 준비
③ 데이터 마이닝 OLAP, SQL I/F 등의 기능 수행 가능한 통합 KDD Server 구축
④ 새로운 지식 탐색이 있는 경우 필요한 데이터 선별부터 프로세스 수행 후 지식 반환
  • KDD는 CRISP-DM, SEMMA 등과 함께 다양한 산업 분야에서 다양한 형태로 활용 가능

 

[참고]

  • 한국데이터산업진흥원(Kdata), 데이터 분석 전문가 가이드, 2021.3

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^