CRISP-DM (Cross-Industry Standard Process for Data Mining)

1. 데이터 마이닝 방법론, CRISP-DM의 개념

CRISP-DM (Cross-Industry Standard Process for Data Mining): 데이터 마이닝을 위한 산업 간 표준 절차

개념비즈니스 이해를 바탕으로 데이터를 분석하기 위해 6단계 프로세스 기반 비즈니스 상황에 따른 통계적 규칙, 패턴을 찾아내는 데이터 마이닝 방법론
특징6단계 프로세스① 비즈니스 이해 ② 데이터 이해 ③ 데이터 준비 ④ 모델링 ⑤ 평가 ⑥ 배포
4계층 모델① 최상위 레벨 ② 일반 과제 ③ 전문 과제 ④ 구체적 실행
  • 유럽에서 시작된 프로젝트에 SPSS 등 참여하여 1999년 초기 버전이 출시되었고, 데이터 분석과 비즈니스 이해 기반 6단계 절차로 수행

 

2. CRISP-DM 수행 프로세스

(1) CRISP-DM 수행 절차도

(2) CRISP-DM 수행 단계 별 과제/산출물

단계과제산출물
① 비즈니스 이해①-1 비즈니스 목표 결정Success Criteria
①-2 상황 평가Costs and Benefits
①-3 데이터 마이닝 목적 결정Goals and Criteria
①-4 프로젝트 계획 생성Initial Assessment
② 데이터 이해②-1 초기 데이터 수집Initial Data Report
②-2 데이터 설명Describe Report
②-3 데이터 탐색Explore Report
②-4 데이터 품질 확인Quality Report
③ 데이터 준비③-1 데이터 선택Rationale
③-2 데이터 정리Cleaning Report
③-3 데이터 구축Attributes/Records
③-4 데이터 통합Merged Data
③-5 데이터 형식화Reformatted Data
④ 모델링④-1 모델링 기법 선택Tech.&Assumptions
④-2 테스트 설계 생성Test Design
④-3 유효 모델 작성Parameter Settings
④-4 모델 평가/순위 지정Model Assessment
⑤ 평가⑤-1 측정 모델링 결과 평가Approved Models
⑤-2 프로세스 검토Review Report
⑤-3 다음 단계 결정List of Actions
⑥ 배포⑥-1 배포 계획 수립Plan Report
⑥-2 모니터링 및 유지보수 계획Detail Plan
⑥-3 최종 보고서 생성Final Report
⑥-4 최종 프로젝트 검토 수행Final Documentation
  • 각 단계들은 순차적으로 진행되는 것이 아니라, 필요에 따라 단계 간 반복 수행 통해 분석 품질 향상

 

3. CRISP-DM 기준 데이터 마이닝 방법론 비교

비교 항목CRISP-DMSEMMAKDD
특징비즈니스 문제인식 및 비즈니스 상황에 따른 마이닝 결과 해석기술적 관점 마이닝 집중으로 비즈니스 관점 분석 미약기술과 데이터베이스를 중심으로 지식 발견 위한 절차와 전 단계 정리
프로세스① 비즈니스 이해
② 데이터 이해
③ 데이터 준비
④ 모델링
⑤ 평가
⑥ 배포
① Sampling
② Explore
③ Modify
④ Modeling
⑤ Assessment
① 데이터셋 선택
② 데이터 전처리
③ 데이터 변환
④ 데이터 마이닝
⑤ 마이닝 결과 평가
활용 동향– IBM SPSS중점추진
– SPSS Modeler
– SAS통계패키지 활용
– SAS Enterprise Miner
– 연구활용 (Fayyad 등)
– OracleData Mining

 
[참고]

  • 한국 IBM, IBM SPSS Modeler CRISP-DM 안내서
  • Ana Azevedo, KDD, SEMMA AND CRISP-DM: A PARALLEL OVERVIEW, 2008

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^