X

CRISP-DM (Cross-Industry Standard Process for Data Mining)

1. 데이터 마이닝 방법론, CRISP-DM의 개념

CRISP-DM (Cross-Industry Standard Process for Data Mining): 데이터 마이닝을 위한 산업 간 표준 절차

개념 비즈니스 이해를 바탕으로 데이터를 분석하기 위해 6단계 프로세스 기반 비즈니스 상황에 따른 통계적 규칙, 패턴을 찾아내는 데이터 마이닝 방법론
특징 6단계 프로세스 ① 비즈니스 이해 ② 데이터 이해 ③ 데이터 준비 ④ 모델링 ⑤ 평가 ⑥ 배포
4계층 모델 ① 최상위 레벨 ② 일반 과제 ③ 전문 과제 ④ 구체적 실행
  • 유럽에서 시작된 프로젝트에 SPSS 등 참여하여 1999년 초기 버전이 출시되었고, 데이터 분석과 비즈니스 이해 기반 6단계 절차로 수행

 

2. CRISP-DM 수행 프로세스

(1) CRISP-DM 수행 절차도

(2) CRISP-DM 수행 단계 별 과제/산출물

단계 과제 산출물
① 비즈니스 이해 ①-1 비즈니스 목표 결정 Success Criteria
①-2 상황 평가 Costs and Benefits
①-3 데이터 마이닝 목적 결정 Goals and Criteria
①-4 프로젝트 계획 생성 Initial Assessment
② 데이터 이해 ②-1 초기 데이터 수집 Initial Data Report
②-2 데이터 설명 Describe Report
②-3 데이터 탐색 Explore Report
②-4 데이터 품질 확인 Quality Report
③ 데이터 준비 ③-1 데이터 선택 Rationale
③-2 데이터 정리 Cleaning Report
③-3 데이터 구축 Attributes/Records
③-4 데이터 통합 Merged Data
③-5 데이터 형식화 Reformatted Data
④ 모델링 ④-1 모델링 기법 선택 Tech.&Assumptions
④-2 테스트 설계 생성 Test Design
④-3 유효 모델 작성 Parameter Settings
④-4 모델 평가/순위 지정 Model Assessment
⑤ 평가 ⑤-1 측정 모델링 결과 평가 Approved Models
⑤-2 프로세스 검토 Review Report
⑤-3 다음 단계 결정 List of Actions
⑥ 배포 ⑥-1 배포 계획 수립 Plan Report
⑥-2 모니터링 및 유지보수 계획 Detail Plan
⑥-3 최종 보고서 생성 Final Report
⑥-4 최종 프로젝트 검토 수행 Final Documentation
  • 각 단계들은 순차적으로 진행되는 것이 아니라, 필요에 따라 단계 간 반복 수행 통해 분석 품질 향상

 

3. CRISP-DM 기준 데이터 마이닝 방법론 비교

비교 항목 CRISP-DM SEMMA KDD
특징 비즈니스 문제인식 및 비즈니스 상황에 따른 마이닝 결과 해석 기술적 관점 마이닝 집중으로 비즈니스 관점 분석 미약 기술과 데이터베이스를 중심으로 지식 발견 위한 절차와 전 단계 정리
프로세스 ① 비즈니스 이해
② 데이터 이해
③ 데이터 준비
④ 모델링
⑤ 평가
⑥ 배포
① Sampling
② Explore
③ Modify
④ Modeling
⑤ Assessment
① 데이터셋 선택
② 데이터 전처리
③ 데이터 변환
④ 데이터 마이닝
⑤ 마이닝 결과 평가
활용 동향 – IBM SPSS중점추진
– SPSS Modeler
– SAS통계패키지 활용
– SAS Enterprise Miner
– 연구활용 (Fayyad 등)
– OracleData Mining

 
[참고]

  • 한국 IBM, IBM SPSS Modeler CRISP-DM 안내서
  • Ana Azevedo, KDD, SEMMA AND CRISP-DM: A PARALLEL OVERVIEW, 2008
Categories: 데이터베이스
도리: