1. 데이터 마이닝 방법론, CRISP-DM의 개념
CRISP-DM (Cross-Industry Standard Process for Data Mining): 데이터 마이닝을 위한 산업 간 표준 절차
개념 | 비즈니스 이해를 바탕으로 데이터를 분석하기 위해 6단계 프로세스 기반 비즈니스 상황에 따른 통계적 규칙, 패턴을 찾아내는 데이터 마이닝 방법론 | |
---|---|---|
특징 | 6단계 프로세스 | ① 비즈니스 이해 ② 데이터 이해 ③ 데이터 준비 ④ 모델링 ⑤ 평가 ⑥ 배포 |
4계층 모델 | ① 최상위 레벨 ② 일반 과제 ③ 전문 과제 ④ 구체적 실행 |
- 유럽에서 시작된 프로젝트에 SPSS 등 참여하여 1999년 초기 버전이 출시되었고, 데이터 분석과 비즈니스 이해 기반 6단계 절차로 수행
2. CRISP-DM 수행 프로세스
(1) CRISP-DM 수행 절차도
(2) CRISP-DM 수행 단계 별 과제/산출물
단계 | 과제 | 산출물 |
---|---|---|
① 비즈니스 이해 | ①-1 비즈니스 목표 결정 | Success Criteria |
①-2 상황 평가 | Costs and Benefits | |
①-3 데이터 마이닝 목적 결정 | Goals and Criteria | |
①-4 프로젝트 계획 생성 | Initial Assessment | |
② 데이터 이해 | ②-1 초기 데이터 수집 | Initial Data Report |
②-2 데이터 설명 | Describe Report | |
②-3 데이터 탐색 | Explore Report | |
②-4 데이터 품질 확인 | Quality Report | |
③ 데이터 준비 | ③-1 데이터 선택 | Rationale |
③-2 데이터 정리 | Cleaning Report | |
③-3 데이터 구축 | Attributes/Records | |
③-4 데이터 통합 | Merged Data | |
③-5 데이터 형식화 | Reformatted Data | |
④ 모델링 | ④-1 모델링 기법 선택 | Tech.&Assumptions |
④-2 테스트 설계 생성 | Test Design | |
④-3 유효 모델 작성 | Parameter Settings | |
④-4 모델 평가/순위 지정 | Model Assessment | |
⑤ 평가 | ⑤-1 측정 모델링 결과 평가 | Approved Models |
⑤-2 프로세스 검토 | Review Report | |
⑤-3 다음 단계 결정 | List of Actions | |
⑥ 배포 | ⑥-1 배포 계획 수립 | Plan Report |
⑥-2 모니터링 및 유지보수 계획 | Detail Plan | |
⑥-3 최종 보고서 생성 | Final Report | |
⑥-4 최종 프로젝트 검토 수행 | Final Documentation |
- 각 단계들은 순차적으로 진행되는 것이 아니라, 필요에 따라 단계 간 반복 수행 통해 분석 품질 향상
3. CRISP-DM 기준 데이터 마이닝 방법론 비교
비교 항목 | CRISP-DM | SEMMA | KDD |
---|---|---|---|
특징 | 비즈니스 문제인식 및 비즈니스 상황에 따른 마이닝 결과 해석 | 기술적 관점 마이닝 집중으로 비즈니스 관점 분석 미약 | 기술과 데이터베이스를 중심으로 지식 발견 위한 절차와 전 단계 정리 |
프로세스 | ① 비즈니스 이해 ② 데이터 이해 ③ 데이터 준비 ④ 모델링 ⑤ 평가 ⑥ 배포 | ① Sampling ② Explore ③ Modify ④ Modeling ⑤ Assessment | ① 데이터셋 선택 ② 데이터 전처리 ③ 데이터 변환 ④ 데이터 마이닝 ⑤ 마이닝 결과 평가 |
활용 동향 | – IBM SPSS중점추진 – SPSS Modeler | – SAS통계패키지 활용 – SAS Enterprise Miner | – 연구활용 (Fayyad 등) – OracleData Mining |
[참고]
- 한국 IBM, IBM SPSS Modeler CRISP-DM 안내서
- Ana Azevedo, KDD, SEMMA AND CRISP-DM: A PARALLEL OVERVIEW, 2008