1. 데이터 마이닝 방법론, SEMMA의 개념
- SEMMA (Sample, Explore, Modify, Model, and Assess): 샘플링, 탐색, 수정, 모델링, 평가 절차
개념 | 이전에 알려지지 않았던 패턴 발견 위해 대량의 데이터를 샘플링, 탐색, 수정, 모델링 및 평가하는 데이터 마이닝 방법론 | |
---|---|---|
특징 | 데이터 샘플링 | 샘플은 중요한 정보 포함하고 처리 가능한 크기여야 함 |
데이터 패턴 도출 | 예상 못한 추세, 이상 징후 찾아 데이터 탐색, 이해, 아이디어 도출 | |
변수 선택 및 변환 | 모델 선택 프로세스에 집중하기 위해 변수를 생성, 선택, 변환 | |
데이터 평가 | 데이터 마이닝 과정에서 얻은 결과의 유용성과 신뢰성을 평가 |
- 데이터 분석 기업인 SAS에서 개발한 데이터마이닝 표준 가이드로 분석 목적이 불명확할 때 사용
2. SEMMA 수행 프로세스
(1) SEMMA의 수행 절차도
(2) SEMMA의 단계 별 주요 기법
단계 | 주요 기법 | 세부 수행 내용 |
---|---|---|
샘플링 (Sample) | 통계적 추출, 조건 추출 | – 분석 데이터 생성, 모델 평가 위한 데이터 준비 |
탐색 (Explore) | 데이터 가시화, 클러스터링, 상관 분석 | – 분석 데이터 탐색, 데이터 오류 검색, 비즈니스 이해, 이상현상 및 변화 탐색 |
수정/변환 (Modify) | 변수 선택/생성, 데이터 수정/변환 | – 분석 데이터 수정, 변환, 데이터 정보 표현 |
모델링 (Model) | 신경망, 트리 기반 모델링, 논리 모델링 등 | – 모델 구축, 패턴 발견, 모델링과 알고리즘 적용 |
평가 (Assess) | 데이터 모델 평가 | – 모델 평가 및 검증, 피드백, 모델 간 비교 및 Next Step 결정 |
- SEMMA 방법론은 사기 탐지, 가계, 고객 유지 및 이탈, 시장 세분화, 위험 분석, 친화도 분석, 고객 만족 및 포트폴리오 분석 등 다양한 비즈니스 문제에 대한 방법론 제공
3. SEMMA 기준 데이터 마이닝 방법론 비교
비교 항목 | SEMMA | KDD | CRISP-DM |
---|---|---|---|
특징 | 기술적 관점 마이닝 집중으로 비즈니스 관점 분석 미약 | 기술과 데이터베이스를 중심으로 지식 발견 위한 절차와 전 단계 정리 | 비즈니스 문제인식 및 비즈니스 상황에 따른 마이닝 결과 해석 |
프로세스 | ① Sampling ② Explore ③ Modify ④ Modeling ⑤ Assessment | ① 데이터셋 선택 ② 데이터 전처리 ③ 데이터 변환 ④ 데이터 마이닝 ⑤ 마이닝 결과 평가 | ① 비즈니스 이해 ② 데이터 이해 ③ 데이터 준비 ④ 모델링 ⑤ 평가 ⑥ 배포 |
활용 동향 | – SAS통계패키지 활용 – SAS Enterprise Miner | – 연구활용 (Fayyad 등) – OracleData Mining | – IBM SPSS중점추진 – SPSS Modeler |
[참고]
- SAS, Help Center, Introduction to SEMMA