SEMMA (Sample, Explore, Modify, Model, and Assess)

1. 데이터 마이닝 방법론, SEMMA의 개념

  • SEMMA (Sample, Explore, Modify, Model, and Assess): 샘플링, 탐색, 수정, 모델링, 평가 절차
개념 이전에 알려지지 않았던 패턴 발견 위해 대량의 데이터를 샘플링, 탐색, 수정, 모델링 및 평가하는 데이터 마이닝 방법론
특징 데이터 샘플링 샘플은 중요한 정보 포함하고 처리 가능한 크기여야 함
데이터 패턴 도출 예상 못한 추세, 이상 징후 찾아 데이터 탐색, 이해, 아이디어 도출
변수 선택 및 변환 모델 선택 프로세스에 집중하기 위해 변수를 생성, 선택, 변환
데이터 평가 데이터 마이닝 과정에서 얻은 결과의 유용성과 신뢰성을 평가
  • 데이터 분석 기업인 SAS에서 개발한 데이터마이닝 표준 가이드로 분석 목적이 불명확할 때 사용

 

2. SEMMA 수행 프로세스

(1) SEMMA의 수행 절차도

(2) SEMMA의 단계 별 주요 기법

단계 주요 기법 세부 수행 내용
샘플링
(Sample)
통계적 추출, 조건 추출 – 분석 데이터 생성, 모델 평가 위한 데이터 준비
탐색
(Explore)
데이터 가시화, 클러스터링,
상관 분석
– 분석 데이터 탐색, 데이터 오류 검색, 비즈니스 이해, 이상현상 및 변화 탐색
수정/변환
(Modify)
변수 선택/생성,
데이터 수정/변환
– 분석 데이터 수정, 변환, 데이터 정보 표현
모델링
(Model)
신경망, 트리 기반
모델링, 논리 모델링 등
– 모델 구축, 패턴 발견, 모델링과 알고리즘 적용
평가
(Assess)
데이터 모델 평가 – 모델 평가 및 검증, 피드백, 모델 간 비교 및 Next Step 결정
  • SEMMA 방법론은 사기 탐지, 가계, 고객 유지 및 이탈, 시장 세분화, 위험 분석, 친화도 분석, 고객 만족 및 포트폴리오 분석 등 다양한 비즈니스 문제에 대한 방법론 제공

 

3. SEMMA 기준 데이터 마이닝 방법론 비교

비교 항목 SEMMA KDD CRISP-DM
특징 기술적 관점 마이닝 집중으로 비즈니스 관점 분석 미약 기술과 데이터베이스를 중심으로 지식 발견 위한 절차와 전 단계 정리 비즈니스 문제인식 및 비즈니스 상황에 따른 마이닝 결과 해석
프로세스 ① Sampling
② Explore
③ Modify
④ Modeling
⑤ Assessment
① 데이터셋 선택
② 데이터 전처리
③ 데이터 변환
④ 데이터 마이닝
⑤ 마이닝 결과 평가
① 비즈니스 이해
② 데이터 이해
③ 데이터 준비
④ 모델링
⑤ 평가
⑥ 배포
활용 동향 – SAS통계패키지 활용
– SAS Enterprise Miner
– 연구활용 (Fayyad 등)
– OracleData Mining
– IBM SPSS중점추진
– SPSS Modeler

 
[참고]

  • SAS, Help Center, Introduction to SEMMA
Categories: 데이터베이스
도리:
whatsapp
line