1. 데이터 마이닝 방법론, SEMMA의 개념 SEMMA (Sample, Explore, Modify, Model, and Assess): 샘플링, 탐색, 수정, 모델링, 평가 절차 개념 이전에 알려지지 않았던 패턴 발견 위해 대량의 데이터를 샘플링, 탐색, 수정, 모델링 및 평가하는 데이터 마이닝 방법론 특징 데이터 샘플링 샘플은 중요한 정보 포함하고 처리 가능한 크기여야 함 데이터 패턴 도출 예상 못한 추세, 이상
1. 데이터 마이닝 방법론, KDD의 개요 KDD (Knowledge Discovery in Database) (1) KDD의 개념 및 특징 개념 특징 DW, OLAP, SQL, 데이터 분석 Tool 등을 이용하여 데이터에 잠재된 유용한 지식 및 패턴을 발견하여 조직의 구조와 프로세스를 변경하는 데이터 마이닝 방법론 – 데이터 범람 문제 해결 지원 – 유용한 정보 검색 위한 선별 작업 – DB
I. 데이터 유통 기업, 데이터 브로커 가. 데이터 브로커의 개념 고객 데이터를 수집, 재판매, 가공, 분석하거나 다른 기업과 데이터를 공유하는 기업 나. 데이터 브로커에 의한 데이터 가치사슬 데이터화 및 수집 – 고객이 필요로 하는 데이터 수집 – 웹Crawling, LOD, RDF 데이터 분석 – 데이터 가공 조합 활용 분석 – Data Mining, K-means, HDFS 데이터 판매