2019년 9월 23일
비지도 학습 (Unsupervised Learning)
I. 비지도 학습의 개요
가. 비지도 학습 (Unsupervised Learning, 자율 학습)의 개념
- 입력데이터에 대한 목표값 없이 데이터가 어떻게 구성되었는지를 알아내는 기계 학습(Machine Learning) 기법
나. 비지도 학습의 특징
- 비정제 데이터를 입력하여 훈련데이터 없이 데이터의 특징 요약과 군집 (Clustering) 수행
- 목표값을 정해주지 않아도 되고 사전 학습이 필요없으므로 속도가 빠름
II. 비지도 학습의 기법 및 알고리즘
가. 비지도 학습의 기법
구분 | 기법 | 설명 |
---|---|---|
군집화 | 거리 기반 군집화 | – 중심값과의 최소거리 기반 군집 형성 – 군집 수 선정 → 좌표 계산 → 중심값이동(반복) |
밀도 기반 군집화 | – 군집을 이루는 벡터 밀도 기반 군집 형성 – 군집 벡터 수 선정 → 반경 내 군집 → 중심벡터 변경(반복) | |
패턴인식 | 전처리 / 특징 추출 | – 표본화, 정규화, 노이즈 제거 – 주성분 분석, 데이터 마이닝 |
모델 선택 / 인식 | – Bagging/Boosting, 앙상블 학습 – 혼동 행렬, ROC Curve, AUC, FP Rate |
나. 비지도 학습을 이용한 알고리즘
구분 | 알고리즘 | 설명 |
---|---|---|
데이터 관계 측면 | K-Means | – 임의의 중심점 기준 최소 거리 기반 군집화 – Code-Vector, 유클리드 거리 계산, 노이즈에 민감 |
DBSCAN | – 반경 내 데이터 벡터 밀도 기반 군집화 – ε, minPts, Core Point, 노이즈에 강함 | |
특징 추출 측면 | 민 시프트 | – 임의 영상을 몇 개 영역으로 분할, 군집화 – 컴퓨터 비전, 머신 비전, 영상 분할 |
주성분 분석 | – 사물의 주요 특징 분석 및 추출 – 차원 축소, 축 상의 투영으로 표시 |
- 비지도학습은 학습 결과에 대한 평가가 어려우며, 데이터 이해 위한 분석 단계에서 주로 사용
III. 지도 학습과 비지도 학습 비교
구분 | 지도 학습 | 비지도 학습 |
---|---|---|
사용이유 | – 예측 모델 생성 | – 고차원 데이터 분류 |
성능평가 | – 교차 검증 수행 | – 검증 방법 없음 |
입력정보 | – Labeled Data | – Raw Data |
유형 | – 회귀: (x, y)로 f(x)=y파악 – 분류: 그룹별 특징 파악 | – 군집: 데이터끼리 묶음 – 패턴인식: 여러그룹인식 |
알고리즘 | – CNN, RNN, SVM, 의사결정 트리 등 | – K-Means, DBSCAN, 군집(Clustering) 등 |
장점 | – 사람이 목표 값에 개입하여 정확도가 높음 | – 목표 값을 정해주지 않아도 되므로 속도 빠름 |
단점 | – 시간이 오래 걸리고 학습 데이터 양이 많음 | – 학습 결과로 분류 기준과 군집 예측 불가 |
사례 | – 패턴인식, 질병진단 – 주가 예측, 회귀 분석 | – 스팸필터, 차원 축소 – 데이터마이닝, 지식발굴 |
[참고]
- 위키 백과, “비지도 학습 (Unsupervised Learning)”, 2019. 4