비지도 학습 (Unsupervised Learning)

I. 비지도 학습의 개요

가. 비지도 학습 (Unsupervised Learning, 자율 학습)의 개념

나. 비지도 학습의 특징

  • 비정제 데이터를 입력하여 훈련데이터 없이 데이터의 특징 요약과 군집 (Clustering) 수행
  • 목표값을 정해주지 않아도 되고 사전 학습이 필요없으므로 속도가 빠름

 

II. 비지도 학습의 기법 및 알고리즘

가. 비지도 학습의 기법

구분기법설명
군집화거리 기반
군집화
– 중심값과의 최소거리 기반 군집 형성
– 군집 수 선정 → 좌표 계산 → 중심값이동(반복)
밀도 기반
군집화
– 군집을 이루는 벡터 밀도 기반 군집 형성
– 군집 벡터 수 선정 → 반경 내 군집 → 중심벡터 변경(반복)
패턴인식전처리 /
특징 추출
– 표본화, 정규화, 노이즈 제거
주성분 분석, 데이터 마이닝
모델 선택
/ 인식
– Bagging/Boosting, 앙상블 학습
혼동 행렬, ROC Curve, AUC, FP Rate

나. 비지도 학습을 이용한 알고리즘

구분알고리즘설명
데이터 관계 측면K-Means– 임의의 중심점 기준 최소 거리 기반 군집화
– Code-Vector, 유클리드 거리 계산, 노이즈에 민감
DBSCAN– 반경 내 데이터 벡터 밀도 기반  군집화
– ε, minPts, Core Point, 노이즈에 강함
특징 추출 측면민 시프트– 임의 영상을 몇 개 영역으로 분할, 군집화
컴퓨터 비전, 머신 비전, 영상 분할
주성분 분석– 사물의 주요 특징 분석 및 추출
– 차원 축소, 축 상의 투영으로 표시
  • 비지도학습은 학습 결과에 대한 평가가 어려우며, 데이터 이해 위한 분석 단계에서 주로 사용

 

III. 지도 학습과 비지도 학습 비교

구분지도 학습비지도 학습
사용이유– 예측 모델 생성– 고차원 데이터 분류
성능평가– 교차 검증 수행– 검증 방법 없음
입력정보– Labeled Data– Raw Data
유형– 회귀: (x, y)로 f(x)=y파악
– 분류: 그룹별 특징 파악
– 군집: 데이터끼리 묶음
– 패턴인식: 여러그룹인식
알고리즘CNN, RNN, SVM, 의사결정 트리K-Means, DBSCAN, 군집(Clustering) 등
장점– 사람이 목표 값에 개입하여 정확도가 높음– 목표 값을 정해주지 않아도 되므로 속도 빠름
단점– 시간이 오래 걸리고 학습 데이터 양이 많음– 학습 결과로 분류 기준과 군집 예측 불가
사례– 패턴인식, 질병진단
– 주가 예측, 회귀 분석
– 스팸필터, 차원 축소
– 데이터마이닝, 지식발굴

 
[참고]

  • 위키 백과, “비지도 학습 (Unsupervised Learning)”, 2019. 4

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^