X

비지도 학습 (Unsupervised Learning)

I. 비지도 학습의 개요

가. 비지도 학습 (Unsupervised Learning, 자율 학습)의 개념

나. 비지도 학습의 특징

  • 비정제 데이터를 입력하여 훈련데이터 없이 데이터의 특징 요약과 군집 (Clustering) 수행
  • 목표값을 정해주지 않아도 되고 사전 학습이 필요없으므로 속도가 빠름

 

II. 비지도 학습의 기법 및 알고리즘

가. 비지도 학습의 기법

구분 기법 설명
군집화 거리 기반
군집화
– 중심값과의 최소거리 기반 군집 형성
– 군집 수 선정 → 좌표 계산 → 중심값이동(반복)
밀도 기반
군집화
– 군집을 이루는 벡터 밀도 기반 군집 형성
– 군집 벡터 수 선정 → 반경 내 군집 → 중심벡터 변경(반복)
패턴인식 전처리 /
특징 추출
– 표본화, 정규화, 노이즈 제거
주성분 분석, 데이터 마이닝
모델 선택
/ 인식
– Bagging/Boosting, 앙상블 학습
혼동 행렬, ROC Curve, AUC, FP Rate

나. 비지도 학습을 이용한 알고리즘

구분 알고리즘 설명
데이터 관계 측면 K-Means – 임의의 중심점 기준 최소 거리 기반 군집화
– Code-Vector, 유클리드 거리 계산, 노이즈에 민감
DBSCAN – 반경 내 데이터 벡터 밀도 기반  군집화
– ε, minPts, Core Point, 노이즈에 강함
특징 추출 측면 민 시프트 – 임의 영상을 몇 개 영역으로 분할, 군집화
컴퓨터 비전, 머신 비전, 영상 분할
주성분 분석 – 사물의 주요 특징 분석 및 추출
– 차원 축소, 축 상의 투영으로 표시
  • 비지도학습은 학습 결과에 대한 평가가 어려우며, 데이터 이해 위한 분석 단계에서 주로 사용

 

III. 지도 학습과 비지도 학습 비교

구분 지도 학습 비지도 학습
사용이유 – 예측 모델 생성 – 고차원 데이터 분류
성능평가 – 교차 검증 수행 – 검증 방법 없음
입력정보 – Labeled Data – Raw Data
유형 – 회귀: (x, y)로 f(x)=y파악
– 분류: 그룹별 특징 파악
– 군집: 데이터끼리 묶음
– 패턴인식: 여러그룹인식
알고리즘 CNN, RNN, SVM, 의사결정 트리 K-Means, DBSCAN, 군집(Clustering) 등
장점 – 사람이 목표 값에 개입하여 정확도가 높음 – 목표 값을 정해주지 않아도 되므로 속도 빠름
단점 – 시간이 오래 걸리고 학습 데이터 양이 많음 – 학습 결과로 분류 기준과 군집 예측 불가
사례 – 패턴인식, 질병진단
– 주가 예측, 회귀 분석
– 스팸필터, 차원 축소
– 데이터마이닝, 지식발굴

 
[참고]

  • 위키 백과, “비지도 학습 (Unsupervised Learning)”, 2019. 4
Categories: 알고리즘/AI
도리: