랜덤 포레스트 (Random Forest)

1. 랜덤 포레스트 (Random Forest)의 개요

개념도
개념분류/회귀 분석 등에 사용하기 위해 다수 의사결정 트리를 결합하여 분류/회귀 모형을 생성하는 앙상블 기반 머신러닝 학습 기법
특징임의성임의로 각 트리들이 서로 다른 특성을 가짐
과적합 극복임의화를 통한 과적합 문제를 극복
  • 앙상블 학습 기법 중 bagging 보다 더 많은 임의성을 주어 학습기 생성 후 결합하여 최종 학습기 생성

 

2. 랜덤 포레스트의 메커니즘

(1) 랜덤 포레스트 알고리즘 수행 절차도

(2) 알고리즘 수행 단계 별 상세 수행 과정

#수행 단계상세 수행 과정
N개의 부트스트랩 Sample 생성부트스트랩 기반 N개의 훈련 데이터 집합 생성
임의의 부트스트랩 Sample과 변수로 N개의 트리 생성N개의 기초 분류기(트리)를 훈련
각 앙상블로부터 훈련 분류기 생성N개의 분류기(트리)를 생성
예측결과를 투표방식(voting)으로 선택평균 또는 과반수 투표 방식
  • Out-Of-Bag(OOB): 부트스트랩 샘플링 과정에서 추출되지 않은 관측치, 평가용 데이터의 오분류율을 예측하는 용도 및 변수 중요도 추정
  • 부트스트랩(bootstrap): 주어진 훈련 데이터에서 중복을 허용하여 원본 데이터와 같은 크기의 데이터를 생성하는 과정

 

3. 랜덤 포레스트의 활용 사례

활용 사례세부 사례 설명
다채널 자기공명영상 내
고악성도 신경교종 검출
다채널 자기공명영상(MRI)으로 촬영된 뇌 영상에서 고악성도 신경교종(High-grade gliomas) 검출
컴퓨터 단층 촬영 영상 내
해부학 구조 검출 및 위치 파악
3차원 컴퓨터 단층 촬영 영상(CT) 내 주어진 복셀의 해부학 구조 검출 및 위치 파악
기업채권 등급 평가 모형 생성기업의 부실 예측이나 신용 등급 예측 문제 해결, 빅데이터 기반 신용위험 관리를 구현
  • 랜덤포레스트는 주어진 문제의 적합성에 대해 먼저 검토 후 적용

 
[참고]

  • Gareth James Daniela, Springer, An Introduction to Statistical Learning: with Applications in R, 2013

 

2 Comments

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^