의사결정나무 (Decision Tree)

1. 지도 학습 모델, 의사결정나무 (Decision Tree)의 개념

개념도
개념빅데이터 및 인공지능 분석을 위해 의사결정 규칙을 나무 구조로 도표화하여 분류와 예측을 수행하는 분석 기법
  • 의사결정 나무 (의사결정 트리)는 두 개 이상의 변수가 결합하여 목표 변수에 어떻게 영향을 주는지 쉽게 알 수 있으며, 트리 구조로 표현되기 때문에 모형을 쉽게 이해

 

2. 의사결정나무 기반 분석 절차 및 구성요소

(1) 의사결정나무 기반 분석 절차

분석 절차주요 기법세부 활동
의사결정나무
형성
– 재귀적 분할 알고리즘
– 불순도(Impurity) 지수
– 분석 목적을 정의하고, 목적에 따라 적절한 분리규칙 (Splitting rule)을 찾아 트리를 전개하는 과정
– 적절한 정지 규칙(Stopping rule)을 만족하면 성장 중단
가지치기– 사전 가지치기
(Pre-Pruning)
– 사후 가지치기
(Post-Pruning)
– 결정나무 크기가 너무 큰 모형은 과적합, 너무 작은 나무 모형은 과소 적합될 수 있는 문제를 해결
– 과적합 발생하는 것을 방지하기 위해 불필요한 가지들을 제거
타당성 평가교차 검증
(Cross-Validation)
– 이익 도표(Gains Chart)나 위험 도표(Risk Chart) 또는 검증용 자료(Test Data)에 의한 교차 검증(Cross-Validation) 기반 의사결정나무 평가
해석 및 예측– 범주형 데이터
– 수치형 데이터
– 완성된 의사결정나무 모형을 해석하고, 분류 및 예측 모형을 설정하여 데이터 분류 및 예측에 활용

(2) 의사결정나무의 구성요소

구분구성요소역할
노드뿌리 마디 (Root Node)나무가 시작되는 마디로 전체 자료를 포함
중간 마디 (Internal Node)부모와 자식 마디를 모두 가진 마디
끝 마디 (Terminal Node)자식 노드가 없는 마디
부모 마디 (Parent Node)주어진 노드의 상위 마디
자식 마디 (Child Node)주어진 노드의 하위 마디
속성가지 (Branch)하나의 마디부터 끝 마디까지 연결된 마디들
깊이 (Depth)가지를 이루는 마디의 개수
  • 의사 결정 나무의 깊이(depth)가 깊어 과적합(overfitting)이 발생하는 것을 방지하기 위해 가지치기(Pruning)를 이용하여 불필요 가지들을 제거

 

3. 의사결정나무의 분류 및 평가 지표

(1) 의사결정나무의 분류

분류 나무 (Classification Tree)회귀 나무 (Regression Tree)
– 출력 변수가 범주형
– 목표 변수가 이산형인 경우
– 지니 (Gini), 엔트로피 (entropy) 지수 등
– 출력 변수가 연속형
– Top-Down의 Greedy(탐욕) 방식 탐색
– 오차제곱합(MSE) 사용

(2) 의사결정나무의 평가 지표

구분평가 지표평가 방법
분류 나무
(Classification Tree)
지니 지수
(Gini Index)
– K개 클래스에 걸친 총 분산의 측도 산출
– 노드 순도라고 부르며, 작은 값은 노드가 단일 클래스로부터의 관측치들이 주로 포함
엔트로피
(Entropy)
– 무질서한 정도를 나타내는 지표
– 엔트로피가 최소화 되도록 분석
회귀 나무
(Regression Tree)
오차제곱합– MSE(Mean Squared Error)
– 실제값과 예측값의 차이를 제곱 후 더해주는 과정
  • 의사 결정 트리는 이해하기 쉽고 영향도 파악이 용이하며, 계산복잡성 대비 높은 예측성능으로 분류와 회귀 모두 분석 가능하지만 최적해를 보장하지 못하고 비연속성 분류, 결정 경계가 데이터 축에 수직인 데이터에만 최적화 가능한 단점 존재
  • 과적합(overfitting)된 학습으로 예측 및 분류 성능이 떨어질 수 있는 의사 결정 나무의 한계점은 일반적으로 앙상블(Ensemble) 기법을 통해서 해결가능

 

4. 의사결정나무 과적합 해결, 랜덤 포레스트(Random Forest)

  • 랜덤 포레스트(Random Forest)를 통해 다수의 약한 분류기(Weak Classifier)들을 결합하여 하나의 강한 분류기(Strong Classifier) 생성 가능

[참고]

  • 나종화, KOCW 데이터마이닝 및 실험(충북대학교, 2017)
  • 빅데이터&머신러닝랩, 의사결정나무모형(동국대학교)

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^