2024년 12월 9일

의사결정나무 (Decision Tree)

1. 지도 학습 모델, 의사결정나무 (Decision Tree)의 개념

개념도
개념	빅데이터 및 인공지능 분석을 위해 의사결정 규칙을 나무 구조로 도표화하여 분류와 예측을 수행하는 분석 기법

의사결정 나무 (의사결정 트리)는 두 개 이상의 변수가 결합하여 목표 변수에 어떻게 영향을 주는지 쉽게 알 수 있으며, 트리 구조로 표현되기 때문에 모형을 쉽게 이해

2. 의사결정나무 기반 분석 절차 및 구성요소

(1) 의사결정나무 기반 분석 절차

분석 절차	주요 기법	세부 활동
의사결정나무 형성	– 재귀적 분할 알고리즘 – 불순도(Impurity) 지수	– 분석 목적을 정의하고, 목적에 따라 적절한 분리규칙 (Splitting rule)을 찾아 트리를 전개하는 과정 – 적절한 정지 규칙(Stopping rule)을 만족하면 성장 중단
가지치기	– 사전 가지치기 (Pre-Pruning) – 사후 가지치기 (Post-Pruning)	– 결정나무 크기가 너무 큰 모형은 과적합, 너무 작은 나무 모형은 과소 적합될 수 있는 문제를 해결 – 과적합 발생하는 것을 방지하기 위해 불필요한 가지들을 제거
타당성 평가	– 교차 검증 (Cross-Validation)	– 이익 도표(Gains Chart)나 위험 도표(Risk Chart) 또는 검증용 자료(Test Data)에 의한 교차 검증(Cross-Validation) 기반 의사결정나무 평가
해석 및 예측	– 범주형 데이터 – 수치형 데이터	– 완성된 의사결정나무 모형을 해석하고, 분류 및 예측 모형을 설정하여 데이터 분류 및 예측에 활용

(2) 의사결정나무의 구성요소

구분	구성요소	역할
노드	뿌리 마디 (Root Node)	나무가 시작되는 마디로 전체 자료를 포함
	중간 마디 (Internal Node)	부모와 자식 마디를 모두 가진 마디
	끝 마디 (Terminal Node)	자식 노드가 없는 마디
	부모 마디 (Parent Node)	주어진 노드의 상위 마디
	자식 마디 (Child Node)	주어진 노드의 하위 마디
속성	가지 (Branch)	하나의 마디부터 끝 마디까지 연결된 마디들
속성	깊이 (Depth)	가지를 이루는 마디의 개수

의사 결정 나무의 깊이(depth)가 깊어 과적합(overfitting)이 발생하는 것을 방지하기 위해 가지치기(Pruning)를 이용하여 불필요 가지들을 제거

3. 의사결정나무의 분류 및 평가 지표

(1) 의사결정나무의 분류

분류 나무 (Classification Tree)	회귀 나무 (Regression Tree)
– 출력 변수가 범주형 – 목표 변수가 이산형인 경우 – 지니 (Gini), 엔트로피 (entropy) 지수 등	– 출력 변수가 연속형 – Top-Down의 Greedy(탐욕) 방식 탐색 – 오차제곱합(MSE) 사용

(2) 의사결정나무의 평가 지표

구분	평가 지표	평가 방법
분류 나무 (Classification Tree)	지니 지수 (Gini Index)	– K개 클래스에 걸친 총 분산의 측도 산출 – 노드 순도라고 부르며, 작은 값은 노드가 단일 클래스로부터의 관측치들이 주로 포함
분류 나무 (Classification Tree)	엔트로피 (Entropy)	– 무질서한 정도를 나타내는 지표 – 엔트로피가 최소화 되도록 분석
회귀 나무 (Regression Tree)	오차제곱합	– MSE(Mean Squared Error) – 실제값과 예측값의 차이를 제곱 후 더해주는 과정

의사 결정 트리는 이해하기 쉽고 영향도 파악이 용이하며, 계산복잡성 대비 높은 예측성능으로 분류와 회귀 모두 분석 가능하지만 최적해를 보장하지 못하고 비연속성 분류, 결정 경계가 데이터 축에 수직인 데이터에만 최적화 가능한 단점 존재
과적합(overfitting)된 학습으로 예측 및 분류 성능이 떨어질 수 있는 의사 결정 나무의 한계점은 일반적으로 앙상블(Ensemble) 기법을 통해서 해결가능

4. 의사결정나무 과적합 해결, 랜덤 포레스트(Random Forest)

랜덤 포레스트(Random Forest)를 통해 다수의 약한 분류기(Weak Classifier)들을 결합하여 하나의 강한 분류기(Strong Classifier) 생성 가능

[참고]

나종화, KOCW 데이터마이닝 및 실험(충북대학교, 2017)
빅데이터&머신러닝랩, 의사결정나무모형(동국대학교)

Tags:빅데이터 분석, 분류, 인공지능 분석, 의사결정나무, 의사결정트리, Decision Tree, 회귀 분석, 지니지수, 엔트로피, 오차제곱합

About The Author

도리

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^응답 취소