2018년 12월 12일

오버핏과 언더핏 (Overfitting & Underfitting)

I. 과한 학습과 부족 학습, 오버핏과 언더핏의 문제점

구분	문제점	현상
Overfit (과분산)	– 과학습, 오류 분산 – High Variance, 과분산 – 비슷한 입력에 부정확 반응 결과	– 학습 대상만 정상반응
Underfit (과편향)	– 데이터해석 능력저하 – High bias, 과편향 – 여러 가지 입력에 제대로 반응불가	– 학습 부족, 편향 반응

– 오버핏과 언더핏의 공통적인 문제점으로 예측 성능(Serendipity) 저하 현상 발생

– 오버핏과 언더핏은 Trade-off 관계이므로 적절한 훈련 데이터셋을 통해 최적의 값 파악 필요

고려사항	설명
– Training Data Set 최적 값 선정	– 충분한 Training Data Set 확보 – Noise 고려하여 적절한 분포도 필요
– 학습 대상, 데이터 의 적절한 Feature	– 대상 별 적절한 Feature 수 선정 – 원하는 분석모형 고려하여 일반화