오버핏과 언더핏 (Overfitting & Underfitting)

I. 과한 학습과 부족 학습, 오버핏과 언더핏의 문제점

구분문제점현상
Overfit
(과분산)
– 과학습, 오류 분산
– High Variance, 과분산
– 비슷한 입력에 부정확 반응 결과

– 학습 대상만 정상반응
Underfit
(과편향)
– 데이터해석 능력저하
– High bias, 과편향
– 여러 가지 입력에 제대로 반응불가

– 학습 부족, 편향 반응

– 오버핏과 언더핏의 공통적인 문제점으로 예측 성능(Serendipity) 저하 현상 발생

 

II. 오버핏과 언더핏의 원인 별 대응방안

구분원인대응 방안
오버핏– 편중된 학습 데이터– 다양한 훈련 데이터확보
– Too many Features– 정규화, 표준화
– 무분별한 Noise 수용– Dropout(일부 뉴런 생략)
언더핏– 부적절한 분석 모형– 분석 모델 유연성 확보
– 학습 데이터 부족– 충분한 학습데이터 확보
– 표준 집합 부족– Cross Validation

– 오버핏과 언더핏은 Trade-off 관계이므로 적절한 훈련 데이터셋을 통해 최적의 값 파악 필요

 

III. 오버핏과 언더핏 방지를 위한 고려사항

고려사항설명
– Training Data Set
최적 값 선정
– 충분한 Training Data Set 확보
– Noise 고려하여 적절한 분포도 필요
– 학습 대상, 데이터
의 적절한 Feature
– 대상 별 적절한 Feature 수 선정
– 원하는 분석모형 고려하여 일반화

 

콘텐츠 사용 시 출처 표기 부탁 드리고, 궁금한 점이나 의견은 댓글 남겨주세요^^