다중공선성 (Multicollinearity)

1. 다중공선성 (Multicollinearity)의 개념 및 문제점

개념통계학의 회귀분석에서 여러 독립변수 간 강한 상관관계가 나타나는 현상
문제점상관관계가 높은 독립변수들의 회귀계수 표본오차 증가, 추정성능 저하
  • 공선성은 독립변수들 간 정확한 선형관계가 존재하는 완전공선성과 독립변수 간 높은 선형관계가 존재하는 다중공선성으로 구분

 

2. 공선성의 유형 및 문제 발생여부 진단 기법

(1) 공선성의 유형

유형영향도
완전공선성– 두 독립변수가 완벽한 선형관계로 최소 자승추정치 추출불가
다중공선성– 독립변수 간 강한 상관관계 발생 및 추정량 불안정, 분산값 증가

(2) 공선성 문제 발생여부 진단 기법

구분진단 기법산출식 및 기준
회귀분석의
공선성 측면
공차 한계
수치 진단
분산팽창 요인
(VIF) 값 진단
상관 및
결정계수
측면
상관계수
진단
– 피어슨 유사도 기반 상관도확인
– 상관계수(r) 0.9 이상 시 발생
결정계수
진단
– 개별 인자 간 낮은 유의수준
– 독립변수 P-Value 증가시 발생
  • 독립변수 간 나타나는 강한 상관관계 문제로, 문제 발생 시 추정주제 수정 및 문제점 해결 필요

 

3. 회귀분석에서 나타나는 공선성 문제의 해결 방안

구분해결 방안세부 기법
공선성 유발변수
확인/제거 측면
공선성 유발
변수 확인
– R2값 최대 변수 유발 판정
– t-검정통계량 귀무가설 기각시
공선성 유발
변수 제거
– 작은 상관계수의 설명변수제거
– β계수, 탄력성(β^i (Xi /Y)) 이용
모형 보완
및 변형 측면
모형 보완– 추가적 표본관측치 확보/활용
– 기존 평균값과 상이한 값 포함
모형 변형– 일차분차식, 비율식 사용
– ∆Yi=α+β1∆X1i+β2∆X2i+εi
  • 회귀분석의 추정 성능확보와 공선성 문제 해결 위해 t-분포, f-분포, 유의수준과 p-value 등 검증 필요

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^