X

회귀분석 (Regression Analysis)

I. 독립변수와 종속변수 간 상관관계, 회귀분석

가. 회귀분석의 개념

관찰된 변수 집합에서 독립변수와 종속변수 간 상관관계를 함수식으로 표현 및 검증하는 분석기법

나. 회귀분석 모형의 가정

구분 구성요소
변수 선형성 – 독립변수와 종속변수 관계는 선형적
오차 정규성 – 오차의 기대값은 ‘0’이며, 정규분포
오차 독립성 – 오차들은 서로 독립적

II. 회귀분석 모델/구성요소 및 분석 유형

가. 회귀분석 모델/구성요소

모델 구성요소 설명
독립변수 입력값, 원인 변수
종속변수 독립변수 의한 효과
회귀계수 변화량, 기울기
최소자승법 각점 거리 최소선
회귀방정식 회귀선 수학적 함수
  • 산포된 점들이 회귀선에 수직으로 이르는 값들의 최소가 되는 회귀 계수 산출이 핵심

나. 회귀분석의 다양한 유형

구분 유형 설명
독립변수
수 기반
단순 회귀분석 – y=ax+b, 독립변수 1개
다중 회귀분석 – y=ax1+…+cxn,독립변수다수
종속변수
수 기반
일변량 회귀분석 – 분석 모형, 종속변수 1개
다변량 회귀분석 – 분석 예측, 종속변수 다수
종속변수
형태기반
선형 회귀분석 – 직각거리 최소화 회귀분석
로지스틱회귀분석 – 다항, 분화 로지스틱 분류
  • 회귀분석의 가정 상 변수들은 서로 독립적이어야 하나, 상관관계 발생 시 공선성 확인 및 해결 필요

III. 회귀분석에서 나타나는 공선성 문제

가. 회귀분석에서 나타나는 공선성의 개요/유형

구분 항목 설명
개요 개념 – 독립변수 들 간 강한 상관관계 발생하여 회귀분석 가정 위반 문제
문제점 – 상관관계가 높은 독립변수들의 회귀계수 표본오차 증가, 추정성능 저하
유형 완전공선성 – 두 독립변수가 완벽한 선형관계로 최소 자승추정치 추출불가
다중공선성 – 독립변수 간 강한 상관관계 발생
– 추정량 불안정, 분산값 증가

나. 공선성 문제 발생여부 진단 기법

구분 진단 기법 설명
회귀분석
공선성
측면
공차한계
수치 진단
분산팽창요인
(VIF)값 진단
상관 및
결정계수
측면
상관계수
진단
– 피어슨 유사도 기반 상관도확인
– 상관계수(r) 0.9 이상 시 발생
결정계수
진단
– 개별 인자 간 낮은 유의수준
– 독립변수 P-Value 증가시 발생
  • 독립변수 간 나타나는 강한 상관관계 문제로, 문제 발생 시 추정주제 수정 및 문제점 해결필요

IV. 회귀분석에서 나타나는 공선성 문제의 해결 방안

구분 해결 방안 설명
공선성
유발변수
확인/제거
측면
공선성 유발
변수 확인
– R2값 최대 변수 유발 판정
– t-검정통계량 귀무가설 기각시
공선성 유발
변수 제거
– 작은 상관계수의 설명변수제거
– β계수, 탄력성(β^i (Xi /Y)) 이용
모형 보완
및 변형
측면
모형 보완 – 추가적 표본관측치 확보/활용
– 기존 평균값과 상이한 값 포함
모형 변형 – 일차분차식, 비율식 사용
– ∆Yi=α+β1∆X1i+β2∆X2i+εi
  • 회귀분석의 추정 성능확보와 공선성 문제 해결 위해 t-분포, f-분포, 유의수준과 p-value 등 검증 필요
Categories: 알고리즘/AI
도리: