회귀분석
회귀 분석의 기본 개념과 목적
영향력 분석: 회귀 분석을 통해 각 독립변수가 종속변수에 얼마나 영향을 미치는지, 그 영향력의 방향(양의 영향인지 음의 영향인지)과 크기를 추정할 수 있습니다. 예를 들어, 광고비 지출이 매출액에 미치는 영향, 교육 수준이 임금에 미치는 영향 등을 분석할 수 있습니다.
예측: 구축된 회귀 모델을 이용하여 새로운 독립변수 값에 대한 종속변수의 값을 예측할 수 있습니다. 예를 들어, 특정 광고비 지출액에 따른 예상 매출액, 특정 교육 수준을 가진 사람의 예상 임금 등을 예측할 수 있습니다.
관계 규명: 변수들 간의 관계를 수학적인 함수 형태로 표현함으로써, 그 관계의 형태와 특징을 명확하게 이해할 수 있도록 돕습니다. 선형 관계뿐만 아니라 다항 관계 등 다양한 형태의 관계를 모델링할 수 있습니다.
단순 선형 회귀 분석
단순 선형 회귀 분석(Simple Linear Regression Analysis)은 하나의 독립변수와 하나의 종속변수 간의 선형적인 관계를 모델링하는 가장 기본적인 형태의 회귀 분석입니다.
종속변수: 예측하고자 하는 변수입니다.
독립변수: 종속변수를 예측하는 데 사용되는 변수입니다.
절편, Intercept: 독립변수 X가 0일 때 종속변수 Y의 예측값입니다. 회귀 직선이 Y축과 만나는 지점을 나타냅니다.
기울기, Slop: 독립변수 X가 한 단위 증가할 때 종속변수 Y가 얼마나 변화하는지를 나타냅니다. 독립변수의 영향력의 크기와 방향을 의미합니다.
오차항, Error Term: 모델로 설명할 수 없는 종속변수의 변동성을 나타내는 항입니다. 예측값과 실제 값의 차이를 포함합니다.
다중 회귀 분석
다중 회귀 분석(Multiple Regression Analysis)은 두 개 이상의 독립변수가 하나의 종속변수에 미치는 영향을 동시에 모델링하는 방법입니다. 현실 세계의 많은 현상은 여러 요인의 복합적인 영향을 받기 때문에, 다중 회귀 분석은 보다 현실적인 모델을 구축하고 정밀한 예측을 수행하는 데 유용합니다.
회귀 모델의 평가
결정 계수: 종속변수의 총 변동성 중에서 회귀 모델에 의해 설명되는 변동성의 비율을 나타냅니다. 0부터 1 사이의 값을 가지며, 1에 가까울수록 모델의 설명력이 높다고 해석합니다. 다중 회귀 분석에서는 조정된 결정 계수를 사용하여 독립변수의 개수가 증가함에 따라 R2가 증가하는 경향을 보정합니다.
표준 오차: 회귀 모델의 예측값과 실제 값 사이의 평균적인 차이를 나타냅니다. 표준 오차가 작을수록 모델의 예측 정확도가 높다고 판단합니다.
F-통계량과 p-값: 회귀 모델 전체의 유의성을 검정하는 데 사용됩니다. 귀무 가설은 "모든 회귀 계수가 0이다"이며, p-값이 유의 수준보다 작으면 적어도 하나의 독립변수가 종속변수에 유의미한 영향을 미친다고 결론 내릴 수 있습니다.
t-통계량과 p-값: 각 독립변수의 회귀 계수가 통계적으로 유의미한지 검정하는 데 사용됩니다. 귀무 가설은 "해당 독립변수의 회귀 계수가 0이다"이며, p-값이 유의 수준보다 작으면 해당 독립변수가 종속변수에 유의미한 영향을 미친다고 판단합니다.
잔차 분석: 예측값과 실제 값의 차이인 잔차를 분석하여 모델의 가정을 위배하는 패턴이 있는지 확인합니다 (예: 잔차의 정규성, 등분산성, 독립성 등). 잔차 그림(Residual Plot) 등을 통해 시각적으로 확인할 수 있습니다.
회귀 분석의 가정과 제약 사항
회귀 분석은 강력한 통계적 도구이지만, 결과를 신뢰하기 위해서는 몇 가지 중요한 가정이 충족되어야 하며, 그 제약 사항을 이해해야 합니다.
선형성 (Linearity): 독립변수와 종속변수 간에 선형적인 관계가 존재해야 합니다. 비선형적인 관계를 선형 모델로 분석하면 모델의 적합도가 떨어지고 예측의 정확성이 낮아질 수 있습니다.
독립성 (Independence of Errors): 오차항들은 서로 독립이어야 합니다. 시계열 데이터 분석 시 흔히 발생하는 자기상관(Autocorrelation)은 이 가정을 위배하는 경우입니다.
등분산성 (Homoscedasticity): 오차항의 분산은 모든 독립변수 값에 대해 일정해야 합니다. 이분산성(Heteroscedasticity)이 존재하면 회귀 계수의 추정 효율성이 떨어지고 통계적 검정 결과의 신뢰성이 낮아질 수 있습니다.
정규성 (Normality of Errors): 오차항들은 정규 분포를 따라야 합니다. 이 가정은 표본 크기가 작을 때 특히 중요하며, 회귀 계수에 대한 통계적 검정과 신뢰 구간 추정에 영향을 미칩니다.
다중 공선성 (Multicollinearity): 다중 회귀 분석에서 독립변수들 간에 높은 상관관계가 존재하면 회귀 계수의 추정이 불안정해지고 해석이 어려워질 수 있습니다.