본문 바로가기

통계/ISLR

Chapter 3. 선형회귀 (Linear Regression) - 2) 다중선형회귀

** 다중선형회귀 파트에서도 아래 블로그 참고하여 내용을 정리했습니다.

개념, 이론  https://m.blog.naver.com/jhkang8420/221291682151

 

3.2  다중선형회귀

다중선형회귀: k개의 설명변수 X로 양적 반응변수 Y를 예측하는 것

 

   $Y = {\beta}_0 + {\beta}_1X_1 + {\beta}_2X_2 + {\beta}_3X_3 + ... + {\beta}_kX_k + e$

 

다중선형회귀 역시, 단순선형회귀와 동일한 순서로 회귀식을 만들고 예측하는 과정을 거친다.

하지만 추가하여 고려해야할 개념이 있으므로, 이에 유의하여 내용을 확인하자.

 

이와 같이 다중회귀분석은 단계를 다음과 같다.

 

  1단계. 이론의 가정: Multicollinearity 가정의 추가

  2단계. 회귀직선 도출: 최소제곱법

  3단계. 모형의 통계적 유의성: F통계량

  4단계. 회귀계수의 유의성: 개별 회귀계수의 t통계량

  5단계. 모델의 정확도 평가: 수정된 $R^2$

  6단계. 모델의 적합성 점검

  7단계. 예측

 

 

 

1단계. 이론의 가정: Multicollinearity 가정의 추가

다중선형회귀 역시 단순선형회귀와 같이 CLRM 가정을 전제로 하는데, 여기에 한 가지 사항을 더 고려해주어야 한다.

그것이 바로 다중공선성이다.

 

A8. 다중공선성 제거 (Multicollinearit)

- 다중공선성이란, 다중선형회귀에서 설명변수(X) 사이에 강한 상관관계가 성립히는 문제이다.

- 독립변수들간에 정확한 선형관계가 존재하는 완전공선성의 경우와 독립변수들간에 높은 선형관계가 존재하는 다중공선성으로 구분하기도 한다.

- 다중공선성이 발생할 경우, 반응변수에 대한 공선형 변수들의 개별 효과를 분리하기 어려우므로, 사전에 처리해주는 작업이 필요하다.

 

 

 

2단계. 회귀직선 도출: 최소제곱법

   $\hat{y} = \hat{\beta}_0 + \hat{\beta}_1x_1 + \hat{\beta}_2x_2 + \hat{\beta}_3x_3 + ... + \hat{\beta}_kx_k + \varepsilon$

 

다중선형회귀식의 회귀계수(파라미터값)들도 단순선형회귀에서 살펴보았던 것처럼 최소제곱법을 사용하여 추정할 수 있다.

 

- 잔차제곱합 (Residual Sum of Squares. RSS | Sum of Squared regression Error. SSE

  $RSS = \sum_{i=1}^{n}(y_i-\hat{y}_i)^2$

             $= \sum_{i=1}^{n}(y_i-\hat{\beta_0} - \hat{\beta_1}x_1 - \hat{\beta_2}x_2 - ... - \hat{\beta_k}x_k)^2$ 를 최소화하는 $\beta_0$ ~ $\beta_k$

 

 

 

3단계. 모형의 통계적 유의성: F통계량

 

다중회귀분석에서는 모델이 유의한지($f$가 실제 선형관계에 있는지) 모형의 통계적 유의성을 살펴보기 위해 F통계량을 이용해 검정*한다.

 

* F통계량: 두 확률변수 $V_1, V_2$가 각각 자유도 $k_1, k_2$이고 서로 독립인 카이제곱 분포를 따를 때,

 

식으로 구한 F통계량은 F 분포를 따른다.

 

 

- F분포는 분산의 비교를 통해 얻어진 분포 비율로, 분산의 동일성 검정에 사용한다.

- F통계량의 자유도는 2개이다.

- 비교하는 두 집단의 자유도 값이 커질수록 그래프의 모양이 정규분포에 가까워진다.

- 두 집단의 유사성이 클수록(분산의 동일성이 클수록) F통계량의 값은 1일 확률이 높아진다.

- F검정과 분산분석 등에 주로 사용된다.

*출처 위키백과 F분포: https://ko.wikipedia.org/wiki/F_%EB%B6%84%ED%8F%AC

 

 

 

 

다중회귀직선 가설검정

 

- $H_0$ (귀무가설) : $\beta_1 = \beta_2 = \beta_3 = , ..., \beta_k = 0$

   설명변수 $X_1, X_2, ..., X_k$는 모두 종속변수 Y와 상관관계가 없다.

   즉, 회귀계수 $\beta_1, \beta_2, ..., \beta_k$는 모두 0이다. 

- $H_1$ (대립가설) : 적어도 하나의 $\beta_i$는 0이 아니다.

 

 

* 다중회귀직선에서 F통계량

  1)오차항이 정규분포를 따르고 2)귀무가설($H_0$)이 참일 경우 F통계량은 F분포를 따르게 된다.

 

1) 오차항이 정규분포를 따른다면 (잔차의 분산) = (오차항의 분산)이 되므로  $E[(1 - R^2)/(n-k-1)] = \sigma^2$이 된다.

   즉, F통계량의 분모는 $\sigma^2$이다.

  *참고: $E[(1 - R^2)/(n-k-1)]$의 식을 단순선형회귀에서 적용하면, 단순선형회귀에서 $k=1$이므로 자유도가 (n-2)가 된다는 것도 알 수 있음!

 

2) 귀무가설 $H_0$이 참이라면 $E[R^2/k] = \sigma^2$이 된다: 회귀분석으로 설명되는 $y$의 분산이 없기 때문에 (모집단의 분산) $= \sigma^2$

   즉, F통계량의 분자는 $\sigma^2$이 된다.

 

⇒ 반응변수와 설명변수들 사이에 상관관계가 없는 경우, F통계량은 1에 매우 가까운 값이 된다.

⇒ 반면, 반응변수와 설명변수 사이에 상관관계가 있는 경우, 결정계수 $R^2$ 값이 커지게 되므로

    $E[R^2/k] > \sigma^2$이 되고 F통계량의 기댓값이 1보다 커지게 된다.

F통계량이 커질수록 p-value값은 작아지게 된다. p-value값이 충분히 작으면 귀무가설을 기각하고 대립가설을 채택한다.

 

 

Q. 다중회귀분석에서는 왜 F 검정으로 모델의 유의성을 검사하는가? 단순회귀분석처럼 개별회귀계수에 t 검정을 하면 될 것 같은데?

A. t검정의 1종오류를 방지하기 위해

    실제로 모든 회귀계수를 0이라고 가정했을 때, 유의수준 5%로 개별 회귀계수에 t 검정을 실시할 경우

    실제로는 모두 유의미하지 않더라도 1종오류로 인해 100개 중 5개의 회귀계수는 유의한 것으로 판별하게 된다.

    다중회귀분석에서는 이런 현상을 방지하기 위해 F 검정으로 전부 유의미하지 않은 값은 아니라는 것을 확인한 뒤

    개별 회귀계수에 대한 t 검정을 실시하여 선형 관계를 밝혀낸다.

 

Q. 가설이 기각되려면 F통계량은 얼마나 커야하는가?

A. n과 k값에 달려있다.

    F통계량은 k가 상대적으로 작고(분자가 커지고) n이 명백히 클 때(분모가 작아질 때) 잘 작동한다.

    n이 명백히 큰 경우 F통계량이 1보다 약간만 크더라도 $H_0$에 반하는 증거가 된다.

 

 

 

4단계. 회귀계수의 유의성: 개별 회귀계수의 t통계량

F통계량으로 모형의 통계적 유의성을 확인한 뒤, 개별 회귀계수의 t통계량을 확인하여 각 회귀계수의 유의성을 검토한다.

 

중요 변수의 결정

- F통계량은 k가 상대적으로 작고 n이 명백히 클 때 잘 작동한다. k값이 크면 잘못된 결론에 도달할 수 있다.

- 대부분의 경우 설명변수의 일부 서브셋만이 반응변수와 상관관계에 있다.

⇒ 상관성 있는 설명변수만으로 모델적합을 수행하기 위해 변수 선택이 필요하다. (6장에서 자세히 다룰 예정)

 

- 이상적으로는 설명변수의 조합에 따라 만들어지는 선형 모델 모두를 비교하여 최고의 모델을 선정할 수 있다.

- 하지만 변수가 k개인 경우, k개 변수들의 일부를 포함하는 총 모델의 수는 $2^k$개에 이르므로, 모델 모두를 고려하기는 현실적으로 불가능하다.

- 아래는 변수선택을 진행하는 자동화되고 효과적인 고전적인 기법 3가지이다.

 

대표적인 변수 선택 기법

1) 전진선택: 영모델을 가지고 시작

  → k개의 변수에 대해 단순선형회귀를 적합하여, 가장 낮은 잔차제곱합(RSS|SSE)이 발생되는 변수를 영모델에 추가

  → 새로운 2변수 모델에 대해 가장 낮은 잔차제곱합(RSS|SSE)이 발생되는 변수를 영모델에 추가

 → 정지규칙을 만족할 때까지 반복한다.

 * greedy 방식. 처음에는 유의했던 변수가 나중에는 유의하지 않을 수 있음. 이 경우 혼합선택 방법으로 진행

 

2) 후진선택: 모델의 모든 변수를 가지고 시작   

  → 가장 큰 값의 p-value를 가지는 변수를 제외

  → (k-1)변수로 모델을 적합하여 p-value가 가장 큰 변수를 제외

  … → 정지규칙을 만족할 때까지 반복한다.

 * k>n인 경우 시행하지 못한다.

 

3) 혼합선택: 전진선택 + 후진선택

  : 전진선택으로 변수를 추가하다가 어떤 p-value가 임계치보다 커지면 그 변수를 제외한다.

 

 

 

5단계. 모델의 정확도 평가. 수정된 $R^2$

다중회귀분석에서도 $R^2$로 모델의 설명력을 확인할 수 있다.

But. 수학적으로, 새롭게 추가된 변수가 전혀 도움이 되지 않는 변수라도, 변수를 추가하기만 하면 $R^2$값도 올라가게 된다.

이러한 현상을 조정하고자, 다중회귀분석에서는 수정된 결정계수, Adjusted $R^2$를 사용한다.

 

 

- 기존 $R^2$는 변화량의 총합으로 비중을 나타냈다면, 수정된 $R^2$는 변화량의 평균(분산)으로 모델의 설명력을 나타낸다.

  이 경우, 변수의 개수를 감안할 수 있다.

- 다른값들이 고정되었을 때, k가 클수록(변수의 수가 많을수록) 결정계수가 작아지게 됨을 의미한다.

- 변수가 늘어남으로써 발생하는 왜곡을 조정할 수 있다.

 

 

 

6단계. 모델의 적합성 점검

CLRM의 7가지 가정은 모두 만족하는지, 다중공선성은 발생하지 않는지 확인할 필요가 있다.

이는 3.3에서 자세히 살펴보기로 한다.

 

 

 

7단계. 예측

단순선형회귀에 정리한 내용과 동일한 방식으로 회귀직선의 신뢰구간, 예측구간을 지정하여 활용할 수 있다.