본문 바로가기

통계/ISLR

Chapter 3. 선형회귀 (Linear Regression) - 3) 회귀모델에서 다른 고려할 사항

3.3  회귀모델에서 다른 고려할 사항

1) 질적 설명 변수

지금까지 다룬 선형회귀모델의 모든 변수는 양적이라고 가정하였지만, 실제로 설명변수들이 질적인 경우도 많다.

회귀분석에서 설명변수가 질적변수인 경우, 올바른 추정을 위해 질적변수를 어떻게 처리해줘야하는지 확인해보자.

 

(1) 레벨(수준) 수가 2인 설명변수

: 두 개의 가능한 값을 가지는 지시변수(indicator variable) 또는 가변수(dummy variable)를 생성한다.

 

Ex. 성별에 대한 변수

i) 새로운 변수 생성: 여성 1, 남성 0

   $y_i = \beta_0 + \beta_1x_i + \varepsilon_i$

   - i번 째 사람이 여성일 경우  $y_i = \beta_0 + \beta_1 + \varepsilon_i$

   - i번 째 사람이 남성일 경우  $y_i = \beta_0 + \varepsilon_i$

ii) 새로운 변수 생성: 여성 1, 남성 -1

   $y_i = \beta_0 + \beta_1x_i + \varepsilon_i$

   - i번 째 사람이 여성일 경우  $y_i = \beta_0 + \beta_1 + \varepsilon_i$

   - i번 째 사람이 남성일 경우  $y_i = \beta_0 - \beta_1 + \varepsilon_i$

 ⇒ 최종 예측값은 코딩 방식에 상관없이 동일하며, 다른 점은 계수를 해석하는 방식이다. (이 때 변수의 p-value로 통계적 유의성을 확인해야 한다)

 

(2) 레벨(수준) 수가 3이상인 질적설명변수

: 하나의 가변수로는 가능한 모든 값을 나타낼 수 없으므로, (레벨수 - 1)의 더미 변수를 더 만들어 준다.

 (이 때 F통계량으로 통계적 유의성을 확인한다. p-value는 가변수의 코딩에 의존적이다.)

 

물론 가변수 외에도 질적변수를 확인하는 방법은 많지만, 교재 수준에서 깊게 다루지는 않을 것이다.

 

 

 

2) 선형모델의 확장

표준선형회귀모형은 아래의 두 가지 제한적인 가정을 전제로 한다.

 

(1) 가산적(additive): 독립변수 X는 서로 독립이다.

(2) 선형적(linear): 직선처럼 일정하게 증가/감소한다. ($x_j$ 한 유닛의 변화로 인한 Y의 변화는 상수이다.)

 

이 두 가지 가정이 깨진다면 그래프는 곡선이 될 것이다.

대부분의 모수는 이 가정을 지키지 못하기 때문에 이 두 가지 가정을 완화시키면 회귀 예측력을 높일 수 있다.

이것이 선형모델의 확장이다.

 

 

(1) 가산성 가정의 제거: Interaction term (상호작용항. 시너지 효과를 내는 변수)

  상호작용 효과를 포함하도록 interaction trem을 회귀식에 포함시킨다.

 

  Ex. $Y = \beta_0 + \beta_1X_1  + \beta_2X_2 + \varepsilon$에서 X_1, X_2가 서로 상호작용 효과가 있을 경우,

        변수를 추가한다.  $Y = \beta_0 + \beta_1X_1  + \beta_2X_2 + \beta_3X_1X_2 + \varepsilon$

                                          $ = \beta_0 + (\beta_1+\beta_3X_2)X_1  + \beta_2X_2 + \varepsilon$

                                          $ = \beta_0 + (\tilde{\beta}_1)X_1  + \beta_2X_2 + \varepsilon$

                                          ** 변수간 상호작용 효과가 있을 경우, 모델의 주효과만 포함하는 모델보다 상호작용항을 포함한 모델이 훨씬 낫다.

 

- 계층적 원리에 의하면, 모델에 상호작용 효과를 포함할 경우, 주효과는 그 계수와 연관된 p-value 값이 유의하지 않더라도 모델에 포함해야한다.

  (주효과를 제외하는 것은 상호작용의 의미를 바꾸는 경향이 있다)

  (위의 예시의 경우, $\beta_2$의 p-value 값이 유의하지 않더라도, 상호작용 효과에 포함되어 었으므로 모델에 포함해야한다.

 

 

(2) 비선형 상관관계: Polynomial Feature

  다항식 회귀: 회귀모델에 설명변수들의 다항식 함수를 포함 * 비선형확장. 7장에서 다룰 예정

 

 

 

3) 선형회귀모델의 잠재적 문제

선형회귀모델을 적합할 때 많은 문제가 발생할 수 있다.

교재에서는 대표적인 선형회귀모델의 잠재적 문제와 해결법에 대해 간략하게 다루었다.

 

(1) 데이터의 비선형성 (A1 가정에 위배)

 

문제점: 실제 상관관계가 선형과 거리가 멀면 적합에서 얻은 결론과 예측정확도가 현저히 줄어들 것이다.

비선형성 식별방법: 주어진 잔차 $e_i = y_i - \hat{y}_i$를 설명변수 $x_i$에 대해 그래프로 나타냈을 때, 패턴이 존재한다면 선형 모델에 문제가 있음을 의미한다.

 

  1) 다항식회귀를 사용하여 이를 보완하거나 * 비선형확장. 7장에서 다룰 예정

  2) 설명변수 X를 $logX$, √$X$, $X^2$ 등 비선형적으로 변환하여 회귀모델에 적용하여 해결할 수 있다.

      

 

 

(2) 오차들의 상관성 (A6 가정에 위배)

 

문제점: 오차항끼리 상관성이 있으면 추정된 표준오차는 실제 표준오차를 과소추정하는 경향이 있다.

 - 표준오차가 과소추정 되면, 회귀계수의 신뢰구간이 좁아지거나 p-value가 나와야하는 수치보다 낮아져,

    통계적으로 유의미하지 않은 경우에도 유의하다고 잘못 추정할 가능성이 생긴다.

 

오차 상관성 식별방법: 오차항의 상관관계는 주로 이산시점에 측정된 관측치로 구성된 시계열 데이터에서 자주 발생된다.

                                  잔차를 시간의 함수로 그려보고, 잔차 그래프에서 패턴이 존재한다면 오차항들이 상관성가진다고 볼 수 있다.\

                                  이웃하는 시점에 얻어진 관측치들은 양의 상관성을 가지는 오차를 가지게 된다.

 

 

(3) 오차항의 분산이 상수가 아닐 때 (비상수분산, 이분산성. A5 가정에 위배)

 

문제점: 선형모델에서는 오차항의 분산이 상수($Var(\e_i) = \sigma^2$)라는 가정에 의존하여 표준오차, 신뢰구간, 가설검정 등을 진행하기 때문에,

            이 가정이 위배될 경우 선형모델의 유의성 판별에 문제가 발생할 수 있다.

 

이분산성 식별방법: 잔차 그래프의 분포 모양으로 식별할 수 있다.

  예를들어 오차항들의 분산이 반응변수에 값에 따라 증가할 경우, 이러한 이분산성은 잔차 그래프에 깔때기 형태가 있는지를 보고 식별할 수 있다.

  → 이런 문제는 $logY$, √$Y$와 같이 반응변수 Y를 비선형적으로 변환하여 해결할 수 있다.

 

 

(4) 이상치 (Outlier)

 

이상치: $y_i$가 모델이 예측한 값과 크게 다른 관측치를 의미한다.

문제점: 이상치는 최소제곱적합을 해서 구한 회귀 직선에는 큰 영향을 미치지는 못하지만, 잔차의 표준오차(RSE)를 증가시켜 적합 해석에 영향을 줄 수 있다. 즉, 모델의 설명력을 낮출 수 있다.

 

이상치를 식별하는 방법: 대표적으로 1) Tukey Fences, 2) Z-score를 들 수 있다.

1) Tukey Fences: 사분위수 범위(IQR) 기준으로 이상치를 측정하는 방법

  - Q1 - (1.5 * IQR) 미만 또는 Q3 + (1.5 * IQR) 초과인 값을 이상치로 간주

2) Z-score: 표준편차를 기준으로 이상치를 측정하는 방법

  - 표준편차x3 보다 크거나 표준편차x(-3)보다 작은 값을 이상치로 간주

  - 다중회귀분석에서는 각 잔차를 추정표준오차로 나누어 계산하여, 스튜던트화된 잔차의 절대값이 3보다 큰 관측치는 이상치로 간주한다.

 

- 발견한 이상치를 제외하여 모델의 정확도를 높일 수도 있지만, 필요한 설명변수가 없는 것과 같이 모델의 결함을 나타낼 수 있으므로 주의해야한다.

 

 

(5) 레버리지가 높은 관측치

 

레버리지가 높은 관측치: 대응하는 $x_i$의 값이 보통 수준과 다른 경우, 높은 레버리지를 가진 관측치라 말할 수 있다.

문제점: 높은 레버리지를 가지는 관측치는 추정회귀선에 큰 영향을 미친다.

 

레버리지가 높은 관측치를 식별하는 방법: 레버리지 통계량을 계산한다.

- 단순선형회귀의 경우, 레버리지 통계량은 다음과 같이 계산된다.

  $h_i = \frac{1}{n} + $$\frac{(x_i - \overline{x}_i)^2}{\sum_{i' = 1}^{n}(x_{i'} - \overline{x}_i)^2}$

  ⇒ 이 때, $h_i$는 $\frac{1}{n} < h_i < 1$의 범위를 가지며,

      모든 관측치에 대한 평균 레버리지는 $\frac{(p+1)}{n}$이다.

      주어진 관측치가 $\frac{(p+1)}{n}$보다 훨씬 큰 통계량을 가지면 대응하는 점은 높은 레버리지를 가진다고 의심할 수 있다.

 

 

(6) 공선성 (Collinearity)

 

공선성: 두 개 또는 그 이상의 설명변수들이 서로 밀접하게 상관되어 있는 경우

문제점: 1) 반응변수에 대한 공선형 변수들의 개별 효과를 분리하기 어렵다.

            2) 가설검정능력(0이 아닌 회귀계수를 찾아내는 능력)이 공선성에 의해 줄어든다.

            *How? - 회귀계수 추정치의 정확성을 낮춰 $\hat{\beta_i}$의 표준오차가 증가하게 된다.

                        - t통계량을 줄어들어 계수 가설검정의 범위가 커지고, $H_0$: $\beta_i = 0$을 기각하지 못할 수 있다.

 

공선성을 검출하는 방법

1) 설명 변수들의 상관행렬을 살핀다.

  - 하지만 이 방법으로 모든 공선성 문제가 밝혀지진 않는다.

  - 세 개 또는 그 이상의 변수들 사이에서 발생하는 공선성은 상관행렬로 검출할 수 없다. (다중 공선성)

2) VIF(분산팽창인수, Variance inflaction factor)를 계산한다.

 

    $VIF = \frac{1}{1-R_i^2} = \frac{1}{1-R_{x_i|x_{-i}}^2}$

 

  - $R_i^2$: i번째 변수를 모든 다른 변수로 회귀분석했을 때, 그 때의 결정계수 $R^2$값

    설명력이 좋을 수록($R_i^2$이 클수록) i번째 변수와 상관관계가 있는 변수가 많다는 뜻이 된다.

  ⇒  즉, VIF가 높다면 공선성이 존재한다는 뜻이다!

      - 가장 작은 VIF는 1이다.

      - 얼마나 높은게 공선성의 문제가 되는지는 정해져있지 않다.

        ISLR 교재에서는 5 또는 10을 초과하는 VIF는 문제의 소지가 있다고 '경험적으로' 설명한다.

 

공선성을 해결하는 방법

1) 변수 제외: 회귀에서 문제가 있는 변수들 중 하나를 제외하는 것

2) 차원 축소: 공선성 변수들을 단일 변수로 결합하는 것 (Feature Engineering)