본문 바로가기

통계/ISLR

Chapter 3. 선형회귀 (Linear Regression) - 그 외 내용

3.4 마케팅 플랜 (Marketing Plan)

Advertising 자료에 대한 일곱가지 질문에 대해 이제까지 배운 회귀분석의 내용으로 대답해보자.

 

1. 광고 예산과 판매 사이에 상관관계가 있는가?

: 다중회귀모델의 유의성을 알기 위해 F통계량으로 가설검정을 하여 알아낸다.

 

2. 광고예산과 판매 사이에는 얼마나 강한 상관관계가 있는가?

: 예측한 회귀직선으로 y의 분산을 얼마나 잘 설명할 수 있는지, 모델의 설명력을 물어보는 질문으로

  $R^2$ 값을 확인하여 답한다.

 

3. 어느 매체가 판매에 기여하는가?

: 개별 회귀계수의 t 통계량으로 가설검정을 하여, p-value를 확인한다.

  p-value가 0.05보다 작은 회귀계수가 유의하다고 할 수 있다.

 

4. 판매에 대한 각 매체의 효과는 얼마나 되는가?

: 회귀계수를 확인하고, 표준오차로 회귀계수의 신뢰구간을 확인한다.

(+ VIF로 공선성을 확인하여 신뢰구간 범위에 문제가 없는지 확인해야한다.)

(+ 판매량에 대한 각 매체의 개별 상관성을 평가하려면 단순선형회귀분석을 진행한다.)

 

5. 미래의 판매량에 대해 얼마나 정확하게 예측할 수 있는가?

: 개별값에 대한 예측, 축소불가능한 오차를 포함한 예측구간을 구한다.

 

6. 상관관계가 선형적인가?

: 잔차의 산점도를 확인하여 그래프에 패턴이 있는지 확인한다.

 (+선형적이지 않은 경우, 설명변수를 다항식으로 바꾸어 비선형 상관관계를 수용할 수도 있다.)

 

7. 광고매체 사이에 시너지효과가 있는가?

: 회귀식에 상호작용항을 포함하고, 해당 항의 p-value를 확인하여 상호작용항 계수의 유의성을 확인한다.

(+상호작용항을 넣는 것이 적합한지는 $R^2$를 확인하여 파악할 수도 있다. 상호작용항을 넣었을 때 설명력이 높아지면 포함한다.)

 

 

 

 

 

3.5 선형회귀와 K-최근접이웃의 비교

모수적 방법 vs 비모수적 방법의 비교

 

1) 선형회귀의 장단점 (모수적 방법)

장점: 계수들에 대한 해석이 간단, 통계적 유의성을 쉽게 검정할 수 있음

단점: $f(X)$가 선형모델이라는 강한 가정을 근거로 구성된다.

         통계분석의 목적이 예측 정확도일 경우, 좋은 결과를 도출하지는 않을 수도 있음

         실제 모델이 선형적이지 않을 경우, 결과 모델이 데이터에 잘 적합하지 않을 것이다.

 

 

2) KNN-회귀 (비모수적 방법)

방법: $x_0$에 가장 가까운 K개의 훈련 관측치로 $N_0$을 식별

         $N_0$ 내에 있는 모든 훈련 관측치들에 대한 반응 변수들의 평균을 사용하여 $f(x_0)$을 추정.

특징: K값이 작으면 적합이 유연: 편향은 낮지만 분산이 크다. (과적합)

         K값이 크면 $f(X)$ 구조의 일부를 감춤으로써 편향을 초래한다.

 

 

 

Q 어떤 경우에 모수적 방식이 비모수적 방식보다 더 나은가?

1) 선택된 모수 형태가 $f$의 실제 형태에 가까운 경우

2) KNN의 검정 MSE가 선형회귀보다 조금밖에 작지 않다면,

    해석력의 관점에서, 몇 개의 계수로 설명이 가능하고 p-value를 이용할 수 있는 단순한 모델을 위해 예측정확도를 포기할 수도 있다.

3) 차원이 높은 경우

    - 원인: 고차원으로 갈수록 표본의 크기가 실질적으로 줄어드는 효과가 있기 때문에 가까운 이웃이 없는 현상이 발생한다.

              "차원의 저주"

                주어진 검정 관측치 $x_0$에 가장 가까운 K개의 관측치는 변수의 개수 p가 클 때, p차원의 공간에서 $x_0$로부터 아주 멀리 떨어져 있을 수 있어

                $f(x_0)$의 예측값이 아주 나쁘고 좋지 않은 KNN 적합을 얻게 된다.