3.4 마케팅 플랜 (Marketing Plan)
Advertising 자료에 대한 일곱가지 질문에 대해 이제까지 배운 회귀분석의 내용으로 대답해보자.
1. 광고 예산과 판매 사이에 상관관계가 있는가?
: 다중회귀모델의 유의성을 알기 위해 F통계량으로 가설검정을 하여 알아낸다.
2. 광고예산과 판매 사이에는 얼마나 강한 상관관계가 있는가?
: 예측한 회귀직선으로 y의 분산을 얼마나 잘 설명할 수 있는지, 모델의 설명력을 물어보는 질문으로
$R^2$ 값을 확인하여 답한다.
3. 어느 매체가 판매에 기여하는가?
: 개별 회귀계수의 t 통계량으로 가설검정을 하여, p-value를 확인한다.
p-value가 0.05보다 작은 회귀계수가 유의하다고 할 수 있다.
4. 판매에 대한 각 매체의 효과는 얼마나 되는가?
: 회귀계수를 확인하고, 표준오차로 회귀계수의 신뢰구간을 확인한다.
(+ VIF로 공선성을 확인하여 신뢰구간 범위에 문제가 없는지 확인해야한다.)
(+ 판매량에 대한 각 매체의 개별 상관성을 평가하려면 단순선형회귀분석을 진행한다.)
5. 미래의 판매량에 대해 얼마나 정확하게 예측할 수 있는가?
: 개별값에 대한 예측, 축소불가능한 오차를 포함한 예측구간을 구한다.
6. 상관관계가 선형적인가?
: 잔차의 산점도를 확인하여 그래프에 패턴이 있는지 확인한다.
(+선형적이지 않은 경우, 설명변수를 다항식으로 바꾸어 비선형 상관관계를 수용할 수도 있다.)
7. 광고매체 사이에 시너지효과가 있는가?
: 회귀식에 상호작용항을 포함하고, 해당 항의 p-value를 확인하여 상호작용항 계수의 유의성을 확인한다.
(+상호작용항을 넣는 것이 적합한지는 $R^2$를 확인하여 파악할 수도 있다. 상호작용항을 넣었을 때 설명력이 높아지면 포함한다.)
3.5 선형회귀와 K-최근접이웃의 비교
모수적 방법 vs 비모수적 방법의 비교
1) 선형회귀의 장단점 (모수적 방법)
장점: 계수들에 대한 해석이 간단, 통계적 유의성을 쉽게 검정할 수 있음
단점: $f(X)$가 선형모델이라는 강한 가정을 근거로 구성된다.
통계분석의 목적이 예측 정확도일 경우, 좋은 결과를 도출하지는 않을 수도 있음
실제 모델이 선형적이지 않을 경우, 결과 모델이 데이터에 잘 적합하지 않을 것이다.
2) KNN-회귀 (비모수적 방법)
방법: $x_0$에 가장 가까운 K개의 훈련 관측치로 $N_0$을 식별
$N_0$ 내에 있는 모든 훈련 관측치들에 대한 반응 변수들의 평균을 사용하여 $f(x_0)$을 추정.
특징: K값이 작으면 적합이 유연: 편향은 낮지만 분산이 크다. (과적합)
K값이 크면 $f(X)$ 구조의 일부를 감춤으로써 편향을 초래한다.
Q 어떤 경우에 모수적 방식이 비모수적 방식보다 더 나은가?
1) 선택된 모수 형태가 $f$의 실제 형태에 가까운 경우
2) KNN의 검정 MSE가 선형회귀보다 조금밖에 작지 않다면,
해석력의 관점에서, 몇 개의 계수로 설명이 가능하고 p-value를 이용할 수 있는 단순한 모델을 위해 예측정확도를 포기할 수도 있다.
3) 차원이 높은 경우
- 원인: 고차원으로 갈수록 표본의 크기가 실질적으로 줄어드는 효과가 있기 때문에 가까운 이웃이 없는 현상이 발생한다.
"차원의 저주"
주어진 검정 관측치 $x_0$에 가장 가까운 K개의 관측치는 변수의 개수 p가 클 때, p차원의 공간에서 $x_0$로부터 아주 멀리 떨어져 있을 수 있어
$f(x_0)$의 예측값이 아주 나쁘고 좋지 않은 KNN 적합을 얻게 된다.
'통계 > ISLR' 카테고리의 다른 글
Chapter 3. 선형회귀 (Linear Regression) - 3) 회귀모델에서 다른 고려할 사항 (0) | 2020.04.28 |
---|---|
Chapter 3. 선형회귀 (Linear Regression) - 2) 다중선형회귀 (1) | 2020.04.28 |
Chapter 3. 선형회귀 (Linear Regression) - 1) 단순선형회귀 (0) | 2020.04.27 |
Chapter 2. 통계학습 - 2) 모델의 정확도 평가 (0) | 2020.04.08 |
Chapter 2. 통계학습 - 1) 통계학습이란? (0) | 2020.04.08 |