본문 바로가기

통계/ISLR

Chapter 2. 통계학습 - 1) 통계학습이란?

2.1  통계학습이란?

통계학습(statistical learning): 데이터에 대한 이해를 위한 방대한 도구 집합

통계학습은 X를 기반으로 Y를 예측하는 모형을 만들 수 있을 때, 그 예측 모형 f를 추정하는 일련의 기법들을 의미한다. 

 

1) 통계학습의 목적

- 통계학습은 목적에 따라 f를 추정하는 방법이 달라질 수 있다.

- 그렇다면 통계학습의 목적은 무엇인가?

 

(1) 예측

설명변수들을 사용하여 반응변수 값을 예측하기를 원하는 경우

ex) 인구통계적 수치를 활용하여 메일 광고에 적극적으로 반응할 사람을 식별

      주어진 집의 특징에 대해 집이 과소평가 / 과대평가 되었는지 파악하고 싶을 때

 

(2) 추론

설명변수와 종속변수 사이의 인과관계를 파악하고자 하는 경우

- 어떤 설명변수들이 반응변수와 관련이 있는가? ex) 어느 매체가 광고 효과에 기여 하는가?

- X-Y 간 상관관계가 있는가? 이는 선형 방정식으로 요약될 수 있는가?  ex) 제품 가격을 변경하는 것은 판매에 어떤 영향을 끼칠 것인가?

 

- 선형 모델은 비교적 해석이 간단하여 추론이 가능하다

- 반면 비선형 모델은 해석은 어렵지만 예측력이 높다

- 어떤 모델링에서는 통계학습의 목적이 예측/추론 둘 다로 설정되어 수행될 수 있다.

 

 

2) 예측 정확도

E(Y-Ŷ)² = E[ f(x) + ε - f^(x) ]²

             = E[ f(x) - f^(x) ]² + Var(ε)

- 여기서 E[ f(x) - f^(x) ]² 는 축소 가능한 오차(reducible error)이며

- Var(ε)는 축소 불가능한 오차(irreducible error)이다. 

- 적절한 통계기법을 사용해서 f를 추정함으로써 f̂의 정확성은 개선이 가능하지만, ε에 의해 유입된 오차를 줄일 수는 없다.

- 축소 불가능한 오차는 Y에 대한 예측 정확도의 상한선이다.

- 우리는 축소 가능한 오차를 최소로 하며 f를 추정하는 기법에 대해 다룰 것이다.

 

 

3) 모델의 추정방법

(1) 모수적 방법 (Parametric Methods)

단계 1) f 함수의 형태, 모양에 대해 가정한다.

단계 2) 모델이 선택된 후, 훈련 데이터를 통해 모형을 적합하거나 훈련시키고 파라미터 집합을 추정한다.

 

- 장점

f를 추정하는 문제를 단순화하며, 임의의 함수 f를 적합시키는 것보다 파라미터를 추정하는 것이 일반적으로 쉽다.

- 단점

선택하는 모델이 알려지지 않은 f의 실제 형태와 보통은 맞지 않다.

복잡한(유연한) 모델을 선택하면 데이터에 대한 과적합을 초래할 수 있다.

*과적합: 오차, 즉 노이즈를 너무 면밀히 추적할 때 발생. 이는 통계분석에서 끊임없는 논의 거리이다.

 

--> 본 교재에서 선형모델(Chapter 3), 선형모델 파라미터 추정(Chapter 3,6)에서 다룰 예정

 

(2) 비모수적 방법 (Non-parametric Methods)

f 함수 형태에 대해 명시적인 가정을 하지 않고 f를 추정하는 방법

 

- 장점: 추정한 f가 실제 f와 많이 달라질 위험을 방지

- 단점: 아주 많은 수의 관측치가 필요

 

--> 본 교재에서 평활박판 스플라인(Chapter 7), 올바른 평활도 수준을 선택하는 방법(Chapter 5)에서 다룰 예정

 

 

4) 예측 정확도와 모델 해석력 사이의 절충

- 일반적으로 통계학습 모델의 유연성-해석력은 trade-off 관계에 있다.

- 추론이 목적일 경우: 제한적인 모델이 훨씬 해석하기 쉬우므로 덜 유연한 방법을 사용하는 것이 좋은 선택일 수 있다.

- 예측이 목적일 경우: 유연한 모델이 더 적합할 수 있다.

- 하지만 목적에 따라 모델의 유연성을 선택하는 것이 항상 맞는 것은 아니다 (과적합의 문제)

- 예측 모델 유연성 예시 * 교재 그림 2.7 참고

(모델 유연성 낮음) Subset Selection/Lasso -- Least Square -- GAMS / Trees -- Bagging / Boosting / SVM (모델 유연성 높음)

 

 

5) 지도학습과 비지도 학습

통계학습은 출력변수(반응변수)의 존재 유무에 따라 지도학습 / 비지도학습으로 나뉜다.

 

(1) 지도학습 (Supervised)

- 특정 입력(input), 관측치에 연관된 올바른 정답, 반응변수가 있는 데이터 집합이 주어질 때 학습하는 방법

- 학습 목적: 미래 관측에 대해 반응변수를 정확하게 예측하거나 반은변수와 설명변수들 사이의 상관관계를 더 잘 이해하는 것(추론)

 

(2) 비지도학습 (Unsupervised)

- 관측치 χi 에 대한 반응변수가 없는 데이터 집합이 주어질 때 학습하는 방법

- 학습 목적: 변수들 간 혹은 관측치들 간의 상관관계를 이해하고자할 때, 혹은 데이터 내에 알려지지 않은 서브그룹을 발견하고 분류(클러스터링)하기 위해

ex) market segmentation: 고객에 대한 다수의 특징(변수)들은 있지만 지출 패턴에 대한 정보는 없을 때 변수를 기반으로 고객이 속하는 그룹을 식별하고 고객 그룹별로 지출 습관 등 관심있는 성질이 다를 수 있는 내용을 확인

 

* n개의 관측치가 있는데 m개에 대해서만 반응변수 측정값을 가지고 있다면?

    준지도학습(semi-supervised learning)을 사용할 수도 있음

 

 

6) 회귀와 분류 문제

(1) 회귀

- 반응변수가 양적변수(수치형 변수)일 때 사용하는 통계학습 방법

- 위키백과 정의: 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해내는 분석 방법

 

(2) 분류

- 반응변수가 질적변수(또는 범주형변수)일 때 사용하는 통계학습 방법

 

- 이러한 구분이 항상 명확한 것은 아니다. KNN이나 Boosting 등의 통계방법은 양적 or 질적 반응변수에 모두 사용한다

- 설명변수가 양적인지 질적인지 여부는 일반적으로 덜 중요하다. 적절한 코딩으로 학습에 적용이 가능하다.

 

 

* 이 내용은 An Introduction to Statistical Learning 교재를 개인적으로 요약한 내용입니다.

* 이미 노트로 정리한 내용을 블로그에 옮기다보니, 개별적으로 출처 표시가 없습니다...

   Chapter 4부터는 참고해서 작성한 내용이 있다면 링크를 남길 예정입니다.

* 데이터분석을 공부하는 비전공자로, 정리 내용이 조금 미흡하거나 잘못되어 있을 수도 있습니다.(공부중입니다. ㅠㅠ)

* 수정 필요한 내용이 있거나 궁금한 점이 있으면 부드럽게 댓글 부탁드려요^^