본문 바로가기

전체 글

(8)
Chapter 3. 선형회귀 (Linear Regression) - 그 외 내용 3.4 마케팅 플랜 (Marketing Plan) Advertising 자료에 대한 일곱가지 질문에 대해 이제까지 배운 회귀분석의 내용으로 대답해보자. 1. 광고 예산과 판매 사이에 상관관계가 있는가? : 다중회귀모델의 유의성을 알기 위해 F통계량으로 가설검정을 하여 알아낸다. 2. 광고예산과 판매 사이에는 얼마나 강한 상관관계가 있는가? : 예측한 회귀직선으로 y의 분산을 얼마나 잘 설명할 수 있는지, 모델의 설명력을 물어보는 질문으로 $R^2$ 값을 확인하여 답한다. 3. 어느 매체가 판매에 기여하는가? : 개별 회귀계수의 t 통계량으로 가설검정을 하여, p-value를 확인한다. p-value가 0.05보다 작은 회귀계수가 유의하다고 할 수 있다. 4. 판매에 대한 각 매체의 효과는 얼마나 되는가?..
Chapter 3. 선형회귀 (Linear Regression) - 3) 회귀모델에서 다른 고려할 사항 3.3 회귀모델에서 다른 고려할 사항 1) 질적 설명 변수 지금까지 다룬 선형회귀모델의 모든 변수는 양적이라고 가정하였지만, 실제로 설명변수들이 질적인 경우도 많다. 회귀분석에서 설명변수가 질적변수인 경우, 올바른 추정을 위해 질적변수를 어떻게 처리해줘야하는지 확인해보자. (1) 레벨(수준) 수가 2인 설명변수 : 두 개의 가능한 값을 가지는 지시변수(indicator variable) 또는 가변수(dummy variable)를 생성한다. Ex. 성별에 대한 변수 i) 새로운 변수 생성: 여성 1, 남성 0 $y_i = \beta_0 + \beta_1x_i + \varepsilon_i$ - i번 째 사람이 여성일 경우 $y_i = \beta_0 + \beta_1 + \varepsilon_i$ - i번 째..
Chapter 3. 선형회귀 (Linear Regression) - 2) 다중선형회귀 ** 다중선형회귀 파트에서도 아래 블로그 참고하여 내용을 정리했습니다. 개념, 이론 https://m.blog.naver.com/jhkang8420/221291682151 3.2 다중선형회귀 다중선형회귀: k개의 설명변수 X로 양적 반응변수 Y를 예측하는 것 $Y = {\beta}_0 + {\beta}_1X_1 + {\beta}_2X_2 + {\beta}_3X_3 + ... + {\beta}_kX_k + e$ 다중선형회귀 역시, 단순선형회귀와 동일한 순서로 회귀식을 만들고 예측하는 과정을 거친다. 하지만 추가하여 고려해야할 개념이 있으므로, 이에 유의하여 내용을 확인하자. 이와 같이 다중회귀분석은 단계를 다음과 같다. 1단계. 이론의 가정: Multicollinearity 가정의 추가 2단계. 회귀직선 ..
Chapter 3. 선형회귀 (Linear Regression) - 1) 단순선형회귀 ** 단순선형회귀 파트에서는 ISLR 교재 내용을 기반으로 아래 블로그 참고하여 내용을 정리했습니다. 개념, 이론 https://m.blog.naver.com/jhkang8420/221291682151 수학적 증명 https://rpubs.com/Jay2548/519965 3.1 단순선형회귀 단순선형회귀: 하나의 설명변수 X에 기초하여 양적 반응변수 Y를 예측하는 것 가장 단순한 지도학습법으로, 최초에 X, Y가 선형관계에 있다고 가정하여 모회귀식을 세운다. (1단계. 이론의 가정) $Y = {\beta}_0 + {\beta}_1X_i$ 그러나 실제로 ${\beta}_0$와 ${\beta}_1$은 알려져있지 않다. 따라서 우리는, 주어진 데이터(관측치, 표본)를 이용해 계수를 추정하여 회귀식을 도출해내야..
ML 1주차. Introduction * 본 정리본은 Coursera Machine Learning 강의의 읽기자료를 번역하여 정리한 내용입니다. * 참고자료: https://wikidocs.net/book/587 1. What is Machine Learning? 머신러닝의 정의는 대표적으로 두 가지가 있다. 먼저 Arthur Samuel이 1959년 정의한 machine learning의 정의를 살펴보자. "the field of study that gives computers the ability to learn without being explicitly programmed." 요컨데 머신러닝이란, 프로그래머가 직접 수많은 규칙을 정해주는 대신 프로그램 자체가 컴퓨터를 통해 스스로를 학습하도록 하는 방법이다. 이 정의는 다소 오래 되..
[참조글] 데이터 사이언티스트의 현실 데이터 사이언티스트, 데이터 분석가가 현업에서 맞닥뜨리는 문제에 대해 정리된 글. 데이터에서 도출된 인사이트가 실제 비즈니스 의사결정에 반영되게 하기 위해서 데이터 사이언티스트에게는 다음과 같은 역량이 요구된다. - 데이터 사이언티스트의 도메인 지식 (실제 업무를 하는데에 있어서 기술적 역량보다 중요할 수 있다) - 비즈니스 관점에서 데이터 분석의 역할 이해 (모델의 성능을 향상시키는 것보다 비즈니스 가치를 진단하는 것이 중요) - 기획자 / 개발자들과 커뮤니케이션 방법 이해 자세한 내용은 아래에. 두고두고 읽어보기 https://business-datascience-develop.tistory.com/2 데이터 사이언티스트 현실 빅데이터 시대라고 한다. 데이터 저장 및 처리 기술이 급속도로 발전하며 이..
Chapter 2. 통계학습 - 2) 모델의 정확도 평가 2.2 모델의 정확도 평가 통계학습기법은 왜이렇게 많을까? → 통계 분야에서 가능한 모든 자료에 대해 어떤 한 방법이 다른 방법보다 지배적으로 나은 경우는 없다. → 그래서! 특정 자료에 대한 적절한 통계학습절차(precedure)를 선택하는 것이 통계에서 가장 어려운 부분이자 핵심이다. 그렇다면 어떻게, 어떤 기준으로 적합한 모델을 선정할 것인가? 1) 적합의 품질 측정: 평균 제곱 오차 (MSE: mean squared error) - 통계학습의 성능을 평가하려면 예측이 실제값과 얼마나 잘 맞는지(가까운지)를 측정하는 것이 필요하다 - 회귀의 일반적인 측도는 평균제곱오차(MSE: mean squared error)이다. - 위 식은 모델을 적합하는데 사용된 훈련데이터(training data)로 계산..
Chapter 2. 통계학습 - 1) 통계학습이란? 2.1 통계학습이란? 통계학습(statistical learning): 데이터에 대한 이해를 위한 방대한 도구 집합 통계학습은 X를 기반으로 Y를 예측하는 모형을 만들 수 있을 때, 그 예측 모형 f를 추정하는 일련의 기법들을 의미한다. 1) 통계학습의 목적 - 통계학습은 목적에 따라 f를 추정하는 방법이 달라질 수 있다. - 그렇다면 통계학습의 목적은 무엇인가? (1) 예측 설명변수들을 사용하여 반응변수 값을 예측하기를 원하는 경우 ex) 인구통계적 수치를 활용하여 메일 광고에 적극적으로 반응할 사람을 식별 주어진 집의 특징에 대해 집이 과소평가 / 과대평가 되었는지 파악하고 싶을 때 (2) 추론 설명변수와 종속변수 사이의 인과관계를 파악하고자 하는 경우 - 어떤 설명변수들이 반응변수와 관련이 있는가?..