머신러닝

Linear Regression(1)

앜지 2024. 3. 25. 18:04

Linear Regression, 즉 선형 회귀는 지도 학습에 대한 아주 단순한 접근이다.

예시를 통해서 한번 살펴보겠다.

위 데이터는 Advertising data set이다. 200개의 시장에서 특정 매체를 통해 광고를 했을때 나온 판매량의 데이터이다.

여기에서 목표는 3가지 매체를 사용하여 홍보를 했을때 나오는 판매량을 효과적으로 예측하는 모델을 구축하는 것이다.

사실 TV Raw data를 제외하고는 데이터셋만 확인해서는 관계를 확인하기가 어렵다.

 

- Simple Linear Regression

선형 회귀는 단일 예측 변수 X를 기반으로 양적 응답 변수 Y를 예측하는 간단한 방법 중 하나로 X과 Y사이에 선형 관계가 있다고 가정하고 데이터 포인트에 있는 예측 값과 실제 값 사이의 제곱 차이의 합을 가진 직선을 맞추는 것이다.

주로 다음과 같은 식을 사용한다.

Y ≈  𝛽1+ 𝛽2X

 𝛽 1,𝛽 2는 coefficient, 혹은 parameter이라고 한다.

- Estimating the Coefficients

  • (x1,y1),(x2,y2),.........(xn,yn)가 n개의 관찰 데이터라고 한다. 이를 사용해서 parameter를 유추해 내고 싶다.
  • 그래서 모델이 얼마나 비슷한지 평가하기 위해서 RSS를 사용한다.

 

실제 값과 예측 값과의 차를 구하여 제곱을 한 다음(실제값과의 차이의 절대값을 원한것이기 때문에) 모두 더한다면 RSS값을 구할수가 있다. 이 RSS값으로 모델이 얼마나 정확한지 평가도 할수가 있다.

 

- Multiple Linear Regression

실전에는 predictor(x변수)가 하나보다는 많기 때문에 Multiple Linear Regression을 적용한다.

  • 다른 방법으로는 단순 선형 회귀를 많이 적용시키는 방법도 있다. 하지만 이렇게 많은 모델이 나온다면 각각 어떻게 적용시킬지도 문제이다. 애초에 따로 모델을 생성한다면 각 모델이 다른 변수를 완전히 무시한 것이기 때문에 애매하다.
  • p개의 개별 변수(predictor)이 있다고 하자. 그렇다면 multiple linear regression model은 
  • 같은 형태를 띌 것이다.
  • 그래서 사실 단순 선형회귀와 비슷한 형식으로 진행을 하면 된다.
  • Coefficient는 행렬 계산을 통해서 유추가 가능하다.
  • 그래서 앞서 나왔던 3가지 데이터를 합쳐서 선형 회귀를 진행한다면 
  •  

]

 

와 같은 결과를 얻을수가 있다.

위 결과를 통해서 TV, Radio는 관계가 어느정도 있지만 newspaper은 판매량고 관계가 거의 없는 것을 확인 할수가 있다.

 

물론 이 예시는 2차원에서 이루어진 것이고 더 다차원에서도 선형 회귀가 가능하다.

3차원에서 predictor가 2개이고 response가 한개라면 선형회귀를 시킨 결과는 평면이 된다.

'머신러닝' 카테고리의 다른 글

Logistic Regression(1)  (0) 2024.04.03
Linear Regression(2)  (0) 2024.04.01
Mathematics for Machine Learning(2)  (0) 2024.03.25
Mathematics for Machine Learning(1)  (0) 2024.03.23
머신러닝의 종류  (0) 2024.03.10