상세 컨텐츠

본문 제목

선형회귀분석(Linear_regression)

공부/머신러닝

by 김지똥 2024. 5. 25. 01:10

본문

이번 실습에서는 정규 분포를 가정하여 데이터셋을 생성한 뒤 생성된 xy 데이터를 사용하여 선형 회귀 분석을 실행한다.

 

OLS(Ordinary Least Squares) 모델을 생성하고 Xy 데이터를 사용하여 적합한 뒤 모델 가정들을 검토하기 위하여 다양한 검정을 수행하고 시각화한다.

 

1. 잔차 플롯 (Residual Plot)

  • 잔차 플롯은 적합된 값(fitted values)과 잔차(residuals)를 시각화한 것입니다.
  • 빨간 점선은 잔차가 0인 위치를 나타냅니다.
  • 패턴이 없는 경우: 잔차가 0을 중심으로 랜덤하게 분포하면 모델의 적합이 잘 된 것입니다. 이는 독립성과 등분산성 가정을 만족한다는 것을 의미합니다.
  • 패턴이 있는 경우: 잔차에 일정한 패턴(예: 곡선형, 팬 모양 등)이 보이면 모델이 데이터를 잘 설명하지 못하며, 독립성 또는 등분산성 가정이 위반될 가능성이 있습니다.

 

2. 정규성 검정: Shapiro-Wilk 테스트

해석 방법:

  • Shapiro-Wilk 테스트는 잔차가 정규 분포를 따르는지 검정합니다.
  • 귀무가설: 잔차가 정규 분포를 따른다.
  • 대립가설: 잔차가 정규 분포를 따르지 않는다.
  • p-value > 0.05: 귀무가설을 기각할 수 없으므로 잔차가 정규 분포를 따른다고 할 수 있습니다.
  • p-value ≤ 0.05: 귀무가설을 기각하므로 잔차가 정규 분포를 따르지 않는다고 할 수 있습니다.

 

3. 더빈-왓슨 테스트

해석 방법:

  • 더빈-왓슨 테스트는 잔차의 자기 상관성을 검정합니다.
  • 값의 범위: 0 ~ 4
    • 2에 가까움: 잔차의 자기 상관이 없음을 의미합니다.
    • 0에 가까움: 양의 자기 상관이 있음을 의미합니다.
    • 4에 가까움: 음의 자기 상관이 있음을 의미합니다.
  • 해석: 값이 2에 가까울수록 잔차에 자기 상관이 없고, 모델이 독립성 가정을 만족한다고 볼 수 있습니다.

 

4. 정규성 검정: Q-Q 플롯

해석 방법:

  • Q-Q 플롯은 잔차의 분포가 정규 분포를 따르는지 시각적으로 확인하는 데 사용됩니다.
  • 45도 선에 가까울수록: 잔차가 정규 분포를 따른다는 것을 의미합니다.
  • 점들이 직선을 따름: 잔차가 정규 분포를 따른다는 것을 시사합니다.
  • 점들이 직선을 따르지 않음: 잔차가 정규 분포를 따르지 않는다는 것을 시사합니다.

5. 등분산성 검정: 잔차의 분산 플롯

 

해석 방법:

  • 등분산성 검정은 잔차의 분산이 일정한지를 확인하는 데 사용됩니다.
  • Lowess 선이 수평에 가까움: 잔차의 분산이 일정하다는 것을 의미합니다. 이는 등분산성 가정을 만족한다는 것을 시사합니다.
  • Lowess 선이 곡선을 그리거나 일정하지 않음: 잔차의 분산이 일정하지 않다는 것을 의미합니다. 이는 등분산성 가정이 위반될 가능성이 있음을 시사합니다.

요약

  • 잔차 플롯: 패턴이 없어야 합니다. 패턴이 있다면 모델이 잘못된 것입니다.
  • Shapiro-Wilk 테스트: p-value가 0.05 이상이어야 잔차가 정규 분포를 따른다고 할 수 있습니다.
  • 더빈-왓슨 테스트: 값이 2에 가까워야 잔차에 자기 상관이 없음을 의미합니다.
  • Q-Q 플롯: 잔차가 45도 선을 따라야 정규 분포를 따른다고 할 수 있습니다.
  • 잔차의 분산 플롯: 잔차의 분산이 일정해야 등분산성을 만족합니다.

 

'공부 > 머신러닝' 카테고리의 다른 글

회귀분석 개념 공부  (0) 2024.05.19
ML1, KNN 알고리즘기반  (0) 2024.05.05
임계점평가지표  (1) 2024.03.31
머신러닝, 평가지표  (2) 2024.03.24
교차검증, (k-fold cross validation)  (2) 2024.03.24

관련글 더보기