이번 실습에서는 정규 분포를 가정하여 데이터셋을 생성한 뒤 생성된 x와 y 데이터를 사용하여 선형 회귀 분석을 실행한다.
OLS(Ordinary Least Squares) 모델을 생성하고 X와 y 데이터를 사용하여 적합한 뒤 모델 가정들을 검토하기 위하여 다양한 검정을 수행하고 시각화한다.
1. 잔차 플롯 (Residual Plot)
- 잔차 플롯은 적합된 값(fitted values)과 잔차(residuals)를 시각화한 것입니다.
- 빨간 점선은 잔차가 0인 위치를 나타냅니다.
- 패턴이 없는 경우: 잔차가 0을 중심으로 랜덤하게 분포하면 모델의 적합이 잘 된 것입니다. 이는 독립성과 등분산성 가정을 만족한다는 것을 의미합니다.
- 패턴이 있는 경우: 잔차에 일정한 패턴(예: 곡선형, 팬 모양 등)이 보이면 모델이 데이터를 잘 설명하지 못하며, 독립성 또는 등분산성 가정이 위반될 가능성이 있습니다.
2. 정규성 검정: Shapiro-Wilk 테스트
해석 방법:
- Shapiro-Wilk 테스트는 잔차가 정규 분포를 따르는지 검정합니다.
- 귀무가설: 잔차가 정규 분포를 따른다.
- 대립가설: 잔차가 정규 분포를 따르지 않는다.
- p-value > 0.05: 귀무가설을 기각할 수 없으므로 잔차가 정규 분포를 따른다고 할 수 있습니다.
- p-value ≤ 0.05: 귀무가설을 기각하므로 잔차가 정규 분포를 따르지 않는다고 할 수 있습니다.
3. 더빈-왓슨 테스트
해석 방법:
- 더빈-왓슨 테스트는 잔차의 자기 상관성을 검정합니다.
- 값의 범위: 0 ~ 4
- 2에 가까움: 잔차의 자기 상관이 없음을 의미합니다.
- 0에 가까움: 양의 자기 상관이 있음을 의미합니다.
- 4에 가까움: 음의 자기 상관이 있음을 의미합니다.
- 해석: 값이 2에 가까울수록 잔차에 자기 상관이 없고, 모델이 독립성 가정을 만족한다고 볼 수 있습니다.
4. 정규성 검정: Q-Q 플롯
해석 방법:
- Q-Q 플롯은 잔차의 분포가 정규 분포를 따르는지 시각적으로 확인하는 데 사용됩니다.
- 45도 선에 가까울수록: 잔차가 정규 분포를 따른다는 것을 의미합니다.
- 점들이 직선을 따름: 잔차가 정규 분포를 따른다는 것을 시사합니다.
- 점들이 직선을 따르지 않음: 잔차가 정규 분포를 따르지 않는다는 것을 시사합니다.
5. 등분산성 검정: 잔차의 분산 플롯
해석 방법:
- 등분산성 검정은 잔차의 분산이 일정한지를 확인하는 데 사용됩니다.
- Lowess 선이 수평에 가까움: 잔차의 분산이 일정하다는 것을 의미합니다. 이는 등분산성 가정을 만족한다는 것을 시사합니다.
- Lowess 선이 곡선을 그리거나 일정하지 않음: 잔차의 분산이 일정하지 않다는 것을 의미합니다. 이는 등분산성 가정이 위반될 가능성이 있음을 시사합니다.
요약
- 잔차 플롯: 패턴이 없어야 합니다. 패턴이 있다면 모델이 잘못된 것입니다.
- Shapiro-Wilk 테스트: p-value가 0.05 이상이어야 잔차가 정규 분포를 따른다고 할 수 있습니다.
- 더빈-왓슨 테스트: 값이 2에 가까워야 잔차에 자기 상관이 없음을 의미합니다.
- Q-Q 플롯: 잔차가 45도 선을 따라야 정규 분포를 따른다고 할 수 있습니다.
- 잔차의 분산 플롯: 잔차의 분산이 일정해야 등분산성을 만족합니다.