1. 평가지표 개념 정리
정확도 (Accuracy)
- 모든 예측 중 올바르게 예측한 비율
- 정확도 = (TP + TN) / (TP + TN + FP + FN)
정밀도 (Precision)
- 양성으로 예측한 케이스 중에서 실제 양성인 비율
- 정밀도 = TP / (TP + FP)
재현율 (Recall)
- 실제 양성 중에서 양성으로 예측된 비율
- 재현율 = TP / (TP + FN)
F1 점수 (F1 Score)
- 정밀도와 재현율의 조화 평균
- F1 = 2 * (정밀도 * 재현율) / (정밀도 + 재현율)
ROC 곡선 (Receiver Operating Characteristic curve)
- 이진 분류 모델의 성능을 시각화한 그래프
- X축: 거짓 양성 비율(FPR), Y축: 참 양성 비율(TPR)
- 면적이 클수록 성능이 좋음
AIC (Akaike Information Criterion)
- 통계 모델의 상대적인 품질을 비교하는 지표
- 낮은 값이 더 좋은 모델을 나타냄
특이도 (Specificity)
-실제 Negative 클래스 중에서 모델이 올바르게 예측한 비율.
-Specificity = TN / (TN + FP)
민감도 (Sensitivity) 또는 True Positive Rate (TPR)
-실제 Positive 클래스 중에서 모델이 올바르게 예측한 비율.
-Sensitivity = Recall = TP / (TP + FN)
FPR (False Positive Rate)
-실제 Negative 클래스 중에서 모델이 잘못 예측한 비율.
-FPR = FP / (FP + TN)
정밀도-재현율 곡선 (Precision-Recall Curve)
-다양한 임계값에서의 정밀도와 재현율의 변화를 시각화한 그래프.
AUC (Area Under the ROC Curve)
-ROC 곡선 아래의 면적을 나타내며, 모델의 분류 성능을 종합적으로 평가.
PR AUC (Area Under the Precision-Recall Curve)
-Precision-Recall 곡선 아래의 면적을 나타냅니다. 주로 클래스 불균형 문제에서 사용.
Log Loss
-모델의 확률 예측과 실제 레이블 간의 차이를 평가하는 지표로, 낮을수록 좋은 성능을 나타냄.
Kappa 통계량 (Cohen's Kappa)
-두 개 이상의 관찰자 또는 분류 모델 간의 일치도를 측정하는 지표입니다.
2. Confusion Matrix (혼동 행렬)
Case 1: 클래스가 불균형인 경우
ex)
실제 양성 실제 음성
예측 양성 TP = 80 FP = 20
예측 음성 FN = 30 TN = 870
Case 2: 클래스가 균형인 경우
ex)
실제 양성 실제 음성
예측 양성 TP = 50 FP = 50
예측 음성 FN = 50 TN = 850
선형회귀분석(Linear_regression) (2) | 2024.05.25 |
---|---|
회귀분석 개념 공부 (0) | 2024.05.19 |
ML1, KNN 알고리즘기반 (0) | 2024.05.05 |
임계점평가지표 (1) | 2024.03.31 |
교차검증, (k-fold cross validation) (1) | 2024.03.24 |