상세 컨텐츠

본문 제목

머신러닝, 평가지표

공부/머신러닝

by 김지똥 2024. 3. 24. 15:08

본문

1. 평가지표 개념 정리

 정확도 (Accuracy)
- 모든 예측 중 올바르게 예측한 비율
- 정확도 = (TP + TN) / (TP + TN + FP + FN)

정밀도 (Precision)
- 양성으로 예측한 케이스 중에서 실제 양성인 비율
- 정밀도 = TP / (TP + FP)

재현율 (Recall)
- 실제 양성 중에서 양성으로 예측된 비율
- 재현율 = TP / (TP + FN)

F1 점수 (F1 Score)
- 정밀도와 재현율의 조화 평균
- F1 = 2 * (정밀도 * 재현율) / (정밀도 + 재현율)

 ROC 곡선 (Receiver Operating Characteristic curve)
- 이진 분류 모델의 성능을 시각화한 그래프
- X축: 거짓 양성 비율(FPR), Y축: 참 양성 비율(TPR)
- 면적이 클수록 성능이 좋음

AIC (Akaike Information Criterion)
- 통계 모델의 상대적인 품질을 비교하는 지표
- 낮은 값이 더 좋은 모델을 나타냄

 

특이도 (Specificity)

-실제 Negative 클래스 중에서 모델이 올바르게 예측한 비율.

-Specificity = TN / (TN + FP)

 

민감도 (Sensitivity) 또는 True Positive Rate (TPR)

-실제 Positive 클래스 중에서 모델이 올바르게 예측한 비율.

-Sensitivity = Recall = TP / (TP + FN)

 

FPR (False Positive Rate)

-실제 Negative 클래스 중에서 모델이 잘못 예측한 비율.

-FPR = FP / (FP + TN)

 

정밀도-재현율 곡선 (Precision-Recall Curve)

-다양한 임계값에서의 정밀도와 재현율의 변화를 시각화한 그래프.

 

AUC (Area Under the ROC Curve)

-ROC 곡선 아래의 면적을 나타내며, 모델의 분류 성능을 종합적으로 평가.

 

PR AUC (Area Under the Precision-Recall Curve)

-Precision-Recall 곡선 아래의 면적을 나타냅니다. 주로 클래스 불균형 문제에서 사용.

 

Log Loss

-모델의 확률 예측과 실제 레이블 간의 차이를 평가하는 지표로, 낮을수록 좋은 성능을 나타냄.

 

Kappa 통계량 (Cohen's Kappa)

-두 개 이상의 관찰자 또는 분류 모델 간의 일치도를 측정하는 지표입니다.



 2. Confusion Matrix (혼동 행렬)

 Case 1: 클래스가 불균형인 경우
ex)

              실제 양성   실제 음성
예측 양성      TP = 80     FP = 20
예측 음성      FN = 30     TN = 870


Case 2: 클래스가 균형인 경우
ex)

              실제 양성   실제 음성
예측 양성      TP = 50     FP = 50
예측 음성      FN = 50     TN = 850

'공부 > 머신러닝' 카테고리의 다른 글

선형회귀분석(Linear_regression)  (2) 2024.05.25
회귀분석 개념 공부  (0) 2024.05.19
ML1, KNN 알고리즘기반  (0) 2024.05.05
임계점평가지표  (1) 2024.03.31
교차검증, (k-fold cross validation)  (1) 2024.03.24

관련글 더보기