본문 바로가기

인공지능(AI)

머신러닝에서 혼동행렬(Confusion Matrix) (3)

반응형

혼동 행렬을 사용한 계산

 혼동 행렬이 참 긍정(TP), 참 부정(TN), 거짓 부정(FN) 및 거짓 긍정(FP)의 수를 결정하면 과학자는 모델의 분류 정확도, 오류율, 정밀도 및 리콜을 결정할 수 있습니다.

 

분류 정확도(Classification Accuracy)

 분류 정확도는 모델이 정확한 출력을 예측하는 빈도를 정의하기 때문에 결정하는 가장 중요한 매개 변수 중 하나입니다. 정확도가 높을수록 모델이 우수하다는 것을 의미합니다.

 

정확도 = TP+TN / TP+FP+FN+TN

 

 편두통 환자를 예측하는 예를 들어보면, 이 경우 기계학습 알고리즘의 정확도는 100+150/100+20+30+150 = 0.83이 됩니다. 이는 기계 학습 알고리즘이 예측에서 83% 정확하다는 것을 의미합니다.

 

오분류율(Misclassification rate)

 오분류율이라고도 하는 잘못된 분류율은 모형에서 잘못된 예측을 하는 빈도를 정의합니다.

 

오분류율 =  FP+FN/TP+FP+FN+TN 

 

 앞선 예를 기준으로 계산한 오분류율은 20+30/100+20+30+150 = 0.17입니다. 따라서 기계 학습 알고리즘은 예측에서 17% 부정확합니다.

 

정밀도(Precision)

 정밀도는 모델이 제공하는 정확한 출력의 수(TP)를 분류된 총 양의 샘플 수(TP, FP)와 비교합니다. 이는 모델의 성능을 나타내는 하나의 지표이며 과학자들이 양의 샘플을 분류하는 능력을 측정하는 데 도움이 됩니다.

 

정밀도 = TP/TP+FP

 

 이 경우 정밀도는 100/100+20 = 0.83입니다. 이는 모든 긍정적인 예측 중 83%가 사실이라는 것을 의미합니다.

 

재현율(Recall)

 재현율을 사용하면 데이터 과학자가 모델의 양성 샘플을 탐지하는 능력을 측정할 수 있습니다. 이 값이 높을수록 모델이 더 많은 양성 샘플을 탐지했음을 의미합니다. 이 값은 총 양의 값 수에 대한 양의 표본 수(TP) 간의 비율로 계산됩니다.

 

재현율 = TP/TP+FN = 100/100+30 = 0.76

 

이는 모든 실제 양성 사례 중 76%만이 정확하게 예측되었음을 의미합니다.

반응형