본문 바로가기

인공지능(AI)

오차행렬을 통한 계산

반응형

  오차행렬이 True Positives(TP), True Negatives(TN), False Negatives(FN), False Positives(FP)의 수를 결정했으면 과학자들은 모형의 분류 정확도, 오류율, 정밀도 및 리콜을 결정할 수 있습니다. 이에 대해 알아보기 위해 앞서 작성했던 글의 예시에 적용된 수치에 대해 먼저 살펴보겠습니다.

편두통 환자 예측 오차행렬

 표의 내용을 살펴보면 정확하게 분류된 편두통을 앓는 100명의 환자들이 있고, 정확하게 분류된 편두통을 앓지 않은 150명이 있었습니다. 또한 알고리즘이 편두통이 없다고 잘못 분류한 30명의 환자들과, 편두통 환자로 분류했지만 건강한 20명이 존재합니다.

 결과적으로, true positives의 값과 참 true negatives의 값은 알고리즘이 샘플을 정확하게 분류한 횟수를 알려줍니다. 반면, false negatives 및 false positives은 알고리즘이 예측을 잘못한 횟수를 나타냅니다.

 

분류 정확도(Classification Accuracy)

 분류 정확도는 모형이 정확한 출력을 예측하는 빈도를 정의하기 때문에 결정해야 하는 가장 중요한 모수 중 하나입니다. 이때 분류 정확도가 높을수록 모형이 더 좋다고 할 수 있습니다. 이를 식으로 나타내면 (정확도 =  TP+TN / TP+FP+FN+TN)로 나타낼 수 있습니다.

 

 앞서 언급한 편두통 환자를 예측하는 예시를 통해 살펴보면 머신 러닝 알고리즘의 정확도는 100+150/100+20+30+150 = 0.83으로 나타낼 수 있습니다. 이것은 머신 러닝 알고리즘이 예측에서 83% 정확도를 보인다는 것을 의미합니다.

 

오분류율(Misclassification rate)

 오류율이라고도 하는 오분류율은 모형이 잘못된 예측을 하는 빈도를 정의합니다. 오분류율을 계산하는 공식을 살펴보면 (오류율 =  FP+FN/TP+FP+FN+TN)로 나타낼 수 있고, 앞서 소개한 예시를 기준으로 오분류율은 20+30/100+20+30+150 = 0.17가 됩니다. 이는 머신 러닝 알고리즘이 예측에서 17%의 오분류율을 가진다고 볼 수 있습니다.

 

정밀도(Precision)

 정밀도는 모델이 제공하는 올바른 출력 수(true positives)를 분류된 총 양의 샘플 수(true positives, false positives)와 비교합니다. 이는 모델의 성능을 나타내는 지표 중 하나이며 분석하는 사람들이 양성 표본을 분류하는 능력을 측정하는 데 도움이 됩니다. 정밀도의 공식은 (정밀도 = TP/TP+FP)로 나타내며, 예시에서는 100/100+20 = 0.83으로 83%의 정밀도를 보인다고 말할 수 있습니다.

 

재현율(Recall)

 데이터 과학자들은 재현율을 통해 양성 표본을 탐지하는 모형의 능력을 측정할 수 있습니다. 이 값이 높을수록 모형이 탐지한 양의 표본이 더 많습니다. 이는 정확하게 분류된 양의 검체 수(TP)와 양의 총 검체 수 사이의 비율로 계산됩니다. 식으로 나타내면 (Recall = TP/TP+FN)가 되며, 앞선 예시에서는 100/100+30 = 0.76으로, 76%만이 정확하게 예측되었음을 의미합니다.

 

 

머신러닝에서의 오차 행렬(Confusion Matrix)

오차 행렬 (Confusion matrix)은 머신러닝 분류 알고리즘의 성능 측정 기술입니다. 데이터 과학자들은 실제 값을 알 수 있는 경우 이를 사용하여 일련의 검정 데이터에 대한 분류 모형의 성능을 평가

bloginformation.co.kr

 

반응형