오차 행렬 (Confusion matrix)은 머신러닝 분류 알고리즘의 성능 측정 기술입니다. 데이터 과학자들은 실제 값을 알 수 있는 경우 이를 사용하여 일련의 검정 데이터에 대한 분류 모형의 성능을 평가합니다. 예를 들어, 분류 정확도는, 특별히 데이터 세트에 두 개 이상의 클래스가 있는 경우 오차가 발생할 수 있습니다. 이러한 오차 행렬을 계산하게 되면 데이터 과학자들이 분류 모델의 효과를 이해하는 데 도움이 됩니다.
오차 행렬의 네가지 결과
오차 행렬은 실제 값과 예측 값을 비교하여 분류기의 정확도를 시각화합니다. 이는 아래 이미지와 같이 예측의 다양한 결과에 대한 표를 제공합니다.
표를 살펴보면 대상 변수에는 양 또는 음의 두 가지 값이 있고, 열은 대상 변수의 실제 값인 알려진 진실을 나타냅니다. 또한 행은 기계 학습 알고리즘의 예측 값에 해당합니다
첫번째로, True Positive 영역은 모델별 예측 값이 실제 값과 일치하는 것으로, 실제 값과 기계 학습 모델 모두 양성 값을 예측했습니다. True Negative에서도 모델별 예측 값이 실제 값과 일치하고, 이때 실제 값과 기계 학습 모델 모두 음성 값을 예측했습니다.
False Positive 영역은 기계 학습 모델이 잘못된 예측을 한 경우입니다. 실제 값은 음성이었지만, 기계 학습 모델은 양성 값을 예측했습니다. 거짓 양성은 유형 1 오류라고도 합니다. False Negative 역시 기계 학습 모델이 잘못된 예측을 한 경우로, 실제 값은 양성이었지만 기계 학습 모델은 음성 값을 예측했습니다. 이러한 거짓 음성은 유형 2 오류라고도 합니다.
오차행렬의 예시
오차행렬과 그 값을 더 잘 이해하기 위해 다음 예시를 살펴보겠습니다. 만약 편두통을 앓고 있는 환자의 수를 예측할 수 있는 모형을 생성하려고 한다면 아래와 같은 형태의 표를 통해 알아볼 수 있습니다.
이러한 상황에서는 True positive는 편두통을 앓고 있고 알고리즘에 의해 정확하게 식별된 환자입니다. 또한 True negative는 편두통을 앓지 않고 알고리즘에 의해 정확하게 식별된 환자입니다. False negative는 편두통을 앓고 있는 환자들이지만 알고리즘이 그렇지 않다고 분류한 집단이고, False positive는 편두통이 없는 환자들이지만 알고리즘은 편두통을 가진다고 분류했습니다.
'인공지능(AI)' 카테고리의 다른 글
인공지능 인프라 (0) | 2023.01.25 |
---|---|
오차행렬을 통한 계산 (0) | 2023.01.24 |
인공지능의 8가지 한계 (2) (0) | 2023.01.22 |
인공지능의 8가지 한계 (1) (0) | 2023.01.21 |
인공지능과 분류 (0) | 2023.01.20 |