본문 바로가기

인공지능(AI)

인공지능 위험 관리의 주요 원칙 (2)

반응형

인공지능 위험 범주

효과적인 AI 위험 관리는 다양한 범주에 걸쳐 잠재적인 위험을 식별하고 완화해야 합니다. 대표적인 예시를 몇가지 카테고리와 함께 살펴보도록 하겠습니다.

 

데이터 관련 위험 (Data-Related Risks)

 데이터는 인공지능 시스템의 생명선입니다. 그것은 모델 훈련, 새로운 상황에 대한 일반화, 적응 및 지속적인 개선을 가능하게 합니다. 그러나 AI 생성 콘텐츠의 대부분의 문제는 잘 수집되지 않고 연마된 데이터에서 비롯됩니다.

 데이터 편향은 사회의 기존 고정관념을 영구화하는 불공정한 인공지능 시스템으로 이어질 수 있습니다. 인간과 달리, 인공지능 알고리즘은 다른 환경에 대한 판단과 맥락을 제공할 수 없습니다. 인간의 참여는 포괄적인 평가를 보장하고, 윤리적이고 사회적인 영향을 고려하며, 사회적인 규범과 가치에 부합하는 정보에 입각한 결정을 내립니다. 인공지능 알고리즘은 이 모든 요소들을 고려하지 않을 수 있습니다. 예를 들어, 편향된 데이터에 대해 훈련된 채용 인공지능은 나이, 성별, 또는 인종에 따라 후보자를 차별할 수 있습니다.

 또한 인공지능 시스템은 종종 방대한 양의 개인 데이터를 수집합니다. 이 데이터가 암호화 또는 액세스 제어에 의해 적절하게 보호되지 않으면 악의적으로 사용될 수 있습니다. 2022년에는 거의 500명의 사람들의 암호화폐 지갑이 Crypto.com 에서 표적이 되었습니다. 공격자들은 사이트의 2요소 인증을 회피하고 1,800만 달러의 비트코인과 1,500만 달러의 이더리움을 훔쳤습니다.

 불량한 데이터는 불완전하고, 오류가 있으며, 부적절한 데이터 또는 잘못된 맥락에서 사용된 데이터를 포함할 수 있습니다. 불량한 데이터 품질은 AI 시스템의 학습 능력을 방해할 수 있을 뿐만 아니라 잘못된 예측과 결정을 초래할 수 있습니다. 예를 들어, 부정확하거나 불완전한 환자 데이터에 대해 훈련되는 의료 진단에 사용되는 AI 시스템을 생각해 보십시오. 불량한 데이터 품질은 잠재적으로 환자의 안전과 관리를 손상시키며 오진과 부적절한 치료 권고를 초래할 수 있습니다.

 

인공지능, 머신러닝 공격 (AI/ML Attacks)

 AI 시스템이 보편화됨에 따라 악의적인 공격의 대상이 될 수 있습니다. AI 및 머신 러닝(ML) 시스템에 대한 알려진 대부분의 잠재적인 공격은 다음 중 하나로 분류될 수 있습니다.

 적대적 공격은 인공지능 시스템을 조작하거나 속여서 잘못된 예측이나 결정을 내리도록 하는 데 사용되는 기술입니다. 한 예는 정지 표지판의 이미지가 인간에게 감지할 수 없는 방식으로 바뀌지만 인공지능으로 작동되는 차량이 그것을 속도 제한 표지판으로 잘못 분류하게 하는 "적대적 정지 표지판"입니다. 결과적으로, 이것은 그 차가 안전하지 않은 속도로 교차로를 통과하도록 합니다.

 데이터 중독은 AI 시스템이 훈련하는 데이터베이스에 악성 데이터를 도입하는 것을 포함합니다. 이는 AI/ML 모델의 오류율을 증가시키고 편향된 예측을 초래할 수 있습니다. 예를 들어, 신용 점수에 사용되는 AI 모델이 인종 또는 성별 편향을 나타내는 과거 대출 데이터에 대해 훈련된다면 편향된 데이터는 AI 모델이 차별적인 대출 결정을 내리는 결과를 초래할 수 있습니다.

 모델 도용에서 개인은 조직으로부터 인공지능 모델 자체를 훔칩니다. 도난당한 모델은 추가적인 위험을 생성하는 도구로 사용될 수 있기 때문에 이러한 공격은 잠재적으로 가장 악의적인 유형의 인공지능/ML 공격입니다. 2021년에 중국 기술 회사인 화웨이는 실리콘 밸리에 기반을 둔 스타트업인 CNEX Labs로부터 소스 코드, 도식 및 사용자 설명서를 훔친 혐의로 기소되었습니다. 혐의에 따르면 화웨이는 자체 자율 주행 시스템을 개발하기 위해 도난당한 기술을 사용했습니다. 이 사례는 인공지능 관련 영업 비밀 보호의 중요성과 그렇게 하지 않을 때의 잠재적인 결과를 강조합니다.

 

테스트(Testing)

 테스트 단계는 AI가 구축되는 방법의 핵심 단계 중 하나입니다. 모델 진화의 식별, 다양한 복잡성의 평가, 잠재적인 문제와 단점의 감지를 가능하게 하여 AI 모델의 신뢰성과 효과를 보장합니다.

 불충분한 테스트는 예측하지 못한 오류와 AI 시스템의 버그로 이어질 수 있으며, 이로 인해 잘못된 예측과 결정을 초래할 수 있습니다. 예를 들어, 의료 AI 모델이 충분히 크고 다양한 질병 샘플을 포함하여 다양한 범위의 데이터에 대해 철저하게 테스트되지 않으면 잘못된 진단 또는 차선의 치료 권장 사항을 초래하여 환자의 안전과 관리를 손상시킬 수 있습니다.

 데이터 드리프트는 AI 모델을 훈련시키는 데 사용되는 입력 데이터의 분포가 시간이 지남에 따라 변경되어 부정확한 예측을 초래할 때 발생합니다. 과거 데이터에 대해 훈련된 모델은 새로운 데이터를 사용할 수 있게 됨에 따라 잘못된 예측을 할 수 있습니다. 예를 들어, AI 모델이 과거 고객 선호도 및 구매 패턴에 대해 훈련되었지만 시간이 지남에 따라 고객 행동 및 선호도가 변경되면 모델은 이러한 변화를 포착하지 못할 수 있습니다.

 테스트 세트 바이어스는 AI 모델을 테스트하는 데 사용된 데이터가 편향되어 시스템 정확도와 신뢰성을 과대평가할 때 발생합니다. 이는 얼굴 인식에 사용되는 AI 알고리즘이 백인 얼굴이 대부분인 데이터 세트에서 테스트되는 경우입니다. 알고리즘은 다양한 모집단에 적용될 때 정확도가 떨어질 수 있습니다.

반응형