본문 바로가기

인공지능(AI)

머신러닝에서의 액티브 러닝 (2)

반응형

능동적 학습은 어떻게 이루어지는가?

 능동적 학습은 기계 학습 모델이 학습한 데이터에 대해 선택적일 수 있도록 합니다. 그것이 작동하는 방식은 인간으로서 우리가 필요한 것과 목표에 따라 다른 영역에 선택적으로 집중하는 방식에 비교될 수 있습니다.

 그러나 이 선택은 전적으로 자율적인 것은 아닙니다. 모델은 인간의 의식적인 이해나 의사 결정 능력이 부족합니다. 대신 미리 설정된 규칙과 알고리즘을 따라 어떤 인스턴스가 학습 과정에 가장 도움이 될 수 있는지 확인합니다.

 스트림 기반 선택 샘플링, 풀 기반 샘플링, 멤버십 쿼리 합성의 세 가지 주요 방법으로 나누어 학습이 어떻게 활성화되는지 알아보겠습니다.

 

스트림 기반 선택적 샘플링(Stream-Based Selective Sampling)

 끊임없이 흘러가며 끊임없이 진화하는 데이터의 끊임없는 강을 생각해 보면 머신 러닝 모델은 어떤 데이터 포인트가 주목할 만한 가치가 있는지 어떻게 결정할까요? 답은 스트림 기반 선택적 샘플링에 있습니다.

 이 방법에서는 데이터 스트림 내의 각 인스턴스를 개별적으로 고려하며, 모델은 데이터를 자체적으로 식별하거나 어려운 샘플을 발견할 경우 인간의 도움을 요청할 수 있습니다.

 후자가 발생하면 데이터는 사람에 의해 레이블이 지정되고 모델은 예측 능력을 향상시키기 위해 능동적인 학습을 통해 이 정보의 우선 순위를 결정합니다. 모델은 마치 탐사자가 개울에서 금을 캐는 것과 같고 수집품에 가치를 더할 수 있는 너겟을 찾는 것과 같습니다.

 스트림 기반 선택적 샘플링은 금융 거래, 소셜 미디어 피드 또는 네트워크 트래픽과 같은 지속적으로 들어오는 실시간 데이터를 처리할 때 특히 유용합니다.

 이 모델은 능동적인 학습 원리와 프로그램된 기본 알고리즘에 따라 학습할 인스턴스에 대해 현장에서 결정을 내릴 수 있습니다.

 그러나 이 접근 방식의 문제점은 모델이 즉각적인 결정을 내려야 한다는 것이며, 이는 모델이 데이터 흐름의 속도 때문에 일부 정보 인스턴스를 놓칠 수 있기 때문에 잠재적인 감독을 초래할 수 있다는 것입니다. 또한 데이터 스트림이 다양하지 않거나 특정 유형의 인스턴스로 크게 치우친 경우에는 이 접근 방식이 실용적이지 않을 수 있다는 점에 유의할 필요가 있습니다.

 

풀 기반 샘플링(Pool-Based Sampling)

 스트림 기반 샘플링이 강에서 금을 캐는 것과 같다면, 풀 기반 샘플링은 잠재적인 금 덩어리 한 통을 가지고 가장 가치 있는 것을 신중하게 선택하는 것과 같습니다. 풀 기반 샘플링에서는 레이블이 지정되지 않은 인스턴스의 많은 풀에서 시작합니다. 모델은 컬렉션을 검토하고 가장 정보가 많거나 도전적인 샘플의 하위 집합을 식별합니다. 이 하위 집합은 불확실성 샘플링과 같은 미리 정의된 쿼리 전략을 통해 발견되며, 여기서 각 인스턴스의 잠재적 정보성을 측정하기 위해 최소한의 신뢰도로 인스턴스를 선택합니다. 그런 다음 오라클(대부분의 경우 인간 전문가)에 의해 검증되도록 이러한 인스턴스를 보내고, 그 후 결과를 자체 개선을 돕기 위해 훈련 세트에 추가합니다.

 이 방법은 모델이 성능을 크게 향상시킬 수 있는 인스턴스로부터의 학습에 우선순위를 둘 수 있게 해줍니다. 예를 들어, 문서 분류 작업에서 모델은 하나의 문서 유형에 초점을 맞추는 것보다 다양한 주제를 다루는 다양한 문서로부터 학습할 수 있으므로 다양한 문서를 분류할 수 있는 모델의 이해도와 능력을 높일 수 있습니다.

 그러나 단점은 모델이 가장 많은 정보를 얻기 위해 풀의 모든 인스턴스를 평가해야 하기 때문에 풀 기반 샘플링에 상당한 계산 리소스가 필요하다는 것입니다. 또한 이 방법은 풀을 미리 정의해야 하기 때문에 실시간 응용 프로그램에 적합하지 않습니다.

 

멤버십 쿼리 합성(Membership Query Synthesis)

 모델이 학습할 인스턴스를 선택할 수 있을 뿐만 아니라 쿼리를 위해 자신의 인스턴스를 만들 수 있다면 어떻게 될까요? 멤버쉽 쿼리 합성을 입력합니다.

 이 접근법은 모델이 현재의 이해와 학습 목표를 바탕으로 인스턴스나 쿼리를 생성하는 것으로 학생이 지식을 테스트하고 부족한 부분을 채우기 위한 질문을 제시하는 것과 같습니다.

 이는 모델이 유사한 데이터의 부분 집합에 대해 이미 학습을 완료하고 데이터 패턴에 대한 이해를 발전시킨 후에 발생합니다. 모델은 이 초기 지식을 사용하여 데이터의 불확실한 영역을 대상으로 하는 새로운 인스턴스를 생성합니다.

 멤버십 쿼리 합성은 기존 인스턴스가 학습 범위를 적절하게 포괄하지 못하는 복잡하고 추상적인 개념을 다룰 때 특히 유용할 수 있습니다. 예를 들어, 자연어 처리에서 모델은 언어 규칙과 맥락에 대해 더 많이 학습하기 위해 새로운 문장이나 구를 생성할 수 있습니다.

 그러나 이 접근법의 문제점은 모델이 이미 문제에 대해 상당한 이해를 가지고 있다고 가정한다는 것입니다. 만약 모델이 이러한 지식을 가지고 있지 않다면 관련이 없거나 도움이 되지 않는 인스턴스를 생성할 수 있기 때문에 다른 샘플링 방법과 함께 사용되는 경우가 많습니다.

반응형