본문 바로가기

인공지능(AI)

머신러닝에서의 액티브 러닝 (3)

반응형

능동 학습 vs 강화 학습

 능동 학습과 강화 학습 모두 기계 학습의 하위 집합이지만, 서로 다른 원리와 접근 방식으로 작동합니다. 서로의 차이점을 살펴봅시다.

 

액티브 러닝(Active Learning)

 능동적 학습은 모델이 성능을 향상시키기 위해 데이터 풀에서 가장 유용한 인스턴스를 선택할 때 발생합니다. 그것은 준지도 학습의 한 종류이며, 라벨이 부착되지 않은 데이터 모두에 대해 학습된다는 것을 의미합니다.

 능동적 학습은 가장 정보가 많은 데이터 포인트에 초점을 맞추고 모호한 인스턴스를 대상으로 하여 정확성을 향상시키기 때문에 효율성을 포함한 주요 이점을 제공하지만, 기존의 머신 러닝에 비해 복잡성이 증가하고 인간 의존도가 높으며 정보가 있다고 생각하는 인스턴스에 대한 편향의 위험과 같은 단점도 수반됩니다.

 

강화학습(Reinforcement Learning)

 강화 학습은 모델이 환경과 상호 작용하면서 배우는 목표 지향적 접근법입니다. 흔히 에이전트라고 불리는 모델은 보상이나 벌칙을 통해 행동을 취하고 피드백을 받습니다. 목적은 시간이 지남에 따라 총 보상을 최대화하기 위한 일련의 행동을 학습하는 것입니다. 에이전트가 시행착오를 통해 배우는 강화학습에는 훈련 단계가 없습니다.

 이것을 체스 게임의 고전적인 예와 함께 설명해 보겠습니다. 체스를 두는 에이전트는 동작(동작)을 취한 후 게임 환경으로부터 피드백(보상 또는 벌칙)을 받습니다. 이것은 장기적으로 가장 많은 보상을 얻을 것이라고 예측하는 동작을 선택하여 결정을 내리는 것을 배웁니다. 이 방법은 과거의 행동과 그 결과로부터 배우는 것을 포함하며, 시간이 지남에 따라 전략을 개발합니다.

 강화 학습은 레이블이 지정된 데이터 세트가 없는 유연성, 상호 작용에 의한 지속적인 교육, 복잡한 환경에 대한 적응력을 자랑하지만 계산이 어려울 수 있으며 보상이 불확실하여 최적의 결과를 도출할 수 없습니다.

 

능동적 학습과 강화적 학습의 차이점

- 데이터 선택 대 행동 순서: 능동적 학습은 가장 유익한 데이터를 선택하는 것이고, 강화 학습은 환경으로부터의 피드백을 기반으로 최적의 행동 순서를 학습하는 것입니다.

 

- 피드백: 능동적 학습에서 피드백은 선택된 사례에 대한 올바른 레이블 또는 답입니다. 강화 학습에서 피드백은 에이전트가 취한 행동에 기반한 보상 또는 벌칙의 형태입니다.

 

- 장기 전략: 능동적 학습은 각 데이터 포인트가 모델의 현재 상태를 기반으로 독립적으로 분석되기 때문에 장기적인 전략을 수반하지 않습니다. 목표는 모델의 예측 성능의 즉각적인 향상입니다. 이와 대조적으로 강화 학습은 장기적인 보상을 최대화하는 것이며 행동은 종종 이전의 결과에 의존합니다.

 

- 환경 상호작용: 능동적 학습에는 모델이 상호작용하는 '환경'이 포함되지 않지만, 강화학습에는 모델의 행동에 기반하여 피드백을 제공하는 환경이 필요합니다.

 

- 감독 수준: 능동적 학습은 레이블이 지정되지 않은 데이터가 많을 때 자주 사용하는 준감독 방식입니다. 반면에 강화 학습은 보통 감독되지 않고 명확한 보상 체계가 있는 상황에 적합합니다.

 

- 활용 사례: 능동적 학습 알고리즘은 일반적으로 의료 산업, 자연어 처리, 자율주행 자동차 등에 적용되며, 강화 학습은 비디오 게임, 금융, 로봇 공학 등에서 빈번하게 관찰될 수 있습니다.

반응형