본문 바로가기

인공지능(AI)

강화 학습 (2)

반응형

7-5 기본 모델

  • 가장 간단한 형태로 모델에 상태나 정책이 없고, 주어진 확률에 따라 행동하며 그에 따라 보상이 지급

탐욕 알고리즘(Greedy Algorithm)

  • 현단계에서 최선은 아니지만, 전체적으로 최선인 경로를 선택하기 위해 개발된 것

UCB1 알고리즘(Upper Confidence Bound1 Algorithm)

  • '성공률' + '바이어스'를 최대로 만드는 행동을 선택하는 방법

7-6 정책 경사법 모델

  • 주어진 환경에서 상태를 갖고 관측하는 기능을 추가
  • 강화학습에서 사용하는 가장 일반적인 모델 유형

정책 경사법의 학습 순서

  • 1) 초기 정책을 준비
  • 2) 정책을 파라미터로 변환
  • 3) 파라미터에 따라 골인 지점에 이를 때까지 행동을 반복
  • 4) 성공한 경우, 성공한 행동을 많이 받아들이도록 파라미터를 변경
  • 5) 파라미터 변화량이 임곗값 이하가 될 때까지 3),4) 과정 반복

7-7 가치 반복법 모델

  • 어떤 행동을 선택할 때 다음 상태 가치와 현상태 가치의 차이를 계산하고, 그 차이만큼 현상태의 가치를 증가시키는 방법

행동 가치 함수(Action Value Function)

  • 특정한 상태에서 특정한 행동을 선택하는 가치를 계산하는 함수
  • Q 함수

상태 가치 함수(State Value Function)

  • 특정 상태의 가치를 계산하는 함수

벨만 방정식(Bellman Equation)

  • 행동 가치 함수와 상태 가치 함수를 일반적인 형태로 서술한 것
  • 벨만방정식으로부터 행동 가치 함수를 학습하는 방법: Sarsa, Q

7-8 DQN(Deep Q Networks)

  • 가치 반복법과 딥러닝을 합친 것
  • 반복되는 학습 과정이 Q 테이블을 최적화시키는 것과 같은 역할을 함

7-9 강화학습의 예

 
 
 
 

 
※ 해당 내용은 <인공지능 바이블>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형

'인공지능(AI)' 카테고리의 다른 글

딥러닝 (2)  (0) 2023.05.30
딥러닝 (1)  (0) 2023.05.29
강화 학습 (1)  (0) 2023.05.27
통계 기반 기계 학습 - 비지도 학습  (0) 2023.05.26
통계 기반 기계 학습 - 지도학습  (0) 2023.05.25