본문 바로가기

인공지능(AI)

강화 학습 (1)

반응형

7-1 강화학습의 개념

  • 시행과 보상을 바탕으로 하는 인공지능 기법
  • 주어진 환경에서 의사결정을 최적화할 때 사용
  • 지도학습, 비지도학습으로 나뉨
  • 지도학습: 랜덤 포레스트, 의사결정 트리, 서포트 벡터 머신 (예측과 식별)
  • 비지도학습: 군집 분석, 연관 관계 분석 (특성 분류)
  • 강화학습: 기계 학습의 기법 중 미래의 가치 극대화(Optimization)를 위한 방법

  • 강화학습은 행동과 보상을 통해 에러를 줄여나가는 방식(Trial and Error)을 사용
  • 행동의 결과가 나중에 보상으로 주어지기 때문에 좋은 행동에 대한 즉각적인 판단이 어려움(Delayed Reward)

7-2 강화학습 기법의 개념

  • 마르코프 결정 과정(MDP, Markov Decision Process): 마르코프 연쇄를 바탕으로 순차적인 행동 결정 문제를 수학적으로 정의한 것
  • 동적 프로그래밍의 특징 활용
  • 벨만 방정식: 가치를 계산하는 방법
  • 몬테카를로 근사(Monte Carlo Approximation)기법 활용
  • 강화학습이 지닌 환경적 특징으로 시간차 학습(Temporal Difference Learning)
  • 정책 경사법, 가치 반복법, DQN 모델

7-3 용어

  • 에이전트: 강화학습에서 행동하는 주체
  • 환경: 에이전트가 존재하는 세계
  • 상태: 에이전트가 갖고 있는 관찰 가능한 상태의 집합
  • 행동: 에이전트가 상태에서 가능한 동작
  • 보상: 환경이 에이전트에게 주는 정보
  • 상태 변환 확률: 에이전트가 상태 s에서 행동 a를 취했을 때, 환경의 확률적인 요인에 의해 다른 상태에 도달할 확률

  • 감가율: 에이전트가 현재에 가까운 시점에 받는 보상을 미래에 받는 보상보다 가치 있게 해 주는 개념
  • 정책: 모든 상태에 대해 에이전트가 할 행동
  • 보상의 종류: 즉시 보상(Immediate Reward), 지연 보상(Discounted Reward)
  • 수익: 즉시 보상 외에 미래에 발생하는 지연 보상을 포함한 모든 보상의 합
  • 가치: 에이전트의 상태와 정책을 고려한 상태로 저건부 수익을 계산한 것
  • 강화학습은 '가치 최대화'를 통해 '수익 최대화'를 이루고, 이를 바탕으로 '많은 보상을 받을 수 있는 정책'을 확정하는 과정

7-4 강화학습 모델

  • 기본 모델: 모델에서 환경의 상태와 관측이 없고, 행동과 정책을 임의로 선택하며, 보상이 있는 모델
  • 정책 경사법 모델: 환경의 상태와 관측이 있고, 정책에 따라 행동하며, 보상이 있는 모델. 상태를 판단해 성공한 행동이 중요하다고 보고, 그 행동이 많이 선택되도록 정책을 갱신하는 방법
  • 가치 반복법 모델: 환경의 상태와 관측이 있고, 정책에 따라 행동하며 보상이 있는 모델. 다음 상태 가치와 현상태 가치의 차이를 계산하고, 그 차이만큼 현상태의 가치를 늘리는 방법

 

 

 

 

 

 

※ 해당 내용은 <인공지능 바이블>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형

'인공지능(AI)' 카테고리의 다른 글

딥러닝 (1)  (0) 2023.05.29
강화 학습 (2)  (0) 2023.05.28
통계 기반 기계 학습 - 비지도 학습  (0) 2023.05.26
통계 기반 기계 학습 - 지도학습  (0) 2023.05.25
몬테카를로 알고리즘(Monte-Carlo Algorithm)  (0) 2023.05.24