CH1. 강화학습이란

[바닥부터 배우는 강화학습] CH1. 강화학습이란을 읽고 정리한 내용입니다.


강화 학습이란 순차적 의사결정 문제에서 누적 보상을 최대화하기 위해 시행 착오를 통해 행동을 교정하는 학습 과정이라 할 수 있다.

보상

  • reward : 의사결정을 얼마나 잘하고 있는지 알려주는 신호
    • 강화 학습의 목적은 과정에서 받는 보상의 총합, 즉 누적 보상을 최대화하는 것
  • 보상의 특징
    • 어떻게 X 얼마나 O : 보상은 어떠한 행동을 하면 그것에 대해 얼마나 잘 하고 있는지 평가 해줄 뿐 어떻게 해야 높은 보상을 받을지는 모른다.
    • 스칼라 : 보상은 스칼라로 표현된다.
    • 희소하고 지연된 보상 : 보상은 선택했던 행동의 빈도에 비해 훨씬 가끔 주어지거나, 행동이 발생한 후 한참 뒤에 나올 수도 있기 때문에 행동과 보상의 연결이 어렵다.

에이전트와 환경

  • 강화학습 요소 : Agent, action, environment, reward
  • 에이전트
    • 강화 학습의 주체. 학습하는 대상
    • 현재 상황 $s_t$에서 어떤 액션을 할지 $a_t$를 결정 -> 결정된 행동 $a_t$를 env.로 보냄 -> env.로부터 그에 따른 보상과 다음 state의 정보를 받음
      • state : 현재 상태에 대한 모든 정보를 숫자로 기록 (eg. 현재 자전거의 위치, 기울어진 정도 등 숫자로 엮은 하나의 벡터)
  • environment
    • 상태 변화를 일으키는 역할을 담당, 행동의 결과를 알려줌
    • 에이전트로부터 받은 $a_t$를 통해서 상태 변화를 일으킴 -> $s_t$ => $s_{t+1}$ -> 에이전트에게 줄 보상 $r_{t+1}$ 계산 -> $s_{t+1}$, $r_{t+1}$을 에이전트에 전달
  • 순차적 의사결정 문제에서는 시간의 흐름을 discrete로 생각 (time step)