CH1. 강화학습이란

Posted Apr 3, 2022

By Yonsoo Kim

2 min read

[바닥부터 배우는 강화학습] CH1. 강화학습이란을 읽고 정리한 내용입니다.

강화 학습이란 순차적 의사결정 문제에서 누적 보상을 최대화하기 위해 시행 착오를 통해 행동을 교정하는 학습 과정이라 할 수 있다.

보상

reward : 의사결정을 얼마나 잘하고 있는지 알려주는 신호
- 강화 학습의 목적은 과정에서 받는 보상의 총합, 즉 누적 보상을 최대화하는 것
보상의 특징
- 어떻게 X 얼마나 O : 보상은 어떠한 행동을 하면 그것에 대해 얼마나 잘 하고 있는지 평가 해줄 뿐 어떻게 해야 높은 보상을 받을지는 모른다.
- 스칼라 : 보상은 스칼라로 표현된다.
- 희소하고 지연된 보상 : 보상은 선택했던 행동의 빈도에 비해 훨씬 가끔 주어지거나, 행동이 발생한 후 한참 뒤에 나올 수도 있기 때문에 행동과 보상의 연결이 어렵다.

강화학습 요소 : Agent, action, environment, reward
에이전트
- 강화 학습의 주체. 학습하는 대상
- 현재 상황 $s_t$에서 어떤 액션을 할지 $a_t$를 결정 -> 결정된 행동 $a_t$를 env.로 보냄 -> env.로부터 그에 따른 보상과 다음 state의 정보를 받음
  - state : 현재 상태에 대한 모든 정보를 숫자로 기록 (eg. 현재 자전거의 위치, 기울어진 정도 등 숫자로 엮은 하나의 벡터)
environment
- 상태 변화를 일으키는 역할을 담당, 행동의 결과를 알려줌
- 에이전트로부터 받은 $a_t$를 통해서 상태 변화를 일으킴 -> $s_t$ => $s_{t+1}$ -> 에이전트에게 줄 보상 $r_{t+1}$ 계산 -> $s_{t+1}$, $r_{t+1}$을 에이전트에 전달
순차적 의사결정 문제에서는 시간의 흐름을 discrete로 생각 (time step)

This post is licensed under CC BY 4.0 by the author.