CH8. 가치 기반 에이전트

Posted May 16, 2022

By Yonsoo Kim

1 min read

[바닥부터 배우는 강화학습] CH8. 가치 기반 에이전트을 읽고 정리한 내용입니다.

전제

모델 프리
상태 공간과 액션 공간이 매우 큼

RL 에이전트의 분류

가치 기반 agent : value-based
정책 기반 agent : policy-based
actor-critic : 가치 함수와 정책 함수 모두 사용
- actor: policy, critic : v(s) or q(s,a)

8.1 밸류 네트워크의 학습

정책 pi가 고정되어 있을 때, 뉴럴넷을 이용하여 pi의 가치함수 \(v_\pi (s)\) 를 학습 => value network

loss function
- \[L(\theta) = \mathbb{E}_\pi [(v_{true}(s) - v_\theta (s))^2]\]
  - 정책 함수 pi를 이용해 방문했던 상태 s에 대해 \((v_{true}(s) - v_\theta (s))^2\) 를 계산
- \[\delta_\theta L(\theta) = - \mathbb{E}_\pi [(v_{true}(s) - v_\theta (s))\delta_\theta v_\theta (s)]\]
update : \(\theta ' = \theta - \alpha \delta_\theta L(\theta)\)

8.2 Deep Q-Learning

q(s,a)를 내재된 정책(implicit policy)로 사용함
pseudo code보면 Q러닝이 off-policy임을 확인할 수 있음

Experience Replay and Target Network

DQN에 위 2가지 방법론을 도입함.
Experience Replay
- 겪었던 경험을 재사용하면 더 좋지 않을까라는 아이디어에서 출발
- replay buffer : 가장 최근의 데이터 n개를 저장해 놓자는 아이디어
  - 데이터 효율성을 올림
- off-policy 알고리즘에만 사용할 수 있는 개념임
Target Network
- Q러닝에서는 정답이 \(\theta\)에 의존적임.

RL

RL

This post is licensed under CC BY 4.0 by the author.