CH3. 벨만 방정식
[바닥부터 배우는 강화학습] CH3. 벨만 방정식
을 읽고 정리한 내용입니다.
주어진 정책의 상태적 value를 구하는 것은 생각보다 어려운 일이다. value를 계산하는 법을 한 줄로 “벨만 방정식”을 사용해서 구한다라고 얘기해도 큰 무리가 없을 정도로 중요한 수식이다.
벨만 방정식은 시점 t에서의 벨류와 시점 t+1에서의 벨류 사이의 관계를 다루며, 가치 함수와 정책 함수 사이의 관계도 다루고 있다.
벨만 기대 방정식
편의상 세 단계로 나눌 수 있다.
- 0단계
- 1단계
- 2단계
벨만 최적 방정식
최적 밸류와 최적 정책
- 최적의 정책 : $\pi_*$
- 최적의 밸류 : $ v_\ast (s) = v_{\pi_ \ast} (s,a) $ ($\pi_ \ast$ 를 따랐을 때의 밸류)
- 최적의 액션 밸류 : $ q_\ast (s,a) = q_{\pi_\ast} (s,a) $ ($\pi_\ast$ 를 따랐을 때의 액션 밸류)
벨만 최적 방정식
This post is licensed under CC BY 4.0 by the author.