reinforcement-learning-kr p.198 수식 5.21 질문

p.198 수식 5.21 질문

Open driedpollack opened this issue 5 years ago • 0 comments

안녕하세요. 좋은 책으로 즐겁게 공부하고 있습니다. p.198에 수식 5.21에 보면 policy gradient theorem에 의해서 유도된 gradient J (theta)가 expectation의 형태로 나타나지는데, 이 부분에 대한 식이 잘 이해가 안되서 Sutton 교수님의 RL:an introduction 책을 살펴보니 이 책에는 Expectation 안에 Sigma가 있는데 (구체적으로 Sutton 교수님 책 p.326, equation 13.6입니다.) 혹시 오타인가요?

이는 p.198 중간 쯤에 sigma_s * d_pi(x) * sigma_a * pi(a | s)가 에이전트가 어떤 상태 s에서 행동 a를 선택할 확률이라는 부분에서 오류가 있는 것 같습니다.

혹시 제가 잘못 이해하고있다면, 보충 설명이나 자료 공유해주시면 감사하겠습니다.

Aug 11 '20 06:08 driedpollack

reinforcement-learning-kr reinforcement-learning-kr copied to clipboard

p.198 수식 5.21 질문

reinforcement-learning-kr
reinforcement-learning-kr copied to clipboard