reinforcement-learning-kr-v2 icon indicating copy to clipboard operation
reinforcement-learning-kr-v2 copied to clipboard

[수정문의] 1-grid-world/4-q-learning Agent의 Epsilon 값

Open rrbb014 opened this issue 4 years ago • 0 comments

안녕하세요. 예제를 실행하던 중, Q-table 에서는 장애물로 가는 액션들이 -50 까지도 가는 상황이고 max(Q(s', a')) 를 할텐데도 에이전트가 자꾸 장애물로 가서 보았더니 E-greedy parameter가 0.9로 설정되어 대부분 랜덤액션을 하는 것으로 추정했습니다.

서적 상에는 0.1 로 표기가 되어있고 SARSA에서도 0.1로 설정되어있는데 epsilon 파라미터의 오류가 아닐까 하여 이슈제기 드립니다.

rrbb014 avatar Oct 27 '20 08:10 rrbb014