reinforcement-learning-kr-v2
reinforcement-learning-kr-v2 copied to clipboard
gridworld/q-learning_ex(146p)에서 epsilon이 잘못 설정 되어 있습니다.
gridworld/q-learning_ex(146p) 코드를 보면 epsilon이 0.9로 설정되어있고, numpy.random.rand()가 epsilon보다 작을 때, 무작위 행동을 반환합니다.
즉, '큐함수에 의한 행동반환' : '무작위 행동반환'이 1:9로 이루어져서 너무 많은 탐색을 시도합니다. 앞의 예제들은 epsilon이 0.1로 되어있네요. 해당 부분을 수정해서 풀리퀘드립니다.
책으로 공부 잘 하고 있습니다. 감사합니다^_^