Yiyuan Yang

Results 15 comments of Yiyuan Yang

> 总结的超级好,谢谢博主! 谢谢~

> 感谢UP。另外中英混杂有点过,看着有点难受 谢谢你的建议,可以先看我们的[pdf版本](https://github.com/datawhalechina/easy-rl/releases/tag/v.1.0.3)~上面没有出现中英文混杂的问题,对于电子版和repo中的文字,我们后续会更新。谢谢~

> 感谢UP。另外中英混杂有点过,看着有点难受 你好,中英文混杂的问题已经解决,再次感谢您的建议!

谢谢你的留言,应该是没有写错的,具体的公式推导可见教程 “第四章 策略梯度”。

> 是的是的,这里的REINFORCE表示一种基于策略梯度并使用回合更新的强化学习的经典算法,应该区别于Reinforce,谢谢你的建议,已经改正~

谢谢你的肯定,也希望可以提供更加宝贵的建议,让我们的教程进一步更新,为更多的小伙伴提供帮助。

> 结合了很多课程的内容,真的太用心了,大大的赞!Interview 那里太好玩了哈哈哈 谢谢你的肯定!希望继续支持我们的项目啦!多提宝贵的意见。

> 写的太好啦 谢谢~,最新版的可以看我们的pdf版本,后面会慢慢对于repo中的md文件进行更新。

> 这里确实不太严谨。“当前的动作会影响环境的状态”和“服从马尔可夫性的问题”,本身都是正确的,但是两者确实无关(关系似有似无😂),或者说不能这样表述。前者表达的意思是智能体的动作执行会影响环境状态,后者表达的意思是未来的概率分布只与当前的状态,不知道你是否同意。谢谢你的建议~

> 谢谢博主~写的超级细!不过interview的最后一个问题 ''第n步的值函数更新公式'' 是怎么得到的呀? 谢谢你的认可~,interview的最后一个问题的更新公式是基于Q-learning的,具体推到可以见[第三章的正文内容](https://datawhalechina.github.io/easy-rl/#/chapter3/chapter3),具体位置在“Model-free Control”小节,希望对你有所帮助!