Yiyuan Yang comments

Results 15 comments of


Yiyuan Yang

/chapter5/chapter5_questions&keywords

> 总结的超级好，谢谢博主！谢谢～

/chapter8/chapter8_questions&keywords

> 感谢UP。另外中英混杂有点过，看着有点难受谢谢你的建议，可以先看我们的[pdf版本](https://github.com/datawhalechina/easy-rl/releases/tag/v.1.0.3)～上面没有出现中英文混杂的问题，对于电子版和repo中的文字，我们后续会更新。谢谢～

/chapter8/chapter8_questions&keywords

> 感谢UP。另外中英混杂有点过，看着有点难受你好，中英文混杂的问题已经解决，再次感谢您的建议！

/chapter4/chapter4_questions&keywords

谢谢你的留言，应该是没有写错的，具体的公式推导可见教程 “第四章策略梯度”。

/chapter4/chapter4_questions&keywords

> 是的是的，这里的REINFORCE表示一种基于策略梯度并使用回合更新的强化学习的经典算法，应该区别于Reinforce，谢谢你的建议，已经改正～

/chapter1/chapter1_questions&keywords

谢谢你的肯定，也希望可以提供更加宝贵的建议，让我们的教程进一步更新，为更多的小伙伴提供帮助。

/chapter1/chapter1_questions&keywords

> 结合了很多课程的内容，真的太用心了，大大的赞！Interview 那里太好玩了哈哈哈谢谢你的肯定！希望继续支持我们的项目啦！多提宝贵的意见。

/chapter1/chapter1_questions&keywords

> 写的太好啦谢谢~，最新版的可以看我们的pdf版本，后面会慢慢对于repo中的md文件进行更新。

/chapter1/chapter1_questions&keywords

> 这里确实不太严谨。“当前的动作会影响环境的状态”和“服从马尔可夫性的问题”，本身都是正确的，但是两者确实无关（关系似有似无😂），或者说不能这样表述。前者表达的意思是智能体的动作执行会影响环境状态，后者表达的意思是未来的概率分布只与当前的状态，不知道你是否同意。谢谢你的建议～

/chapter2/chapter2_questions&keywords

> 谢谢博主~写的超级细！不过interview的最后一个问题 ''第n步的值函数更新公式'' 是怎么得到的呀？谢谢你的认可～，interview的最后一个问题的更新公式是基于Q-learning的，具体推到可以见[第三章的正文内容](https://datawhalechina.github.io/easy-rl/#/chapter3/chapter3)，具体位置在“Model-free Control”小节，希望对你有所帮助！