Wu Jiayang
Wu Jiayang
我无法使用lstm实现td算法 例如:随机输入递减数列,数列元素取值区间为[0, 20],数列长度区间为[2, 20],输出该数列的相反数 要求: - 使用LSTM - 使用公式Q(s_t) = Q(s_{t+1}) - 1,规定Q(0) = 0 我期望得到一个类似[-3, -2, -1, 0]的递增数列,但是大部分情况下我只能得到[-4.5486226 -4.5486226 -4.5486226 -4.5486226],我无法找到原因。 以下是我的主要代码: ```python def main(): steps = 5000 lr...
示例代码chapter6_application_demo.py为空。 The chapter6_application_demo.py is empty.
示例代码chapter7_application_demo.py为空。 The chapter7_application_demo.py is empty.
# Checklist: > [!IMPORTANT] > Please review the checklist below before submitting your pull request. - [x] Please open an issue before creating a PR or link to an existing...