RL-Stock 框架上的问题

机器之心上看到该 proj ，过来扫了一眼。类似的工作，我两年前做过。指出一个比较严重的问题。

每个 episode 应该是随机取一个时间段跨度。为了便于对比 reward ，这个跨度的时间长度可以是相同的。现在这种划分 train-set 和 validation-set 的思考角度是错误的。想象一下，你的 simulate trade (game env) 没有随机性，RL Model 在多次迭代后，记住的是状态路径，不具备好的泛化能力。

另：推荐使用 tushare ，数据更加全面一些。

Mar 30 '20 07:03 gftgpu

btw: 最近的各类金融市场，是一百年来都未曾遇到的状况。任何基于历史经验的模型，都是失效的。

Mar 30 '20 07:03 gftgpu

@gftgpu 多谢指导！一时兴起写的 Toy Code，是有这些问题！最近情况太复杂，所以只截取的 2019 年底的数据

Mar 30 '20 08:03 wangshub

最近情况复杂，建议加个抛压指数

Jun 23 '20 03:06 forrestneo