RL-Stock
RL-Stock copied to clipboard
框架上的问题
机器之心上看到该 proj ,过来扫了一眼。类似的工作,我两年前做过。指出一个比较严重的问题。
每个 episode 应该是随机取一个时间段跨度。为了便于对比 reward ,这个跨度的时间长度可以是相同的。现在这种划分 train-set 和 validation-set 的思考角度是错误的。想象一下,你的 simulate trade (game env) 没有随机性,RL Model 在多次迭代后,记住的是状态路径,不具备好的泛化能力。
另:推荐使用 tushare , 数据更加全面一些。
btw: 最近的各类金融市场,是一百年来都未曾遇到的状况。任何基于历史经验的模型,都是失效的。
@gftgpu 多谢指导!一时兴起写的 Toy Code,是有这些问题! 最近情况太复杂,所以只截取的 2019 年底的数据
最近情况复杂,建议加个抛压指数