RL-Stock icon indicating copy to clipboard operation
RL-Stock copied to clipboard

📈 如何用深度强化学习自动炒股

Results 35 RL-Stock issues
Sort by recently updated
recently updated
newest added

将工程移植到baselines3,并调试运行成功,用sh.600036当日一个月前的所有数据训练,用最近一个月的数据测试,并尝试修改其回报修正策略,测试的结果是收益随价格运动而运动,收益曲线与价格曲线波动一致,不知问题在哪里?

Bumps [pygments](https://github.com/pygments/pygments) from 2.6.1 to 2.7.4. Release notes Sourced from pygments's releases. 2.7.4 Updated lexers: Apache configurations: Improve handling of malformed tags (#1656) CSS: Add support for variables (#1633, #1666)...

dependencies

之前main函数里面的代码在哪里,怎么找不到了

https://github.com/wangshub/RL-Stock/blob/22d2cbf88f627750562c27462817f9bb9f492cee/rlenv/StockTradingEnv0.py#L28 " self.reward_range = (0, MAX_ACCOUNT_BALANCE) " is wrong, as https://github.com/wangshub/RL-Stock/blob/22d2cbf88f627750562c27462817f9bb9f492cee/rlenv/StockTradingEnv0.py#L113 "reward = 1 if reward > 0 else -100" which means reward could be -100 with is below 0.

StockTradingEnv0.py中,48行和52行取的是同一个值

机器之心上看到该 proj ,过来扫了一眼。类似的工作,我两年前做过。指出一个比较严重的问题。 每个 episode 应该是随机取一个时间段跨度。为了便于对比 reward ,这个跨度的时间长度可以是相同的。现在这种划分 train-set 和 validation-set 的思考角度是错误的。想象一下,你的 simulate trade (game env) 没有随机性,RL Model 在多次迭代后,记住的是状态路径,不具备好的泛化能力。 另:推荐使用 tushare , 数据更加全面一些。

看似结果不错,但是换到跌的时间段,结果会很糟糕 ![image](https://user-images.githubusercontent.com/14151451/78223687-e243e300-74f9-11ea-9f1f-6bb74c354c7e.png)

已经设置了seed=1234,这个太奇怪了