zsd

Results 8 comments of zsd

这种属于离线强化学习的范畴,首先你要用已有数据模拟一个环境出来,然后再用parl框架。

我认为,这两个可以兼顾,并不矛盾。 就是在现有代码的基础上,出一个新手教程,教大家如何一行调用,这样可以扩大受众面,这种类似语法糖的东西还是越多越好,不然我现在看到主流的很多案例全是stable_baselines3,至少在推广层面需要这个东西。 应用层面,其实多数时候业界更多关注的是快速落地,也有这种诉求。

我参加过parl的培训班,得了优秀学员奖,但是最近看到两个框架底层都不是parl,一个是FinRL,一个是离线强化学习的revive,他们这俩都是用的stable_baselines3,觉得parl还是要在怎么更让初学者上手易用和推广范围上下下功夫

need to change ` fields, target = fields.to(device).long(), target.to(device).long()`

执行 python knowledge_based_chatglm.py的时候

所以在实际应用中要搞多个模型进行pk

强化学习是这样的,每次不一样,建议保存效果最好的模型,然后学习率衰减之后再跑

最近情况复杂,建议加个抛压指数