xtuner icon indicating copy to clipboard operation
xtuner copied to clipboard

About RLHF need

Open xiaohangguo opened this issue 1 year ago • 3 comments

需要实现几种对齐算法 1.PPO 这个没的说,比较传统和通用,但是训练的开销会大一点 2. RAFT LMFLOW社区有做 https://optimalscale.github.io/LMFlow/examples/raft.html 3.pangu-coder2 RRTF (Rank Responses to align Test&Teacher Feedback) 总结一下是说,他们是用了代码单元测试,然后把单元测试的结果作为标签合并Loss微调LLM https://arxiv.org/abs/2307.14936 image image RRTF华为他们这部分没有开源。RAFT是开源了,RRTF可以的话可以一起讨论一起实现一下。

xiaohangguo avatar Sep 04 '23 03:09 xiaohangguo

@xiaohangguo 收到!我们正在设计 RLHF 部分的实现方案,等有初版设计方案后,可以在讨论区详细讨论

pppppM avatar Sep 04 '23 05:09 pppppM

请问RLHF进展怎么样了?

junewgl avatar Sep 22 '23 09:09 junewgl

请问RLHF进展怎么样了?

https://github.com/InternLM/xtuner/discussions/257#discussion-5925816 目前在论文阅读,社区组队,准备一起开发

xiaohangguo avatar Dec 14 '23 06:12 xiaohangguo