About RLHF need

Open xiaohangguo opened this issue 2 years ago • 3 comments

需要实现几种对齐算法 1.PPO 这个没的说，比较传统和通用，但是训练的开销会大一点 2. RAFT LMFLOW社区有做 https://optimalscale.github.io/LMFlow/examples/raft.html 3.pangu-coder2 RRTF (Rank Responses to align Test&Teacher Feedback) 总结一下是说，他们是用了代码单元测试，然后把单元测试的结果作为标签合并Loss微调LLM https://arxiv.org/abs/2307.14936 RRTF华为他们这部分没有开源。RAFT是开源了，RRTF可以的话可以一起讨论一起实现一下。

Sep 04 '23 03:09 xiaohangguo

@xiaohangguo 收到！我们正在设计 RLHF 部分的实现方案，等有初版设计方案后，可以在讨论区详细讨论

Sep 04 '23 05:09 pppppM

请问RLHF进展怎么样了？

Sep 22 '23 09:09 junewgl

请问RLHF进展怎么样了？

https://github.com/InternLM/xtuner/discussions/257#discussion-5925816 目前在论文阅读，社区组队，准备一起开发

Dec 14 '23 06:12 xiaohangguo