xtuner
xtuner copied to clipboard
About RLHF need
需要实现几种对齐算法
1.PPO
这个没的说,比较传统和通用,但是训练的开销会大一点
2. RAFT
LMFLOW社区有做
https://optimalscale.github.io/LMFlow/examples/raft.html
3.pangu-coder2
RRTF (Rank Responses to align Test&Teacher Feedback)
总结一下是说,他们是用了代码单元测试,然后把单元测试的结果作为标签合并Loss微调LLM
https://arxiv.org/abs/2307.14936
RRTF华为他们这部分没有开源。RAFT是开源了,RRTF可以的话可以一起讨论一起实现一下。
@xiaohangguo 收到!我们正在设计 RLHF 部分的实现方案,等有初版设计方案后,可以在讨论区详细讨论
请问RLHF进展怎么样了?
请问RLHF进展怎么样了?
https://github.com/InternLM/xtuner/discussions/257#discussion-5925816 目前在论文阅读,社区组队,准备一起开发