WeClone 微调究竟学习了什么【讨论】

非常有意思的项目，感谢开源。我看代码提供了pt和sf,可能重点在sf。这里想讨论一下数字分身用sf微调是想从聊天里面学到什么东西？私人知识？回答风格？还是其他的？目前这种微调方式模型只是学习一些回答范式，用RLHF会不会更好一些，sf的收敛目标太过于遵守qa了，qa又来源与不同人的聊天记录

May 21 '25 06:05 glunce

目前是希望学习到语气、性格，现在效果其实还可以，后面可以考虑再加一步RLHF。不同人这个未来会做身份标签加到提示词里，看看效果怎么样

May 21 '25 06:05 xming521

目前是希望学习到语气、性格，现在效果其实还可以，后面可以考虑再加一步RLHF。不同人这个未来会做身份标签加到提示词里，看看效果怎么样

看了大佬这个项目，很棒，我这边有个需求和这个类似，辅助我写文稿，我想问一下这种需要学什么知识点？我应该从什么入门？

还有个问题，我看readme.md里面提到了需要16G显存，这个是训练时使用还是平时使用也得16G

May 22 '25 08:05 QC2168