WeClone
WeClone copied to clipboard
微调究竟学习了什么【讨论】
非常有意思的项目,感谢开源。我看代码提供了pt和sf,可能重点在sf。这里想讨论一下数字分身用sf微调是想从聊天里面学到什么东西?私人知识?回答风格?还是其他的?目前这种微调方式模型只是学习一些回答范式,用RLHF会不会更好一些,sf的收敛目标太过于遵守qa了,qa又来源与不同人的聊天记录
目前是希望学习到语气、性格,现在效果其实还可以,后面可以考虑再加一步RLHF。不同人这个未来会做身份标签加到提示词里,看看效果怎么样
目前是希望学习到语气、性格,现在效果其实还可以,后面可以考虑再加一步RLHF。不同人这个未来会做身份标签加到提示词里,看看效果怎么样
看了大佬这个项目,很棒,我这边有个需求和这个类似,辅助我写文稿,我想问一下这种需要学什么知识点?我应该从什么入门?
还有个问题,我看readme.md里面提到了需要16G显存,这个是训练时使用还是平时使用也得16G