glunce issues

Results 2 issues of


                                            glunce

非常有意思的项目，感谢开源。我看代码提供了pt和sf,可能重点在sf。这里想讨论一下数字分身用sf微调是想从聊天里面学到什么东西？私人知识？回答风格？还是其他的？目前这种微调方式模型只是学习一些回答范式，用RLHF会不会更好一些，sf的收敛目标太过于遵守qa了，qa又来源与不同人的聊天记录