FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

问一个小白的问题,我就是想让一些句子与另一些句子向量更接近,还有一些句子向量更远,是组织成有query,pos和neg的训练数据,微调就可以吗?

Open czhcc opened this issue 1 year ago • 3 comments

问一个小白的问题,我就是想让一些句子与另一些句子向量更接近,还有一些句子向量更远,是组织成有query,pos和neg的训练数据,微调就可以吗?

训练数据中不用再加上pos_scores,neg_scores,prompt和type这些吧?

微调时执行的命令参考 https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune/embedder#2-bge-m3 吗?

czhcc avatar Nov 14 '24 09:11 czhcc

同问

xushan116 avatar Nov 15 '24 09:11 xushan116

你好,@czhcc。pos_scores 和 neg_scores 在开启 knowledge_distillation 进行知识蒸馏时才会用到。prompt 表示训练时在 query 侧添加的指令。type 则是在训练数据中有不同任务的训练数据时会用于区分不同的任务类型。

针对这里给出的问题,这些都是可选项,可以不加。如果只微调类似于 bge-large-zh-v1.5 的模型,微调命令参考 https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune/embedder#1-standard-model 就可以,如果想微调 bge-m3,则可以参考这里的命令:https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune/embedder#2-bge-m3

hanhainebula avatar Nov 16 '24 04:11 hanhainebula

你好,@czhcc。pos_scores 和 neg_scores 在开启 knowledge_distillation 进行知识蒸馏时才会用到。prompt 表示训练时在 query 侧添加的指令。type 则是在训练数据中有不同任务的训练数据时会用于区分不同的任务类型。

针对这里给出的问题,这些都是可选项,可以不加。如果只微调类似于 bge-large-zh-v1.5 的模型,微调命令参考 https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune/embedder#1-standard-model 就可以,如果想微调 bge-m3,则可以参考这里的命令:https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune/embedder#2-bge-m3

hi你好@hanhainebula,感谢你们的工作,我有个这样的问题:假如有一些文档和对应的分数,只想用分数来做KL,不用pos/neg,或者说不用对比学习,这种情况可以只通过调整数据实现吗,还是需要改code? 另外想问一下score在用的时候会归一化成分布吗,因为我是用其他方式打的分,具体来说是一个qa任务的f1分数。 谢谢!

noobimp avatar Jan 16 '25 10:01 noobimp