FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

reranker的fine-tune教程没有写全

Open tomFoxxxx opened this issue 2 years ago • 6 comments

如题,感觉只写了一半,麻烦作者解答下,感谢。

tomFoxxxx avatar Oct 19 '23 08:10 tomFoxxxx

微调和加载应该都有说明,如果有什么没写清楚的地方欢迎指出,我们会进一步补充更新。

staoxiao avatar Oct 19 '23 09:10 staoxiao

微调和加载应该都有说明,如果有什么没写清楚的地方欢迎指出,我们会进一步补充更新。

hard mining:FlagEmbedding.baai_general_embedding.finetune.hn_mine training:FlagEmbedding.baai_general_embedding.finetune.run

前者(hard mining)的参数 --model_name_or_path 不是很清楚应该如何选择,譬如我要训练bge-reranker-base,该参数应该填什么呢?譬如填写bge-large-zh-v1.5吗

另外想请问下,为何要分开成两个步骤进行,完全可以进行in batch的hard mining呀

tomFoxxxx avatar Oct 19 '23 12:10 tomFoxxxx

另外咨询一下再进行标注数据finetune的时候使用了难负例,难负例的候选池是什么呢(比如是整个标注数据集,或者是1e的那个unlabel数据集),这个比较影响效果

stanpcf avatar Oct 20 '23 11:10 stanpcf

微调和加载应该都有说明,如果有什么没写清楚的地方欢迎指出,我们会进一步补充更新。

hard mining:FlagEmbedding.baai_general_embedding.finetune.hn_mine training:FlagEmbedding.baai_general_embedding.finetune.run

前者(hard mining)的参数 --model_name_or_path 不是很清楚应该如何选择,譬如我要训练bge-reranker-base,该参数应该填什么呢?譬如填写bge-large-zh-v1.5吗

另外想请问下,为何要分开成两个步骤进行,完全可以进行in batch的hard mining呀

挖掘难负样例使用的是向量模型bge-large-zh-v1.5。 由于in batch 中样本有限,难以找到足够难的负样本,hn_mine会从所有的文本中去寻找难负样本。同时本身in-batch的所有样本都会被使用,也不需要从中进一步筛选样本再使用。

staoxiao avatar Oct 20 '23 16:10 staoxiao

另外咨询一下再进行标注数据finetune的时候使用了难负例,难负例的候选池是什么呢(比如是整个标注数据集,或者是1e的那个unlabel数据集),这个比较影响效果

每个数据集从自己的文本候选集后寻找负样本

staoxiao avatar Oct 20 '23 16:10 staoxiao

微调和加载应该都有说明,如果有什么没写清楚的地方欢迎指出,我们会进一步补充更新。

hard mining:FlagEmbedding.baai_general_embedding.finetune.hn_mine training:FlagEmbedding.baai_general_embedding.finetune.run 前者(hard mining)的参数 --model_name_or_path 不是很清楚应该如何选择,譬如我要训练bge-reranker-base,该参数应该填什么呢?譬如填写bge-large-zh-v1.5吗 另外想请问下,为何要分开成两个步骤进行,完全可以进行in batch的hard mining呀

挖掘难负样例使用的是向量模型bge-large-zh-v1.5。 由于in batch 中样本有限,难以找到足够难的负样本,hn_mine会从所有的文本中去寻找难负样本。同时本身in-batch的所有样本都会被使用,也不需要从中进一步筛选样本再使用。

谢谢帮助!

tomFoxxxx avatar Mar 15 '24 09:03 tomFoxxxx