FlagEmbedding reranker的fine-tune教程没有写全

如题，感觉只写了一半，麻烦作者解答下，感谢。

Oct 19 '23 08:10 tomFoxxxx

微调和加载应该都有说明，如果有什么没写清楚的地方欢迎指出，我们会进一步补充更新。

Oct 19 '23 09:10 staoxiao

微调和加载应该都有说明，如果有什么没写清楚的地方欢迎指出，我们会进一步补充更新。

hard mining：FlagEmbedding.baai_general_embedding.finetune.hn_mine training：FlagEmbedding.baai_general_embedding.finetune.run

前者（hard mining）的参数 --model_name_or_path 不是很清楚应该如何选择，譬如我要训练bge-reranker-base，该参数应该填什么呢？譬如填写bge-large-zh-v1.5吗

另外想请问下，为何要分开成两个步骤进行，完全可以进行in batch的hard mining呀

Oct 19 '23 12:10 tomFoxxxx

另外咨询一下再进行标注数据finetune的时候使用了难负例，难负例的候选池是什么呢（比如是整个标注数据集，或者是1e的那个unlabel数据集），这个比较影响效果

Oct 20 '23 11:10 stanpcf

微调和加载应该都有说明，如果有什么没写清楚的地方欢迎指出，我们会进一步补充更新。

hard mining：FlagEmbedding.baai_general_embedding.finetune.hn_mine training：FlagEmbedding.baai_general_embedding.finetune.run

前者（hard mining）的参数 --model_name_or_path 不是很清楚应该如何选择，譬如我要训练bge-reranker-base，该参数应该填什么呢？譬如填写bge-large-zh-v1.5吗

另外想请问下，为何要分开成两个步骤进行，完全可以进行in batch的hard mining呀

挖掘难负样例使用的是向量模型bge-large-zh-v1.5。由于in batch 中样本有限，难以找到足够难的负样本，hn_mine会从所有的文本中去寻找难负样本。同时本身in-batch的所有样本都会被使用，也不需要从中进一步筛选样本再使用。

Oct 20 '23 16:10 staoxiao

另外咨询一下再进行标注数据finetune的时候使用了难负例，难负例的候选池是什么呢（比如是整个标注数据集，或者是1e的那个unlabel数据集），这个比较影响效果

每个数据集从自己的文本候选集后寻找负样本

Oct 20 '23 16:10 staoxiao

微调和加载应该都有说明，如果有什么没写清楚的地方欢迎指出，我们会进一步补充更新。

hard mining：FlagEmbedding.baai_general_embedding.finetune.hn_mine training：FlagEmbedding.baai_general_embedding.finetune.run 前者（hard mining）的参数 --model_name_or_path 不是很清楚应该如何选择，譬如我要训练bge-reranker-base，该参数应该填什么呢？譬如填写bge-large-zh-v1.5吗另外想请问下，为何要分开成两个步骤进行，完全可以进行in batch的hard mining呀

挖掘难负样例使用的是向量模型bge-large-zh-v1.5。由于in batch 中样本有限，难以找到足够难的负样本，hn_mine会从所有的文本中去寻找难负样本。同时本身in-batch的所有样本都会被使用，也不需要从中进一步筛选样本再使用。

谢谢帮助！

Mar 15 '24 09:03 tomFoxxxx