Shitao Xiao
Shitao Xiao
bge-reranker-base是cross-encoder模型,不能这样使用,请使用FlagReranker。 另外, mteb目前应当是不支持cross-encoder的评估,评估方式是错误的。
数据格式问题,确认文件格式正确。 如果文件格式没问题,可以更换不同版本的datasets库试试。
可以参考https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/BGE_M3#generate-embedding-for-text mutli-vector的使用方式
> > 可以参考https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/BGE_M3#generate-embedding-for-text mutli-vector的使用方式 > > 谢谢回复,对照代码和colbert论文,大体明白了,不过还是有些要请教的 > > 1. colbert的query/doc encode稍有差异(分别添加了特殊token: [Q] 和 [D]),bge-m3这里是统一了吗,是实验发现不需要分别处理吗 > 2. colbert在doc中过滤了标点符号对应token,bge-m3似乎没有,是出于什么考虑呢 @SunLemuria bge-m3没有添加特殊token。我们这块没有做实验,但个人觉得没啥必要。 想要让整个过程尽可能简单些,没有做标点过滤。
I'm so sorry, currently, the only way to download is through the BAAI data hub. We will discuss with organizers about uploading the data to other platforms.
微调和加载应该都有说明,如果有什么没写清楚的地方欢迎指出,我们会进一步补充更新。
> > 微调和加载应该都有说明,如果有什么没写清楚的地方欢迎指出,我们会进一步补充更新。 > > hard mining:FlagEmbedding.baai_general_embedding.finetune.hn_mine training:FlagEmbedding.baai_general_embedding.finetune.run > > 前者(hard mining)的参数 --model_name_or_path 不是很清楚应该如何选择,譬如我要训练bge-reranker-base,该参数应该填什么呢?譬如填写bge-large-zh-v1.5吗 > > 另外想请问下,为何要分开成两个步骤进行,完全可以进行in batch的hard mining呀 挖掘难负样例使用的是向量模型bge-large-zh-v1.5。 由于in batch 中样本有限,难以找到足够难的负样本,hn_mine会从所有的文本中去寻找难负样本。同时本身in-batch的所有样本都会被使用,也不需要从中进一步筛选样本再使用。
> 另外咨询一下再进行标注数据finetune的时候使用了难负例,难负例的候选池是什么呢(比如是整个标注数据集,或者是1e的那个unlabel数据集),这个比较影响效果 每个数据集从自己的文本候选集后寻找负样本
You can pass the fine-tuned model to `--model_name_or_path `
> This method is not a method to continue learning from the model's interrupted LR and train dataset, but a method to additionally learn from an initialized state, right? Yes....