chaofan
chaofan
> > This will fine-tune `google/gemma-2b`, if you want to fine-tune `bge-reranker-v2-gemma`, just set `model_name_or_path` to `bge-reranker-v2-gemma` > > Nice, I set `model_name_or_path` to `bge-reranker-v2-gemma`. > > How about how...
> @545999961 Can bge-reranker-v2.5-gemma2-lightweight be fine-tuned in this way? bge-reranker-v2.5-gemma2-lightweight cannot be fine-tuned in this way, we will release the fine-tune code in the future.
> > > @545999961 Can bge-reranker-v2.5-gemma2-lightweight be fine-tuned in this way? > > > > > > bge-reranker-v2.5-gemma2-lightweight cannot be fine-tuned in this way, we will release the fine-tune code...
> > 可以查询正样本是否排在负样本前面。训练使用交叉熵损失,优化的是正样本和负样本的分数差,不保证正样本分数>0, > > 如果重新训练后,正负样本得分趋于一致,会是什么原因呢。  会不会是负样本太难而导致的呢?例如我的正负样本从产品文档中抽取,很多正负样本的区别是型号名称不一样,其他内容基本一致 只是型号名称不一样的话负样本确实有点太难,可以考虑去除掉这些负样本
分数的具体数值主要用于参考,重要的是该查询与其所有文档之间分数的相对高低
> > 分数的具体数值主要用于参考,重要的是该查询与其所有文档之间分数的相对高低 > > 感谢回复,那表示不相关的相似度在99%以上也是合理的哈,我们是想卡阈值来过来召回结果,这样这个模型是不是不太适配这样的场景啊。 阈值设定不太适合用于reranker。如果确实需要设置阈值,可以考虑取消归一化,直接使用原始分数进行设定;或者可以考虑使用其他靠后层的输出。不过相似度评估主要是基于分数的相对大小,分数本身参考意义不大。
This is not suitable for fine-tuning `e5-mistral-7b-instruct`.
1. 只使用embedding模型的结果怎样呢 2. 微调reranker可以换一份数据,用微调好的embedding模型获取新的negatives,参考https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune#hard-negatives 3. negatives数量确实会影响, 但是一般来讲7或15个都是足够的 4. 从头训的话需要大量的数据,所以效果可能不会太好,得基于bge-reranker-v2-minicpm-layerwise进行微调,你这里batch size用的是多大呢,是128训了50 steps吗 5. 基于bge-reranker-v2-minicpm-layerwise进行from_finetuned_model模式的微调其它参数都保持一致就行,你这里可以换份negatives训练,同时也测一下top-5,top-10之类的结果
> > 3. from_finetuned_model > > 想请问一下from_finetuned_model和from_raw_model有什么不同吗 加载和训练最后的计算分数层的方式不同
Do you support learning to distill knowledge from larger reranker models to smaller reranker models?
We currently do not support distillation for reranker; however, you can label the data and modify the fine-tuning code to include a KL loss, thereby implementing this function.