chaofan comments

Results 117 comments of


                                            chaofan

Am I fine-tuning gemma-2b or bge-reranker-v2-gemma?

> > This will fine-tune `google/gemma-2b`, if you want to fine-tune `bge-reranker-v2-gemma`, just set `model_name_or_path` to `bge-reranker-v2-gemma` > > Nice, I set `model_name_or_path` to `bge-reranker-v2-gemma`. > > How about how...

Am I fine-tuning gemma-2b or bge-reranker-v2-gemma?

> @545999961 Can bge-reranker-v2.5-gemma2-lightweight be fine-tuned in this way？ bge-reranker-v2.5-gemma2-lightweight cannot be fine-tuned in this way, we will release the fine-tune code in the future.

Am I fine-tuning gemma-2b or bge-reranker-v2-gemma?

> > > @545999961 Can bge-reranker-v2.5-gemma2-lightweight be fine-tuned in this way？ > > > > > > bge-reranker-v2.5-gemma2-lightweight cannot be fine-tuned in this way, we will release the fine-tune code...

rerank base 微调之后分数全部变成负数

> > 可以查询正样本是否排在负样本前面。训练使用交叉熵损失，优化的是正样本和负样本的分数差，不保证正样本分数>0， > > 如果重新训练后，正负样本得分趋于一致，会是什么原因呢。 ![image](https://private-user-images.githubusercontent.com/100870545/355028553-6a110a17-b838-4e59-8f8c-6766f6b9a57e.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MjMwODYxMTMsIm5iZiI6MTcyMzA4NTgxMywicGF0aCI6Ii8xMDA4NzA1NDUvMzU1MDI4NTUzLTZhMTEwYTE3LWI4MzgtNGU1OS04ZjhjLTY3NjZmNmI5YTU3ZS5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwODA4JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDgwOFQwMjU2NTNaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT1kNDY3ZGUwNGY5M2I3ZTlhYTM4Njc4N2Q1NWYzYzAzNmJkZWY3OWI3MDRlZTUzZTYxNjM5NTc5YmZlNGQ5ZGRmJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.Y9ldQRqTR533RAk8WArqvuAYW9erpoihQOBqd7xiFGU) 会不会是负样本太难而导致的呢？例如我的正负样本从产品文档中抽取，很多正负样本的区别是型号名称不一样，其他内容基本一致只是型号名称不一样的话负样本确实有点太难，可以考虑去除掉这些负样本

bge-reranker-v2.5-gemma2-lightweight输出结果归一化后都很高

分数的具体数值主要用于参考，重要的是该查询与其所有文档之间分数的相对高低

bge-reranker-v2.5-gemma2-lightweight输出结果归一化后都很高

> > 分数的具体数值主要用于参考，重要的是该查询与其所有文档之间分数的相对高低 > > 感谢回复，那表示不相关的相似度在99%以上也是合理的哈，我们是想卡阈值来过来召回结果，这样这个模型是不是不太适配这样的场景啊。阈值设定不太适合用于reranker。如果确实需要设置阈值，可以考虑取消归一化，直接使用原始分数进行设定；或者可以考虑使用其他靠后层的输出。不过相似度评估主要是基于分数的相对大小，分数本身参考意义不大。

Can I fine-tune e5-mistral-7b-instruct using this repo?

This is not suitable for fine-tuning `e5-mistral-7b-instruct`.

bge-reranker-v2-minicpm-layerwise微调结果出乎意料

1. 只使用embedding模型的结果怎样呢 2. 微调reranker可以换一份数据，用微调好的embedding模型获取新的negatives，参考https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune#hard-negatives 3. negatives数量确实会影响，但是一般来讲7或15个都是足够的 4. 从头训的话需要大量的数据，所以效果可能不会太好，得基于bge-reranker-v2-minicpm-layerwise进行微调，你这里batch size用的是多大呢，是128训了50 steps吗 5. 基于bge-reranker-v2-minicpm-layerwise进行from_finetuned_model模式的微调其它参数都保持一致就行，你这里可以换份negatives训练，同时也测一下top-5，top-10之类的结果

bge-reranker-v2-minicpm-layerwise微调结果出乎意料

> > 3. from_finetuned_model > > 想请问一下from_finetuned_model和from_raw_model有什么不同吗加载和训练最后的计算分数层的方式不同

Do you support learning to distill knowledge from larger reranker models to smaller reranker models?

We currently do not support distillation for reranker; however, you can label the data and modify the fine-tuning code to include a KL loss, thereby implementing this function.