Shitao Xiao comments

Results 509 comments of


                                            Shitao Xiao

bge-large-zh微调大致需要多少数据量？

没有讲究。neg的数量最好大于train_group_size参数，这样避免因为neg太少导致对同一个neg重复采样

关于C-mteb评测数据

mteb有一份自己的数据：https://huggingface.co/datasets/mteb/amazon_reviews_multi

关于C-mteb评测数据

展示的是ndcg@10，如果测的是bge模型的话，需要加上指令，参考脚本：https://github.com/FlagOpen/FlagEmbedding/tree/master/C_MTEB#evaluate-embedding-model

关于微调reranker的一些疑问

谢谢～ 1. 微调时修改model_name_or_path即可 2. 没有试过，但huggingface上有的模型应该都能支持 3. 如果想做分类，可以使用分类损失训练reranker，目前使用的是infocse损失做排序学习。

> 感谢回复~ 关于第三点分类问题可以麻烦具体说明一下有哪些要改的吗？还没有太理解要怎么做。比如数据集的格式和组成需要修改吗？改loss是修改[reranker modeling代码](https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/reranker/modeling.py)里面的哪部分呢？还望大佬不吝赐教 @staoxiao 可以参考sentence transformers的训练方式：https://github.com/UKPLab/sentence-transformers/blob/master/examples/training/cross-encoder/training_nli.py

关于微调reranker的一些疑问

> @staoxiao 你好，我没理解你对第一点的回答，我看了你们bge-reranker的介绍，你们基于xlm-roberta-base进行了预训练才得到了bge-reranker，具体如下【This reranker is initialized from [xlm-roberta-base](https://huggingface.co/xlm-roberta-base), and we train it on a mixture of multilingual datasets: > > Chinese: 788,491 text pairs from [T2ranking](https://huggingface.co/datasets/THUIR/T2Ranking), [MMmarco](https://github.com/unicamp-dl/mMARCO), [dulreader](https://github.com/baidu/DuReader), [Cmedqa-v2](https://github.com/zhangsheng93/cMedQA2),...

Shitao Xiao

bge-large-zh微调大致需要多少数据量？

关于C-mteb评测数据

关于C-mteb评测数据

General purpose finetune

关于微调reranker的一些疑问

关于微调reranker的一些疑问

关于微调reranker的一些疑问

bge-continual training 如何选择一个好的checkpoint进行fine-tuning？

微调数据集构建

bge-continual training 如何选择一个好的checkpoint进行fine-tuning？