AugustLHHHHHH comments

Results 7 comments of


                                            AugustLHHHHHH

请问微调之后的模型如何支持C_MTEB数据集上的评测呢

上周不太了解这个榜单的测试，现在已经用微调后的模型测这个数据集了，谢谢🙏 获取 Outlook for iOS ________________________________ 发件人: yuxin.wang ***@***.***> 发送时间: Monday, February 26, 2024 3:07:05 PM 收件人: wangyuxinwhy/uniem ***@***.***> 抄送: Hui Hui36 Liu ***@***.***>; Author ***@***.***> 主题: [External] Re: [wangyuxinwhy/uniem]...

负采样

您好，感谢您的回复。我对于对比学习的batch内采样还不太熟悉，所以麻烦再请教下： criteria.py里的PairInBatchNegSoftmaxContrastLoss对应的负样本采样是69-76行的步骤吗

复现不到模型效果

> ### 🐛 bug 说明 > 作者好，我尝试使用你的train_m3e.py的配置在v100 32g使用了8卡复现了m3e-small. 使用了batch_size=32，epoch=1，ndcg和map都没有达到你开源的m3e-small的效果，ndcg差了6个点。 > > 看到你在hugging face上面写到： “M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训练，为了保证 in-batch 负采样的效果，我们使用 A100 80G 来最大化 batch-size，并在共计 2200W+ 的句对数据集上训练了 1 epoch。训练脚本使用 [uniem](https://github.com/wangyuxinwhy/uniem/blob/main/scripts/train_m3e.py)，您可以在这里查看具体细节。” >...

是否支持bge了呢

> bge 可以通过 sentence_transformers 加载，所以可以通过 uniem 进行微调。您好，请问支持BGE的话是不是需要修改下面代码：

是否支持bge了呢

好嘞，感谢您的回复；我后来又看了下代码里可以设置类型，便尝试设置为 sentence-transformers；已经可以成功finetune，谢谢~ ________________________________ 发件人: yuxin.wang ***@***.***> 发送时间: 2023年12月4日 16:29 收件人: wangyuxinwhy/uniem ***@***.***> 抄送: Hui Hui36 Liu ***@***.***>; Comment ***@***.***> 主题: [External] Re: [wangyuxinwhy/uniem] 是否支持bge了呢 (Issue #93) 应该不需要修改代码，你指定模型类型为 sentence-transformers...

负样本挖掘时的选择范围

> @AugustLHHHHHH , we mined hard negatives from the entire corpus of msmarco. Thanks!

C-MTEB中CovidRetrieval数据原论文

> 您好，该数据来自DuReader的论文的实验章节，他使用了covid数据做检索。好的感谢回复，通过您的提示，发现原来这个数据集是来自于一个疫情政务问答比赛