AugustLHHHHHH

Results 7 comments of AugustLHHHHHH

上周不太了解这个榜单的测试,现在已经用微调后的模型测这个数据集了,谢谢🙏 获取 Outlook for iOS ________________________________ 发件人: yuxin.wang ***@***.***> 发送时间: Monday, February 26, 2024 3:07:05 PM 收件人: wangyuxinwhy/uniem ***@***.***> 抄送: Hui Hui36 Liu ***@***.***>; Author ***@***.***> 主题: [External] Re: [wangyuxinwhy/uniem]...

您好,感谢您的回复。我对于对比学习的batch内采样还不太熟悉,所以麻烦再请教下: criteria.py里的PairInBatchNegSoftmaxContrastLoss对应的负样本采样是69-76行的步骤吗

> ### 🐛 bug 说明 > 作者好, 我尝试使用你的train_m3e.py的配置在v100 32g使用了8卡复现了m3e-small. 使用了batch_size=32,epoch=1,ndcg和map都没有达到你开源的m3e-small的效果,ndcg差了6个点。 > > 看到你在hugging face上面写到: “M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训练,为了保证 in-batch 负采样的效果,我们使用 A100 80G 来最大化 batch-size,并在共计 2200W+ 的句对数据集上训练了 1 epoch。训练脚本使用 [uniem](https://github.com/wangyuxinwhy/uniem/blob/main/scripts/train_m3e.py),您可以在这里查看具体细节。” >...

> bge 可以通过 sentence_transformers 加载,所以可以通过 uniem 进行微调。 您好,请问支持BGE的话是不是需要修改下面代码:

好嘞,感谢您的回复; 我后来又看了下代码里可以设置类型,便尝试设置为 sentence-transformers; 已经可以成功finetune,谢谢~ ________________________________ 发件人: yuxin.wang ***@***.***> 发送时间: 2023年12月4日 16:29 收件人: wangyuxinwhy/uniem ***@***.***> 抄送: Hui Hui36 Liu ***@***.***>; Comment ***@***.***> 主题: [External] Re: [wangyuxinwhy/uniem] 是否支持bge了呢 (Issue #93) 应该不需要修改代码,你指定模型类型为 sentence-transformers...

> @AugustLHHHHHH , we mined hard negatives from the entire corpus of msmarco. Thanks!

> 您好,该数据来自DuReader的论文的实验章节,他使用了covid数据做检索。 好的感谢回复,通过您的提示,发现原来这个数据集是来自于一个疫情政务问答比赛