zhaobinNF comments

Results 9 comments of


                                            zhaobinNF

bge训练切换左右塔

> embedding只训练了q到p的损失，没有计算p到q到损失，可能不太具备双向检索的能力，因此建议q和p训练任务与下游任务保持一致。或者修改loss，改为像clip那样的双向loss。但是我训练时构造训练数据集也是{query:passage, pos:[q1,q2,q3], neg:[q5, q6,...,qm]},理论上这样计算的应该是计算p到q到损失啊

不同类型数据集训练bge

那可以使用不同的prompt去区分不同的任务吗，比如问题召回答案使用一种instruction,大纲召回原文使用一种instruction

> 各有优劣，无法直接判断哪个更好。另外，提供另一种简单的方案：分别在两个数据集上微调出两个模型，然后融合两个模型得到新模型(也可以同时融合两个新模型和原模型），参考：https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail , 可以通过手动调整模型融合比例去调整下游任务表现，不用重复训练。模型合并之后可以用sentence_transformer直接加载吗

原始数据量疑问

谢谢您的回复。然后是直接从原始文本中抽取QA\Q-passage这样的文本对是吗

关于使用MTP数据训练收敛快的问题

谢谢您的回复

bge-m3的基座模型

非常感谢您的回复。还有一个问题就是，扩充文本长度到8k的方案用的是什么啊

关于batch_size的计算方式

您好，多谢您的回复，还想再问一下stage1训练时train_group_size您是设置成多少的

关于C-mteb评测数据

{ "dataset_revision": null, "dev": { "evaluation_time": 1257.88, "map_at_1": 0.22166, "map_at_10": 0.32886, "map_at_100": 0.34724, "map_at_1000": 0.34865, "map_at_3": 0.2937, "map_at_5": 0.3128, "mrr_at_1": 0.34459, "mrr_at_10": 0.41874, "mrr_at_100": 0.42905, "mrr_at_1000": 0.42965, "mrr_at_3": 0.39602, "mrr_at_5":...

reranker训练时的in batch negative

感谢您的回复，还有一个问题问您。就是我们在训练reranker的时候，是不是要通过增大train_group_size来增多模型看到的负样本呢