zhaobinNF
zhaobinNF
> embedding只训练了q到p的损失,没有计算p到q到损失,可能不太具备双向检索的能力,因此建议q和p训练任务与下游任务保持一致。或者修改loss,改为像clip那样的双向loss。 但是我训练时构造训练数据集也是{query:passage, pos:[q1,q2,q3], neg:[q5, q6,...,qm]},理论上这样计算的应该是计算p到q到损失啊
那可以使用不同的prompt去区分不同的任务吗,比如问题召回答案使用一种instruction,大纲召回原文使用一种instruction
> 各有优劣,无法直接判断哪个更好。 另外,提供另一种简单的方案:分别在两个数据集上微调出两个模型,然后融合两个模型得到新模型(也可以同时融合两个新模型和原模型),参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail , 可以通过手动调整模型融合比例去调整下游任务表现,不用重复训练。 模型合并之后可以用sentence_transformer直接加载吗
谢谢您的回复。然后是直接从原始文本中抽取QA\Q-passage这样的文本对是吗
谢谢您的回复
非常感谢您的回复。还有一个问题就是,扩充文本长度到8k的方案用的是什么啊
您好,多谢您的回复,还想再问一下stage1训练时train_group_size您是设置成多少的
{ "dataset_revision": null, "dev": { "evaluation_time": 1257.88, "map_at_1": 0.22166, "map_at_10": 0.32886, "map_at_100": 0.34724, "map_at_1000": 0.34865, "map_at_3": 0.2937, "map_at_5": 0.3128, "mrr_at_1": 0.34459, "mrr_at_10": 0.41874, "mrr_at_100": 0.42905, "mrr_at_1000": 0.42965, "mrr_at_3": 0.39602, "mrr_at_5":...
感谢您的回复,还有一个问题问您。就是我们在训练reranker的时候,是不是要通过增大train_group_size来增多模型看到的负样本呢