请问构造微调时，如果语料中一些query无对应的“正样本”可以怎样构建训练集

Open ZzyChris97 opened this issue 7 months ago • 1 comments

描述下我遇到的问题：在做检索的时候，我设置了一个阈值，但是在这个阈值下，有时候召回的文本不是特别相关，我想通过训练去降低这部分文本与query之间的相似度，但是库中又没有比较好的正例

请问，训练时是否可能把pos设置为空数组呢？或者，我是不是也可以用一些重写等方式，根据原始query造一些正例出来，然后构造训练集，这样能够达到我的目的吗？

May 09 '25 07:05 ZzyChris97

训练时pos是必须有的可以考虑用LLM为query造一些正例进行训练

May 22 '25 10:05 545999961