PaddleNLP
PaddleNLP copied to clipboard
[Question]: 排序模型训练数据
请提出你的问题
请问我想训练排序模型的数据(基于ERNIE-Gram训练Pair-wise模型),数据格式如下所示
个人所得税税务筹划 基于新个税视角下的个人所得税纳税筹划分析新个税;个人所得税;纳税筹划 个人所得税工资薪金税务筹划研究个人所得税,工资薪金,税务筹划
请问如何理解这个训练的格式,一共有三段文字,是不是意思是第一段和二,三端关联度为1?然后如何才能添加负样本,这个只是正样本的训练数据。
Hi, @JaylonXiwei , 感谢您的反馈, pairwise的训练的数据的格式:query\t positive_title \t negatitle
这个数据集是把用户点击的title当成正样本,把未点击的当成负样本训练得来的,不排除有很多噪声数据。
谢谢解答。请问我自己标注的数据,如果同一个query,有2个positive,1个negative,或者0个,这种情况应该怎么放在训练数据里呢?
对于 negative样本可以构造一些简单的负样本,对于同一个query,有2个positive,1个negative,可以分拆成两条数据,共用同一个负样本。
This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。
This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。