PaddleNLP icon indicating copy to clipboard operation
PaddleNLP copied to clipboard

[Question]: 排序模型训练数据

Open JaylonXiwei opened this issue 2 years ago • 3 comments

请提出你的问题

请问我想训练排序模型的数据(基于ERNIE-Gram训练Pair-wise模型),数据格式如下所示

个人所得税税务筹划 基于新个税视角下的个人所得税纳税筹划分析新个税;个人所得税;纳税筹划 个人所得税工资薪金税务筹划研究个人所得税,工资薪金,税务筹划

请问如何理解这个训练的格式,一共有三段文字,是不是意思是第一段和二,三端关联度为1?然后如何才能添加负样本,这个只是正样本的训练数据。

JaylonXiwei avatar Oct 28 '22 09:10 JaylonXiwei

Hi, @JaylonXiwei , 感谢您的反馈, pairwise的训练的数据的格式:query\t positive_title \t negatitle

这个数据集是把用户点击的title当成正样本,把未点击的当成负样本训练得来的,不排除有很多噪声数据。

w5688414 avatar Oct 28 '22 10:10 w5688414

谢谢解答。请问我自己标注的数据,如果同一个query,有2个positive,1个negative,或者0个,这种情况应该怎么放在训练数据里呢?

JaylonXiwei avatar Nov 02 '22 09:11 JaylonXiwei

对于 negative样本可以构造一些简单的负样本,对于同一个query,有2个positive,1个negative,可以分拆成两条数据,共用同一个负样本。

w5688414 avatar Nov 04 '22 03:11 w5688414

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。

github-actions[bot] avatar Jan 04 '23 00:01 github-actions[bot]

This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。

github-actions[bot] avatar Jan 18 '23 00:01 github-actions[bot]