ERNIE icon indicating copy to clipboard operation
ERNIE copied to clipboard

请教ernie3.0(ERNIE\applications\tasks\text_matching)文本相似度比较问题

Open lbz0920 opened this issue 3 years ago • 2 comments

1。比较文本文本相似度得分,使用哪个模型+数据集合适,有现成的模型+数据集可以用吗,求推荐 2。长文本相似度比较,有示例吗?是不是把长文本拆分<=512字再比较,之后再算法合并各段落相似度得分,得到总文本总相似度得分 3。目前ERNIE\applications\tasks\text_matching使用READMD推荐的ernie_3.0_base_ch预训练模型+lcqmc数据集训练,lcqmc数据集的train.tsv第3列是lable 0,1,不是neg_title,能用lcqmc数据集训练吗?若能用需要修改ERNIE\applications\tasks\text_matching哪些部分? 测试示例: run_trainer.py使用ernie_3.0_base_ch预训练模型+lcqmc数据集训练的模型:感觉相似度得分低(1,4句),相似度得分偏高(3句),不能用ernie预训练模型+lcqmc数据集训练? INFO: 07-05 15:48:39: run_infer.py:51 * 2380 ('男人和女人哪个更容易出轨?\t女人和男人哪个更容易出轨', '[0.10919833183288574, 0.8908016681671143]', '0.7816033363342285') INFO: 07-05 15:48:39: run_infer.py:51 * 2380 ('怎么更改苹果手机图标\t怎么样把苹果手机的图标更改', '[0.03157150745391846, 0.9684284925460815]', '0.9368569850921631') INFO: 07-05 15:48:40: run_infer.py:51 * 2380 ('带有“风雨”的词语有什么\t风雨适合农村的成语是什么', '[0.01712048053741455, 0.9828795194625854]', '0.9657590389251709') INFO: 07-05 15:48:40: run_infer.py:51 * 2380 ('音乐播放器怎么下载?\t怎么下载音乐播放器呢', '[0.06915783882141113, 0.9308421611785889]', '0.8616843223571777')

lbz0920 avatar Jul 05 '22 08:07 lbz0920

1、要得到两个文本的余弦相似度得分只能用pairwise的方式获取,获取方式见 https://github.com/PaddlePaddle/ERNIE/issues/829 的回答,pointwise的方式是按照分类模型进行模型训练和预测 2、模型本身暂时可以通过json的max_len设置里文本长度 3、如果使用pairwise的方式来训练lcqmc数据集训练,则必须自己构造负样本。使用pointwise的方式则可以不用构造

webYFDT avatar Jul 12 '22 09:07 webYFDT

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Feel free to reopen it. Thank you for your contributions.

stale[bot] avatar Sep 20 '22 18:09 stale[bot]