cail2019_track2 icon indicating copy to clipboard operation
cail2019_track2 copied to clipboard

想请教一下关于更长文本的分类问题

Open lpl22-github opened this issue 4 years ago • 1 comments

你好,我的数据集文本长度相对法研杯数据长一些,是一整个裁判文书

训练后,效果不好,对不同的裁判文书预测出的概率几乎都是一样的,请问这该如何解决呢

数据大概是这样的: [{"labels": [‘label_1’,'label_2'], "sentence": "被告取得中国移动动感地带手机号码18300147000的使用权并激活。19时许,被告接到被害人骆兆平联系刘博的电话,就顺势以刘博的名义与骆兆平聊天并谎称其做泥头车生意,现泥头车被交警查扣,需借两万元钱解决问题。骆兆平不疑有诈,通过银行转账人民币1万元钱到被告指定的账户内。骆兆平转账后察觉有异,遂打电话给其姐姐求证,方知被骗,且后再也无法联系到被告骆兆平遂报警。公安机关将被告抓获。上述事实,被告在开庭审理过程中均无异议,并有经当庭质证的被告的供述与辩解;被害人骆兆平的陈述;被告平安银行账号收款1万元记录、被害人骆兆平工商银行转账1万元记录、被害人手机内与被告的短信记录、取款录像截图、被告与被害人手机通话记录、被告身份信息、被告违法犯罪经历查询情况、被告释放证明、到案经过等书证;勘验、检查、辨认笔录;取款监控录像等相关证据予以证明,足以认定。"}]

lpl22-github avatar Apr 10 '20 12:04 lpl22-github

你可以把裁判文书用句号切分成多句去预测,最后把几个句子的预测结果取并集就好了。本次比赛的数据其实也是这样,他就是一篇文书分成多句来做的

| | m13021933043 邮箱:[email protected] |

Signature is customized by Netease Mail Master

在2020年04月10日 20:28,lpl22-github 写道:

你好,我的数据集文本长度相对法研杯数据长一些,是一整个裁判文书

训练后,效果不好,对不同的裁判文书预测出的概率几乎都是一样的,请问这该如何解决呢

数据大概是这样的: [{"labels": [‘label_1’,'label_2'], "sentence": "被告取得中国移动动感地带手机号码18300147000的使用权并激活。19时许,被告接到被害人骆兆平联系刘博的电话,就顺势以刘博的名义与骆兆平聊天并谎称其做泥头车生意,现泥头车被交警查扣,需借两万元钱解决问题。骆兆平不疑有诈,通过银行转账人民币1万元钱到被告指定的账户内。骆兆平转账后察觉有异,遂打电话给其姐姐求证,方知被骗,且后再也无法联系到被告骆兆平遂报警。公安机关将被告抓获。上述事实,被告在开庭审理过程中均无异议,并有经当庭质证的被告的供述与辩解;被害人骆兆平的陈述;被告平安银行账号收款1万元记录、被害人骆兆平工商银行转账1万元记录、被害人手机内与被告的短信记录、取款录像截图、被告与被害人手机通话记录、被告身份信息、被告违法犯罪经历查询情况、被告释放证明、到案经过等书证;勘验、检查、辨认笔录;取款监控录像等相关证据予以证明,足以认定。"}]

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

HuiResearch avatar Apr 11 '20 01:04 HuiResearch