fastHan icon indicating copy to clipboard operation
fastHan copied to clipboard

语句太长报错~

Open ScottishFold007 opened this issue 4 years ago • 5 comments

求教,语句太长(512个字以外)报错,怎么解决呢?

ScottishFold007 avatar Jun 18 '20 16:06 ScottishFold007

因为预训练的BERT对字符串最大长度做出限制,所以除非再自己训一个BERT,这个问题目前无法解决。对于用户来说,输入的字符串长度需要小于等于509 。实在过长的字符串,可以自己先通过“。?!……”等符号先分割一下再输入。

fdugzc avatar Jun 19 '20 02:06 fdugzc

因为预训练的BERT对字符串最大长度做出限制,所以除非再自己训一个BERT,这个问题目前无法解决。对于用户来说,输入的字符串长度需要小于等于509 。实在过长的字符串,可以自己先通过“。?!……”等符号先分割一下再输入。

有个Longformer( The Long-Document Transformer),不知道能不能缓解这个问题

ScottishFold007 avatar Jun 19 '20 02:06 ScottishFold007

我再研究一下,下次更新的时候会考虑这个问题的

fdugzc avatar Jun 19 '20 10:06 fdugzc

我再研究一下,下次更新的时候会考虑这个问题的

这个可以工程方式解决。先分句,每句分词后再合并输出。

xpqiu avatar Jun 19 '20 16:06 xpqiu

我担心篇章级文本的语境变了,分词会出问题

---原始邮件--- 发件人: "Xipeng Qiu"<[email protected]> 发送时间: 2020年6月20日(周六) 凌晨0:27 收件人: "fastnlp/fastHan"<[email protected]>; 抄送: "Author"<[email protected]>;"Scottish_Fold007"<[email protected]>; 主题: Re: [fastnlp/fastHan] 语句太长报错~ (#9)

我再研究一下,下次更新的时候会考虑这个问题的

这个可以工程方式解决。先分句,每句分词后再合并输出。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

ScottishFold007 avatar Jun 19 '20 16:06 ScottishFold007