Ming Xu (徐明)

Results 508 comments of Ming Xu (徐明)

登录时出错: ` File "/Users/xxx/Library/Python/3.6/lib/python/site-packages/itchat/components/login.py", line 212, in show_mobile_login self.loginInfo['url'], self.loginInfo['pass_ticket']) KeyError: 'pass_ticket' `

我本地测试后,输入: ”各省自治区直辖市人民政府,国院各部委各直属机构,“,输出:”各省自治区直辖市人民政府,国院各部委各直属机构,“ 需要更改标点,未复现case。 如果情况需要,可自行改get_errors逻辑,适配自己训练的模型,理论上T5是能支持多字少字的错误修正的,当前get_errors逻辑局限于同长度文本修正,后续release出新的变长文本纠错模型,再做修改。

1、规则方法:可以强制对疑似错误处加、减字处理,然后基于语言模型PPL判定是否处理的正确;疑似错误处可以通过BIO的序列标记模型定位; 2、纯模型方法:最新的paper都是基于seq2seq方法做的端到端处理,里面会加各种trick,但还没有特别出彩的落地效果,同时缺失中文多字、少字基准纠错测试集。

使用的标准T5的loss,参考`from transformers import T5ForConditionalGeneration`,T5ForConditionalGeneration里面的损失。

https://github.com/shibing624/pycorrector/blob/master/pycorrector/macbert/softmaskedbert4csc.py#L35 detection是有sigmoid的。