Ming Xu (徐明)
Ming Xu (徐明)
登录时出错: ` File "/Users/xxx/Library/Python/3.6/lib/python/site-packages/itchat/components/login.py", line 212, in show_mobile_login self.loginInfo['url'], self.loginInfo['pass_ticket']) KeyError: 'pass_ticket' `
旧号可以使用。新号不行。
我本地测试后,输入: ”各省自治区直辖市人民政府,国院各部委各直属机构,“,输出:”各省自治区直辖市人民政府,国院各部委各直属机构,“ 需要更改标点,未复现case。 如果情况需要,可自行改get_errors逻辑,适配自己训练的模型,理论上T5是能支持多字少字的错误修正的,当前get_errors逻辑局限于同长度文本修正,后续release出新的变长文本纠错模型,再做修改。
1、规则方法:可以强制对疑似错误处加、减字处理,然后基于语言模型PPL判定是否处理的正确;疑似错误处可以通过BIO的序列标记模型定位; 2、纯模型方法:最新的paper都是基于seq2seq方法做的端到端处理,里面会加各种trick,但还没有特别出彩的落地效果,同时缺失中文多字、少字基准纠错测试集。
1、方法上面有写。 2、单这个case看,’你‘并不是多字错误。
用T5试下多字少字。
使用的标准T5的loss,参考`from transformers import T5ForConditionalGeneration`,T5ForConditionalGeneration里面的损失。
Transformers库。
T5
https://github.com/shibing624/pycorrector/blob/master/pycorrector/macbert/softmaskedbert4csc.py#L35 detection是有sigmoid的。