pycorrector
pycorrector copied to clipboard
pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,Qwen2.5等模型应用在纠错场景,开箱即用。
### Describe the Question 我的錯誤與#119相同, Exception: URL fetch failure on https://deepspeech.bj.bcebos.com/zh_lm/zh_giga.no_cna_cmn.prune01244.klm : None -- [Errno 104] Connection reset by peer ### Describe your attempts 參考文中的解法,但shift+cmd+.後並沒有顯示出.pycorrector 文件夾(如下圖),想請問如何解決呢?謝謝! pycorrector.__version__ 0.4.6
请问训练时报错这个错是什么问题呢,网上没有相关的解决方案:pytorch_lightning.utilities.exceptions.MisconfigurationException: ModelCheckpoint(monitor='val_loss') not found in the returned metrics: ['train_loss_step'].
readme 网络结构图 检错权重w ,纠错权重1-w 代码中outputs = (det_loss, bert_outputs.loss, self.sigmoid(prob).squeeze(-1), bert_outputs.logits) train_step 中loss = self.w * outputs[1] + (1 - self.w) * outputs[0]
1.源码只支持对句子中第一次出现的混淆集或者专有名词进行改变,因为sentence.find() 只会返回句子中第一次出现的下标,希望可以修改为对出现的所有的的混淆集或者专有名词进行改变。 2.源码只支持长度相等字符的替换,将不对等字数替换后后面的替换会出现错位现象。原因为将长度不对等字符替换后句子已变为替换后的句子,此时之前detect到的候选错误下标已发生改变,后续若还按照之前的下标进行纠错,会发生错位现象。希望可以支持长度不相等字符的混淆集或者专有名词的替换。 3.目前对于混淆集的替换为简单的直接检索替换,希望可以支持模糊匹配替换。
``` # 检错概率 prob = self.detection(bert_outputs.hidden_states[-1]) if text_labels is None: # 检错输出,纠错输出 outputs = (prob, bert_outputs.logits) else: det_loss_fct = FocalLoss(num_labels=None, activation_type='sigmoid') # pad部分不计算损失 active_loss = encoded_text['attention_mask'].view(-1, prob.shape[1]) == 1 active_probs...
针对文本的输入出输出不对齐,即经过asr处理之后有不少重叠字、多字、少字,应该怎么处理。
原文:【各省自治区直辖市人民政府,国院各部委各直属机构,】 错误解读:这里【国务院】错写为【国院】 在get_error()之前,修改正确!=> 【各省自治区直辖市人民政府,国务院各部委各直属机构。】 并且不应该有这句corrected_text = decode_tokens[:len(text)] 因为可能要加字,长度有变。 在get_error()之后,反而错了! => 【各省自治区直辖市人民政府,国务院各部委各直属机,。】 感觉主要错在 pass not chinese char,不应该pass,不应该把标点符号放回原位。标点符号和中文文字一样,T5模型都能处理好。