pycorrector issues

执行错误同#119

### Describe the Question 我的錯誤與#119相同， Exception: URL fetch failure on https://deepspeech.bj.bcebos.com/zh_lm/zh_giga.no_cna_cmn.prune01244.klm : None -- [Errno 104] Connection reset by peer ### Describe your attempts 參考文中的解法，但shift+cmd+.後並沒有顯示出.pycorrector 文件夾（如下圖），想請問如何解決呢？謝謝！ pycorrector.__version__ 0.4.6

winniechiou

question

Macbert train时pytorch_lightning报错：ModelCheckpoint(monitor='val_loss') not found in the returned metrics: ['train_loss_step'].

5

请问训练时报错这个错是什么问题呢，网上没有相关的解决方案：pytorch_lightning.utilities.exceptions.MisconfigurationException: ModelCheckpoint(monitor='val_loss') not found in the returned metrics: ['train_loss_step'].

Joyce-Ng

question

请问pycorror中t5模型在微调时是怎么训练的？

1

是用bert那样的训练任务，还是像传统的seq2seq模型根据encoder的输出，decoder从左往右预测的？

yuzhang112

question

请问用自己的数据训练T5模型时，在哪里看损失的下降情况呢？

1

请问用自己的数据训练T5模型时，在哪里看损失的下降情况呢？运行train.py后，并没有打印出损失变化值，只有最终值

Amber921463001

question

请问macbert训练的loss 检错和纠错的权重是不是写反了

1

readme 网络结构图检错权重w ，纠错权重1-w 代码中outputs = (det_loss, bert_outputs.loss, self.sigmoid(prob).squeeze(-1), bert_outputs.logits) train_step 中loss = self.w * outputs[1] + (1 - self.w) * outputs[0]

Helenailse1

bug

使用kenlm规则纠错的三个小建议

2

1.源码只支持对句子中第一次出现的混淆集或者专有名词进行改变，因为sentence.find() 只会返回句子中第一次出现的下标，希望可以修改为对出现的所有的的混淆集或者专有名词进行改变。 2.源码只支持长度相等字符的替换，将不对等字数替换后后面的替换会出现错位现象。原因为将长度不对等字符替换后句子已变为替换后的句子，此时之前detect到的候选错误下标已发生改变，后续若还按照之前的下标进行纠错，会发生错位现象。希望可以支持长度不相等字符的混淆集或者专有名词的替换。 3.目前对于混淆集的替换为简单的直接检索替换，希望可以支持模糊匹配替换。

wangdabee

enhancement

请问t5模型的训练损失函数是哪句代码？

4

您好，我想修改t5模型的损失函数，但是没有在t5_corrector.py文件中找到损失函数代码，方便告知损失函数的代码在哪里吗？

Amber921463001

question

macbert模型中，检测网络的预测输出与训练输出不一致

5

``` # 检错概率 prob = self.detection(bert_outputs.hidden_states[-1]) if text_labels is None: # 检错输出，纠错输出 outputs = (prob, bert_outputs.logits) else: det_loss_fct = FocalLoss(num_labels=None, activation_type='sigmoid') # pad部分不计算损失 active_loss = encoded_text['attention_mask'].view(-1, prob.shape[1]) == 1 active_probs...

tianyunzqs

bug

针对文本的输入出输出不对齐，即经过asr处理之后有不少重叠字、多字、少字，应该怎么处理。

9

针对文本的输入出输出不对齐，即经过asr处理之后有不少重叠字、多字、少字，应该怎么处理。

xiaohuzi1996

T5模型效果很好，但是get_errors这个函数有个小bug，麻烦修改一下哦

4

原文：【各省自治区直辖市人民政府，国院各部委各直属机构，】错误解读：这里【国务院】错写为【国院】在get_error()之前，修改正确！=> 【各省自治区直辖市人民政府,国务院各部委各直属机构。】并且不应该有这句corrected_text = decode_tokens[:len(text)] 因为可能要加字，长度有变。在get_error()之后，反而错了！ => 【各省自治区直辖市人民政府，国务院各部委各直属机，。】感觉主要错在 pass not chinese char，不应该pass，不应该把标点符号放回原位。标点符号和中文文字一样，T5模型都能处理好。

yc930401

bug

pycorrector
pycorrector copied to clipboard

Metadata

执行错误同#119

Macbert train时pytorch_lightning报错：ModelCheckpoint(monitor='val_loss') not found in the returned metrics: ['train_loss_step'].

请问pycorror中t5模型在微调时是怎么训练的？

请问用自己的数据训练T5模型时，在哪里看损失的下降情况呢？

请问macbert训练的loss 检错和纠错的权重是不是写反了

使用kenlm规则纠错的三个小建议

请问t5模型的训练损失函数是哪句代码？

macbert模型中，检测网络的预测输出与训练输出不一致

针对文本的输入出输出不对齐，即经过asr处理之后有不少重叠字、多字、少字，应该怎么处理。

T5模型效果很好，但是get_errors这个函数有个小bug，麻烦修改一下哦

← Metadata

Owner

Metadata

pycorrector pycorrector copied to clipboard

Metadata

← Metadata

Owner

Metadata

pycorrector
pycorrector copied to clipboard