Xuanwu Yun
Xuanwu Yun
好兄弟想在哪个板子上跑
确实是,好像找不到,目前看就是把另外两个残差删了而已
呃,我找到了,在repvgg.py的第80行左右
是不是最后一层没接sigmoid?
那不就结了,没有sigmoid他怎么输出0-1
这个你自己再确认一下吧
这个看起来像是量化的损失太大,有咩有试一下fp16模型?
我曾经也遇到了这些问题,尤其是:1、长时间静音后突然识别,开头的几个字基本识别不正确;2、会漏掉一些单词。然而我清晰知道这些问题的原因,最原来的zipformer是有pooling层的,我当时做过实验,把pooling去掉,这两个现象就会发生,但是加上pooling层后,这些现象就会消失。问题在于,我发现后面更新的zipformer,和原始的zipformer结构略微不同,特别是新的zipformer原生没有pooling层,我不知道你们的原因是不是这个。 English: I've also encountered these issues before, especially: 1) After a long silence, when recognition suddenly starts, the first few words are almost always incorrectly recognized; 2) Some words...
3q for your answer and rename my question
不对劲啊,这个gan的采样率是16000,nummel=80,我用对应的mel特征去推理为什么得不到原始音频