Dinghao Zhou comments

Results 152 comments of


                                            Dinghao Zhou

有考虑移植现在语音大模型的计划吗

可以去看下星辰的那个里边支持了些kimiaudio qwen audio之类的 https://github.com/xingchensong/TouchNet On Fri, Jun 6, 2025, 17:10 hero mddct ***@***.***> wrote: > 不考虑了目前意义不大没有出现绝对可以打的理解模型 > > On Fri, Jun 6, 2025, 16:47 hyysam ***@***.***> wrote:...

rename context to context_autoregressive to seperate CP naming for inference

any updates on this？

whisper模型微调后转为faster-whisper模型，流式解码的时候效果变差

可能你转错了, 对比下精度

RNNT解码垂域增强

最简单的思路是每帧只推blank 或者非blank 这样是最好context bias 和ctc 几乎一样了可以有回退弧参考下k2那边实现的热词增强on rnnt 也有其他的复杂的工程实现难度不小

貌似torch.autocast和deepspeed不能直接融合，运行实例会报错

deepspeed config 是什么

能不能给个demo如何使用fireredASR

如果熟悉wenet的话, 可以用recongnize.py 不熟悉的话参考这个有个简短的example https://github.com/wenet-e2e/wenet/pull/2680#issuecomment-2642046580 如果要微调的话走正常的wenet训练, 参考example/aishell 里面的训练脚本不带时间戳如果有兴趣可以参考whisper align 加个时间戳功能

能不能给个demo如何使用fireredASR

有两种方案 1 可以用lora调 2 减小层数可以直接load原模型, 把yml里的配置文件层数改低即可但是要改att head 这些就不太行了模型结构变了

能不能给个demo如何使用fireredASR

> > 有两种方案 > > > > 1 可以用lora调 > > > > 2 减小层数可以直接load原模型, 把yml里的配置文件层数改低即可 > > > > 但是要改att head 这些就不太行了模型结构变了 > > 请问lora微调的方式有相关demo嘛参考这里 https://github.com/wenet-e2e/wenet/pull/2606

能不能给个demo如何使用fireredASR

> 式可以 ctc 流 , decoder rescoring 按照wenet形式。但需要训练ctc部分

能不能给个demo如何使用fireredASR

attenrion map看对齐图 On Fri, Mar 7, 2025, 2:50 PM liuxinglong ***@***.***> wrote: > 不带时间戳如果有兴趣可以参考whisper align 加个时间戳功能 > > @Mddct 请问有机制能在不重新训练原模型的情况下加上时间戳功能吗?能给个大概思路吗？ > > — > Reply to this email directly,...