maoyapeng
maoyapeng
> 您好: 非常感谢您的开源模型。 我目前正在基于您的模型进行一些测试,注意到GTCRN的输出通过tanh激活并预测实部和虚部的mask,对预测出来的mask与输入特征的实部虚部做了复数乘法得到了预测特征。 而当我将虚部mask的值打印出来时,发现在大部分情况下,mask的值都是接近于0(大约在10^-3~10^-4或者更低),我使用了两个checkpoints对test_wavs/mix.wav进行测试,以及使用了一些本地数据进行测试,基本都是这个现象。 关于上述现象:1. GTCRN是否实际上已经退化成了幅度谱的mask。2. 如果确实发生了退化,这种退化的可能原因是什么,以及是否可以通过训练目标的选择,或者是模型的调整,将GTCRN的恢复到对CRM的估计? 期待您的回复,谢谢! 严验证的真细致呀
特征按照这种方式,最后还是估计crm 嘛 发自我的iPhone ------------------ 原始邮件 ------------------ 发件人: xiaoboss-ju ***@***.***> 发送时间: 2025年5月23日 17:08 收件人: Xiaobin-Rong/gtcrn ***@***.***> 抄送: maoyapeng ***@***.***>, Comment ***@***.***> 主题: Re: [Xiaobin-Rong/gtcrn] GTCRN实际上还是对幅度谱做mask? (Issue #20)
加上-DMNN_USE_SSE=OFF
> > > 我在嵌入式平台上纯C写的推理,开了O3优化,5ms的推理速度。做完量化小于2ms。 > > > > > > 什么U? > > 国产平台,主频1.2GHz左右,跑起来的时候占用是低于5%的。 太强了,我做完量化后,采用的芯片npu推理,16ms音频大概需要3ms,跑起来大概20%。 但是在实时用的时候,有些女声声音,做完后会偶尔抑制,听感上有电音感。
> > > > > 我在嵌入式平台上纯C写的推理,开了O3优化,5ms的推理速度。做完量化小于2ms。 > > > > > > > > > > > > 什么U? > > > > > > > > > 国产平台,主频1.2GHz左右,跑起来的时候占用是低于5%的。 >...
> > > > > > > 我在嵌入式平台上纯C写的推理,开了O3优化,5ms的推理速度。做完量化小于2ms。 > > > > > > > > > > > > > > > > > > 什么U? > > >...
> > > > > > > > > 我在嵌入式平台上纯C写的推理,开了O3优化,5ms的推理速度。做完量化小于2ms。 > > > > > > > > > > > > > > > > > > > >...
> > 可以试试MNN的框架 > > 耗时改善不明显,基本也是在20ms左右,偶尔会快几ms,有波动;cpu上,你们一般用什么框架做推理? 现在做到实时了吗