gtcrn
gtcrn copied to clipboard
The official implementation of GTCRN, an ultra-lite speech enhancement model.
你好: 非常感谢你的开源模型。让我学到了许多。在学习过程中我发现,你给出的hz2erb函数是erb_f = 24.7*np.log10(0.00437*freq_hz + 1)定义的,但查阅相关资料发现erb_f=21.366*np.log10(0.00437*freq_hz + 1),期待你的回复!
在测试算法的频响的时候,单频和扫频信号会作为噪声被消除,这样的话无法测试出频响曲线和失真,请问老师对这个问题怎么解决? 祝您工作顺利!
你好,非常感谢你开源的模型,模型里面借鉴的东西也很多!在复现你的模型,除了训练数据制作方面有些差异外,其他都一样,但是出来的效果和你公开模型跑出来效果差异还挺大的,请问数据合成这块脚本可否提供借鉴,非常感谢!邮箱:[email protected]
我在X86平台和ARM平台上测试offline和online的RTF, 发现online版本会慢上27倍左右. 但是从CPU占用率上看, 两个版本的GTCRN的使用率都接近100%, 请问这运行速度上的差异可能是什么原因导致的?
亲爱的作者, 为了进一步缩小模型和降低计算量,我尝试了仅用 spec.abs() 和 spec.angle() 作为输入,最终的增强频谱直接通过 spec*mask 得到。其余网络架构均不作改变。然而我发现这样做会导致生成的音频会丢失中高频的细节。请问您有尝试过不同的输入特征吗? Thanks!
请问有这个盲测数据的下载链接吗?
1. SFE模块的unfold可以用如下模块代替,可以减少很多算子 ``` import torch import torch.nn as nn class Unfold(nn.Module): def __init__(self): super().__init__() kernel = torch.eye(3) kernel = kernel.view(3, 1, 1, 3) kernel = nn.Parameter(kernel.repeat(8, 1, 1, 1)) self.conv...
您好: 非常感谢您的开源模型。 我目前正在基于您的模型进行一些测试,注意到GTCRN的输出通过tanh激活并预测实部和虚部的mask,对预测出来的mask与输入特征的实部虚部做了复数乘法得到了预测特征。 而当我将虚部mask的值打印出来时,发现在大部分情况下,mask的值都是接近于0(大约在10^-3~10^-4或者更低),我使用了两个checkpoints对test_wavs/mix.wav进行测试,以及使用了一些本地数据进行测试,基本都是这个现象。 关于上述现象:1. GTCRN是否实际上已经退化成了幅度谱的mask。2. 如果确实发生了退化,这种退化的可能原因是什么,以及是否可以通过训练目标的选择,或者是模型的调整,将GTCRN的恢复到对CRM的估计? 期待您的回复,谢谢!
你好,首先非常感谢你的开源精神,想了解下你的数据制作是直接用微软dns里面的脚本的吗?比如有clean,noise数据集,你需要合成noisy数据,你这个合成是直接参考dns的脚本生成的还是自己加入一些特殊处理实现的脚本?因为对于网络训练而言,数据生成这块才是关键所在,数据直接决定了网络的性能,请指教,谢谢!