Rong Xiaobin
Rong Xiaobin
@gedebabin 训练时直接 ctrl+c 可以退出。我的经验是有时会出现僵尸进程,不知道你所说的进程泄露是指这个问题吗?如果出现僵尸进程的话直接 kill 掉就可以了。
@wanghao0225 GTCRN是一个因果模型,在12th Gen Intel(R) Core(TM) i5-12400 CPU @ 2.50 GHz测得的实时率为0.07,完全可以保证实时性要求。
感谢支持!
> 基于VCTK数据集,我在复现的时候,PESQ的值不到2.8(只改了模型部分,语音处理成了4s),请问vctk数据集,你在数据处理的时候,语音是如何处理的? vctk数据集每条语音长度差别太大了,我在dataloader里用了collate_fn来对同一个batch内的语音长度填充。不过我认为这不会对性能造成太大影响。事实上我在训练时也遇到过PESQ特别糟糕的情况,我认为是vctk数据集的测试集和训练集分布差异太大的原因:测试集的信噪比太高了。一般这种情况,换个随机种子重新训一下就好。
> > 感谢支持! > > 你好,首先非常感谢你的这项工作,在DNS盲测数据集确实有比较好的体验效果,但是我测了我们真机测试集,降噪效果是有限的,我怀疑是ERB这种频带压缩造成的信号建模不佳,一个是用你提供是checkpoint,另一个是用我自己的数据集,替换你的模型重新训练的,好像都比较有限。个人认为,在一些稍微好点的算力平台,增大模型参数和算力,能够带来更好的降噪效果! 是的,模型压缩得太小时,性能会急剧下降。如果对运算量的限制可以放宽些的话,可以把模型调大些(直接调整Encoder/Decoder内各GTConv/Conv层的隐藏通道数即可),会得到更好的性能。
@songdaw 低SNR环境下,小模型确实存在比较大的性能劣化。目前我也正在研究如何进一步提高小模型的性能。 另外,有测试过纯幅度mask的性能,其实和复数mask差别不大。
Sorry for my late response. TFGridNet is open-source at https://github.com/espnet/espnet/blob/master/espnet2/enh/separator/tfgridnet_separator.py
Sorry for the confusion caused by my uncertainty. The input tensor is a batch of noisy spectrograms, where B means the batch size, and F and T refer to frequency...
Well, I haven't reproduced the DeepVQE-S model. However, based on my replication of the original model, there is indeed a discrepancy between my results and the data provided in the...
我沿用了平时实验的设置,没有与 DeepVQE 原文的超参数设置对齐: 1. clip_grad_norm_value 设置为 3.0; 2. 使用 Adam 优化器,weight_decay 保持默认值 0。