Rong Xiaobin comments

Results 68 comments of


                                            Rong Xiaobin

请问如何在训练时主动退出？

@gedebabin 训练时直接 ctrl+c 可以退出。我的经验是有时会出现僵尸进程，不知道你所说的进程泄露是指这个问题吗？如果出现僵尸进程的话直接 kill 掉就可以了。

实时性和因果性

@wanghao0225 GTCRN是一个因果模型，在12th Gen Intel(R) Core(TM) i5-12400 CPU @ 2.50 GHz测得的实时率为0.07，完全可以保证实时性要求。

> 基于VCTK数据集，我在复现的时候，PESQ的值不到2.8(只改了模型部分，语音处理成了4s)，请问vctk数据集，你在数据处理的时候，语音是如何处理的？ vctk数据集每条语音长度差别太大了，我在dataloader里用了collate_fn来对同一个batch内的语音长度填充。不过我认为这不会对性能造成太大影响。事实上我在训练时也遇到过PESQ特别糟糕的情况，我认为是vctk数据集的测试集和训练集分布差异太大的原因：测试集的信噪比太高了。一般这种情况，换个随机种子重新训一下就好。

实时性和因果性

> > 感谢支持！ > > 你好，首先非常感谢你的这项工作，在DNS盲测数据集确实有比较好的体验效果，但是我测了我们真机测试集，降噪效果是有限的，我怀疑是ERB这种频带压缩造成的信号建模不佳，一个是用你提供是checkpoint，另一个是用我自己的数据集，替换你的模型重新训练的，好像都比较有限。个人认为，在一些稍微好点的算力平台，增大模型参数和算力，能够带来更好的降噪效果！是的，模型压缩得太小时，性能会急剧下降。如果对运算量的限制可以放宽些的话，可以把模型调大些（直接调整Encoder/Decoder内各GTConv/Conv层的隐藏通道数即可），会得到更好的性能。

实时性和因果性

@songdaw 低SNR环境下，小模型确实存在比较大的性能劣化。目前我也正在研究如何进一步提高小模型的性能。另外，有测试过纯幅度mask的性能，其实和复数mask差别不大。

do you have TF-Grid net code?

Sorry for my late response. TFGridNet is open-source at https://github.com/espnet/espnet/blob/master/espnet2/enh/separator/tfgridnet_separator.py

Why the input tensor shape is (B,F,T,2)?

Sorry for the confusion caused by my uncertainty. The input tensor is a batch of noisy spectrograms, where B means the batch size, and F and T refer to frequency...

Parameters about DeepVQE-S

Well, I haven't reproduced the DeepVQE-S model. However, based on my replication of the original model, there is indeed a discrepancy between my results and the data provided in the...

超参数设置

我沿用了平时实验的设置，没有与 DeepVQE 原文的超参数设置对齐： 1. clip_grad_norm_value 设置为 3.0； 2. 使用 Adam 优化器，weight_decay 保持默认值 0。