Rong Xiaobin
Rong Xiaobin
@fefenfeng 非常感谢您的指出,我再确认了一遍,这里我写的 ERB 的公式确实有误,正确的应该是 21.4 而不是 24.7,因为我是拿了之前其他人的 ERB 代码过来使用的,没有确认它的正确性。非常抱歉这里误导了你们,我将会改正这个错误,并且重新实验看其是否对实验结果有影响。
@fefenfeng 您好,经测试,系数改正为 21.4 对性能几乎没有影响
@fefenfeng 您好,很细致的推导,感谢您的分享,受教了!
可以尝试将采样率降为8k,但模型的结构参数要相应地调整。性能应该也会有下降。
> > 可以尝试将采样率降为8k,但模型的结构参数要相应地调整。性能应该也会有下降。 > > 请问这样修改后需要重新训练吗?还得自己训练吧? 是的,模型结构已经改变了,数据也变了,当然要重新训练
@FisherDom 您好,根据我的理解,频率响应是刻画系统响应函数的,而系统响应函数(传递函数)并不适用于非线性系统。可以这么理解,假设你求得了该模型的传递函数,那输出直接等于输入与传递函数的卷积,这就可以绕开非线性的DNN模型了,所以这是不可能的。对于这种强非线性的语音增强模型(算法),普遍使用的测试方法应该还是使用语音样本和噪声样本制作的测试集数据集来评估算法效果。 这是我个人的理解,如有不当之处,请指正。
数据合成的脚本没有什么特别的地方,如果想要达到比较好的泛化性的话,需要使用比较大的数据量,这个比较关键。另外 batch size 以及 每条样本的长度 对训练效果也有一定影响,我一般使用小batch(例如4、8)以及使用较长的音频片段(例如 8 s)来训练。希望对你有借鉴作用。
@hulucky1102 对所有人声数据都添加了混响
@lhbing-ai 我使用的设置是“语音+噪声”合成,但是一段语音中一般都会含有静默片段,所以你所说的纯噪声片段已经隐含在其中了
@SherryYu33 非常感谢您的建议,受教了!