DeepComplexCRN
DeepComplexCRN copied to clipboard
关于训练数据和测试数据的长度
您好,感谢您优秀的工作! 在复现您的论文时,我们使用DNS数据集生成的30s语音进行训练和测试,但是最后的结果不是很理想,想请问一下论文中训练数据和测试数据的长度和格式是怎样的?谢谢!
训练数据随机取4或6s的片段加噪都可以(没啥区别),测试数据原封不动。格式就是直接读原始的wav,数据的格式没有影响。
谢谢您的回答, 还想请问一下您在测试的时候是直接一长段语音(如30s)作为输入, 还是将长段语音分隔为一小段一小段的语音进行输入再拼接呢?
我们希望能达到实时去噪的效果, 因此在测试时将长语音切成小段语音进行测试, 最后拼接得到的长语音会出现明显的声音卡顿, 请问您知道这是什么原因吗?
切成一小段4s一段,举个例子:第一段0-4s,第二段3-7s,你把中间重叠的部分(3-4s)加起来除以2.这样你两段就得到7s的语音,连接处的1s平均一下就好。DNS的测试集比较短,建议直接测指标。
非常感谢! 那么如果是4s一段的话, 处理完就在4s之后了, 达不到实时的效果, 请问怎样能达到实时的效果呢?
我尝试在训练时每次放入15s音频进行训练,在测试时将音频分为37.5ms一帧进行处理(stft补零时在左侧补前一帧的数据、在右侧补0,istft后左右两侧都删掉对应长度的音频),然后将处理后的音频进行拼接,但是出来的效果并不太好。。。
你好, 我看到大部分CRN类型网络的输入都是4s的, 要满足实时的话 (比如每次输入37.5ms), 是不是说明只有最后37.5ms的数据是最新的, 然后前面的数据都是之前帧的呢? 表示如下方表示 |------------------.....----------------|-------------| |<--------------3962.5ms--------->|<-37.5ms->| |<---------------之前帧----------->|<-当前帧->| 然后每次将4s的数据进行STFT输入模型处理 如果可以看到并解答的话就非常感谢啦 @MaNatsu8023
我们希望能达到实时去噪的效果, 因此在测试时将长语音切成小段语音进行测试, 最后拼接得到的长语音会出现明显的声音卡顿, 请问您知道这是什么原因吗?
您好,请问您实时降噪的效果实现了吗?