大佬你好，有关带混响数据合成方法想请教

Open 2217895330 opened this issue 9 months ago • 1 comments

max_index = np.argmax(np.abs(rir)) rir = rir[max_index:] rir_e = rir[:min(int(100 * 16000 / 1000), len(rir))] # rir_e: early rir, 选取前100ms的rir，用来生成低混响的干净语音

rev_clean = add_pyreverb(clean, rir) # reverbrant clean speech drb_clean = add_pyreverb(clean, rir_e) # clean speech with low reverbration

这段代码中选用峰值后100ms之前的早期混响作为训练目标可以理解，可是为什么训练输入的带混响数据要在峰值后截断，这样的训练输入应该主要包含了后期混响，正常的输入不应该是混响的全过程吗？

May 23 '25 09:05 2217895330

我的理解是，峰值代表的是直达声到达的时刻，峰值之前的部分代表静音段或者底噪，对去混响无贡献，可以舍弃。另外你有一个地方理解有误，训练输入包含了全混响（早期混响是峰值后的100ms部分，后面是后期混响）。

May 24 '25 04:05 Xiaobin-Rong