SEtrain
SEtrain copied to clipboard
大佬你好,有关带混响数据合成方法想请教
max_index = np.argmax(np.abs(rir)) rir = rir[max_index:] rir_e = rir[:min(int(100 * 16000 / 1000), len(rir))] # rir_e: early rir, 选取前100ms的rir,用来生成低混响的干净语音
rev_clean = add_pyreverb(clean, rir) # reverbrant clean speech drb_clean = add_pyreverb(clean, rir_e) # clean speech with low reverbration
这段代码中选用峰值后100ms之前的早期混响作为训练目标可以理解,可是为什么训练输入的带混响数据要在峰值后截断,这样的训练输入应该主要包含了后期混响,正常的输入不应该是混响的全过程吗?
我的理解是,峰值代表的是直达声到达的时刻,峰值之前的部分代表静音段或者底噪,对去混响无贡献,可以舍弃。 另外你有一个地方理解有误,训练输入包含了全混响(早期混响是峰值后的100ms部分,后面是后期混响)。