sednn 增强后语音频谱图问题

你好，我用了thchs30中的一万条噪声数据训练出了一个模型。但是我看了测试集的增强结果，发现语谱图中某些固定的频率上的能量一直不变化，反应在图上就会有细条纹出现，而且语音听起来存在失真现象。下面三幅图分别是带噪声语音语谱图（主要是一些低频噪声），原始无噪声语音语谱图和增强后的语谱图。带噪无噪增强

和原始的语谱图比起来会多一些奇怪的频率能量。但是我用你们的训练好的matlab工具进行降噪以后就没有这样的现象。下图是我用你们团队提供的matlab工具进行增强的语谱图，降噪效果很好，并且失真现象也减少了很多。

请问是我训练数据太少的缘故吗，我该怎么去提升增强后的语音质量能。谢谢

Aug 29 '19 11:08 17551023349

你好！在做stft的时候是否使用过了hanning窗？

Best wishes,

Qiuqiang

From: 17551023349 [email protected] Sent: 29 August 2019 12:48 To: yongxuUSTC/sednn [email protected] Cc: Subscribed [email protected] Subject: [yongxuUSTC/sednn] 增强后语音频谱图问题 (#46)

你好，我用了thchs30中的一万条噪声数据训练出了一个模型。但是我看了测试集的增强结果，发现语谱图中某些固定的频率上的能量一直不变化，反应在图上就会有细条纹出现，而且语音听起来存在失真现象。下面三幅图分别是带噪声语音语谱图（主要是一些低频噪声），原始无噪声语音语谱图和增强后的语谱图。带噪 [image]https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F43028063%2F63937769-c7a61900-ca95-11e9-973b-3b5a04d6a606.png&data=02%7C01%7Cq.kong%40surrey.ac.uk%7Ceccf6601054147f7856e08d72c76d28d%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C637026761155813617&sdata=5U3VEUVPyuHDPD8TqDgfxgfi0rEfxs3gF2f8pa6PpqI%3D&reserved=0 无噪 [image]https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F43028063%2F63937796-db517f80-ca95-11e9-8247-4fcb90a20fb5.png&data=02%7C01%7Cq.kong%40surrey.ac.uk%7Ceccf6601054147f7856e08d72c76d28d%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C637026761155823609&sdata=kjlHs23CSRn2aqpXE4ZRlY7dO3qcIH85URiFlpCC%2FPQ%3D&reserved=0 增强 [image]https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F43028063%2F63937815-ea383200-ca95-11e9-8672-c9a59d4fcc64.png&data=02%7C01%7Cq.kong%40surrey.ac.uk%7Ceccf6601054147f7856e08d72c76d28d%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C637026761155823609&sdata=c1DmiDjugfcvPqjAbEFE7cLpNYMKw9LpHpX5%2BGGbNJ8%3D&reserved=0

和原始的语谱图比起来会多一些奇怪的频率能量。但是我用你们的训练好的matlab工具进行降噪以后就没有这样的现象。下图是我用你们团队提供的matlab工具进行增强的语谱图，降噪效果很好，并且失真现象也减少了很多。 [image]https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F43028063%2F63937839-f7552100-ca95-11e9-8d38-fcecac3c094e.png&data=02%7C01%7Cq.kong%40surrey.ac.uk%7Ceccf6601054147f7856e08d72c76d28d%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C637026761155823609&sdata=U8pJaVki6ukxmU16d2OJBR%2BibCJs5mvG5%2F9ecu8Qov4%3D&reserved=0

请问是我训练数据太少的缘故吗，我该怎么去提升增强后的语音质量能。谢谢

― You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHubhttps://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2FyongxuUSTC%2Fsednn%2Fissues%2F46%3Femail_source%3Dnotifications%26email_token%3DADFXTSNAINF2TTWEFDEOPO3QG6ZRDA5CNFSM4ISBJ2Q2YY3PNVWWK3TUL52HS4DFUVEXG43VMWVGG33NNVSW45C7NFSM4HIFU7GQ&data=02%7C01%7Cq.kong%40surrey.ac.uk%7Ceccf6601054147f7856e08d72c76d28d%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C637026761155833601&sdata=5essWZFStVccwSeW5JbHAeo9FGNuIixPfUJzzLMMYW8%3D&reserved=0, or mute the threadhttps://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fnotifications%2Funsubscribe-auth%2FADFXTSK5VUMO4HGQGX37UDTQG6ZRDANCNFSM4ISBJ2QQ&data=02%7C01%7Cq.kong%40surrey.ac.uk%7Ceccf6601054147f7856e08d72c76d28d%7C6b902693107440aa9e21d89446a2ebb5%7C0%7C0%7C637026761155833601&sdata=cB4jzZ2JK582w%2FXiHQ0vRKk97uKJbWSb4oYVs2tzwCI%3D&reserved=0.

Aug 30 '19 06:08 qiuqiangkong

Hi ,

看起来你增强的谱有点问题，你可以这样debug下： step1：增强下训练集的一个句子，看看是否是泛化的问题 step2：不要转成wav，先用matlab画一些增强的幅度谱是否有问题，我担心也有可能是你reconstruction出了问题 step3：如果不是reconstruction的问题，那就看你的训练集多大了？你也是用timit吗？

Best yong

On Thu, 29 Aug 2019 at 04:48, 17551023349 [email protected] wrote:

你好，我用了thchs30中的一万条噪声数据训练出了一个模型。但是我看了测试集的增强结果，发现语谱图中某些固定的频率上的能量一直不变化，反应在图上就会有细条纹出现，而且语音听起来存在失真现象。下面三幅图分别是带噪声语音语谱图（主要是一些低频噪声），原始无噪声语音语谱图和增强后的语谱图。带噪 [image: image] https://user-images.githubusercontent.com/43028063/63937769-c7a61900-ca95-11e9-973b-3b5a04d6a606.png 无噪 [image: image] https://user-images.githubusercontent.com/43028063/63937796-db517f80-ca95-11e9-8247-4fcb90a20fb5.png 增强 [image: image] https://user-images.githubusercontent.com/43028063/63937815-ea383200-ca95-11e9-8672-c9a59d4fcc64.png

和原始的语谱图比起来会多一些奇怪的频率能量。

但是我用你们的训练好的matlab工具进行降噪以后就没有这样的现象。下图是我用你们团队提供的matlab工具进行增强的语谱图，降噪效果很好，并且失真现象也减少了很多。 [image: image] https://user-images.githubusercontent.com/43028063/63937839-f7552100-ca95-11e9-8d38-fcecac3c094e.png

请问是我训练数据太少的缘故吗，我该怎么去提升增强后的语音质量能。谢谢

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/yongxuUSTC/sednn/issues/46?email_source=notifications&email_token=ABJGHUT3R6EIURCNJMQXUMDQG6ZRBA5CNFSM4ISBJ2Q2YY3PNVWWK3TUL52HS4DFUVEXG43VMWVGG33NNVSW45C7NFSM4HIFU7GQ, or mute the thread https://github.com/notifications/unsubscribe-auth/ABJGHUWWUMLFAHXIBBDFXWLQG6ZRBANCNFSM4ISBJ2QQ .

Aug 30 '19 06:08 yongxuUSTC