yong xu @ seattle

Results 61 comments of yong xu @ seattle

pip install librosa On Tue, 3 Sep 2019 at 19:42, Reagan lee wrote: > Sednn/mixture2clean_dnn/preparedata.py > > def read_audio(path, target_fs=None): > (audio, fs) = soundfile.read(path) > if audio.ndim > 1:...

Hi, You should install from librosa source, it is another library. It is not our code. https://librosa.github.io/librosa/ You can install use "pip install librosa --user" Best regards, yong On Mon,...

Hi, 长度不一样,应该是有可能的,但不会差太多,顶多是结尾的地方少一些samples。评估STOI的时候,你只要 取一个最短的 x(:min_len), y(:min_len),应该就可以 徐勇 On Sun, 24 Feb 2019 at 02:48, qiuqiangkong wrote: > 长度不一样很有可能是切帧的时候丢弃了一些采样点。只需要在增强的语音补0使得与clean音频一样长度即可。 > > > Best wishes, > > > Qiuqiang > > ________________________________ >...

Thanks for your interest. 这个代码目前仅仅是个baseline,如果性能不如 baseline性能2.08+-0.24,请检查下1)“PESQ dose not support long path/folder name, so please shorten your path/folder name. ” ; 2)一些配置问题 这个代码里 没有加 NAT, Post-processing,有这些功能的模型(可测试任何语音): https://github.com/yongxuUSTC/DNN-Speech-enhancement-demo-tool Best regards yong On...

Hi Ajay, Have you tried on Linux? If you found that your test loss was quite large (over-fitting), I suggest you can try some simple experiments first, e.g., clean-to-clean, or...

Hi Ajay, I suggest "1000 sentences without any noise" which means "clean to clean mapping". You can firstly test this one. To see whether you can recover your wav for...

Hi , 看起来你增强的谱有点问题,你可以这样debug下: step1:增强下训练集的一个句子,看看是否是泛化的问题 step2:不要转成wav,先用matlab画一些增强的幅度谱是否有问题,我担心也有可能是你reconstruction出了问题 step3:如果不是reconstruction的问题,那就看你的训练集多大了?你也是用timit吗? Best yong On Thu, 29 Aug 2019 at 04:48, 17551023349 wrote: > > 你好,我用了thchs30中的一万条噪声数据训练出了一个模型。但是我看了测试集的增强结果,发现语谱图中某些固定的频率上的能量一直不变化,反应在图上就会有细条纹出现,而且语音听起来存在失真现象。下面三幅图分别是带噪声语音语谱图(主要是一些低频噪声),原始无噪声语音语谱图和增强后的语谱图。 > 带噪 > [image: image] > > 无噪 > [image:...

You can downsample your 44.1khz wav into 16khz waveform, and then you can use my trained model to enhance your noisy wav: Model and Matlab enhancement code: (run on windows...

Hi , 问题1: 是的 问题2:输入依然是前几帧噪声的平均(相当于一个general的噪声信息),输出是当前帧噪声的估计 On Tue, 5 Mar 2019 at 19:37, bailiangze wrote: > 您好,看了你的论文,非常厉害, > 问题1:想实现一下其中的噪声告知训练,选择语音前几帧作为平均之后作为输入,请问是是不是简单的concate在之前7帧能量的后面吗??例如语音7帧为7 > *256,噪声为1*256,是否是将它拼接成8*256,送进网络。 > > 问题2:拜读了你师弟高天博士的论文,他提到了双输出dnn增强网络,如果之前的输入是问题一所说的那样,双输出的话,请问输入依然是前几帧噪声的平均?目标参数是噪声7帧中的一帧吗? > > 总结下:关于这个多输入,和多输出,我想问的是,简单的在输入后面拼接矩阵,还是需要在网络上添加新的输入?谢谢了 > > — >...

确实是 直接拼接成7*270,送进网络 On Wed, 6 Mar 2019 at 00:29, bailiangze wrote: > 还有就是数据的维数不一样,怎么进行拼接,假如输入lps为7*256 我想拼接mfcc参数计算出来为7*13 ,是直接拼接成7*270,送进网络吗? > > — > You are receiving this because you are subscribed to this thread....