Conv-TasNet icon indicating copy to clipboard operation
Conv-TasNet copied to clipboard

Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation Pytorch's Implement

Results 18 Conv-TasNet issues
Sort by recently updated
recently updated
newest added

What's the motivation of using a one-layer-encoder instead of a deeper one?

作者您好,非常感谢您提供的代码,这份代码我运行了,在测试的时候,分离效果几乎很小,反而还增加了噪声,现在就是有几个小问题,和这份代码无关的小问题,我是在自己的数据集上跑的,我把自己的数据集切成了3s的然后随机混合,train 16800条,val 4200条,是不是我在测试的时候就是运行Seperation.py得加一个专门的test集,这个test集可不可以直接用val呢?还是说得再重做呢?还有一个问题就是音频长度是否会影响实验结果呢?3s的会不会太短了?

请问该如何像论文中一样复现encoder与decoder的过程图呢?

I trained the model on two-speaker-mix clean datasets. It split well, but its output brings too many noise. Is this a common phenomenon? And the spilt on two-speaker-mix with noise...

学长好,我看这个论文里结果model_size连10m都不到,为什么宁的模型大小有30m呢?

你好,我使用你在readme中提供的预训练模型best.pt对一段混合语音进行测试,在保存音频文件时出现以下错误,请问该如何解决呢 ![QQ图片20211217220217](https://user-images.githubusercontent.com/58206033/146555857-e260610a-c326-4478-be82-e858913364da.jpg)

你好,我第一次用conv-tasnet,我用的是musdb数据集,采样用44100,用做分离语音vocals和背景音accompaniment音色,loss一直在10+下不去。请问你有做过用这样的尝试么,不知道我哪里出了问题。。。由于我gpu内存不够,chunk_size改成了44100,其他训练参数不变。

您好,感谢您的代码分享。 我这边代码可以正常运行,使用了WSJ0的数据,在配置方面只是把Batchsize改成了8,并且只用了一个gpu,其他相同 但是我的前三个epoch的loss和您代码中conv_tasnet_loss.png中相差甚远: epoch/train loss/eval loss: 0/没有train loss/27.94 1/-0.191/-0.231 2/-0.239/-0.232 我的资源不是很多,所以训练比较慢,但是感觉这样下去,将无法达到您图中所示的loss下降曲线 gpu和Batchsize的影响真的这么大吗?还是可能有其他一些元音。

您好,我在按照README文件中提供的单一音频测试命令测试音频数据时遇到了问题,README中的示例命令为: python Separation_wav.py -mix_wav 1.wav -yaml ./config/train/train.yml -model best.pt -gpuid [0,1,2,3,4,5,6,7] -save_path ./checkpoint 在执行前,我做了如下的修改: 1.修改了读取音频路径、预训练模型路径和保存路径 2.去掉了-gpuid这一参数,使用默认值 3.yaml文件路径改为./options/train/train.yml 随后,执行了修改后的命令,报错如下: ![image](https://user-images.githubusercontent.com/43701560/123200278-f8fd9d80-d4e2-11eb-95e4-665cb8d7acea.png) 希望您能指出报错原因,谢谢。 另外,Separation_wav.py文件中使用的参数为-mix_scp,但提供的示例命令中使用参数为-mix_wav,此处可能有误。