Conv-TasNet 复现结果loss不正确

您好，感谢您的代码分享。

我这边代码可以正常运行，使用了WSJ0的数据，在配置方面只是把Batchsize改成了8，并且只用了一个gpu，其他相同但是我的前三个epoch的loss和您代码中conv_tasnet_loss.png中相差甚远:

epoch/train loss/eval loss: 0/没有train loss/27.94 1/-0.191/-0.231 2/-0.239/-0.232

我的资源不是很多，所以训练比较慢，但是感觉这样下去，将无法达到您图中所示的loss下降曲线 gpu和Batchsize的影响真的这么大吗？还是可能有其他一些元音。

Jul 07 '21 07:07 madajie9

您好，非常抱歉这么晚回复你的消息

我不知道你的wsj0数据是那一个，因为wsj0有两个类型的数据一个是嘈杂语音的一个是干净语音（你可以听一下看是不是数据的问题）。

在我自己的实验当中发现batch是影响结果的一个因素，但是并不能够让结果很差。

因为这只是前几个loss，你是否可以多trian几个epoch看一看呢？

还有一种可能是conf文件的设置，你可以再对照论文中的超参数设置进行修改。

我可以给你找一下我的log文件。发给你。

Conv-Tasnet.log

祝好， Kai

Jul 07 '21 12:07 JusperLee

您好，非常抱歉这么晚回复你的消息

我不知道你的wsj0数据是那一个，因为wsj0有两个类型的数据一个是嘈杂语音的一个是干净语音（你可以听一下看是不是数据的问题）。

在我自己的实验当中发现batch是影响结果的一个因素，但是并不能够让结果很差。

因为这只是前几个loss，你是否可以多trian几个epoch看一看呢？

还有一种可能是conf文件的设置，你可以再对照论文中的超参数设置进行修改。

我可以给你找一下我的log文件。发给你。

Conv-Tasnet.log

祝好， Kai

感谢您的解答！

我的数据应该是干净的那种，然后从您给的log里我观察到一些端倪，以下是我的log贴出来对比：

Reading .yml file ....... Export CUDA_VISIBLE_DEVICES = 0 Building the model of Conv-TasNet Building the trainer of Conv-TasNet Create optimizer adam: {'lr': 0.001, 'weight_decay': 1e-05} Starting preparing model ............ Loading model to GPUs:(0,), #param: 3.48M Making the train and test data loader Validation model ...... <epoch: 0, iter:200, lr:1.000e-03, loss:27.938, batch:200 utterances> <epoch: 0, lr:1.000e-03, loss:27.940, Total time:1.757 min> Starting epoch from 0, loss = 27.9404 Training model ...... <epoch: 1, iter:200, lr:1.000e-03, loss:0.562, batch:200 utterances> <epoch: 1, lr:1.000e-03, loss:-0.191, Total time:25.022 min> Validation model ...... <epoch: 1, iter:200, lr:1.000e-03, loss:-0.259, batch:200 utterances> <epoch: 1, lr:1.000e-03, loss:-0.231, Total time:1.685 min> Epoch: 1, now best loss change: -0.2311 Training model ...... <epoch: 2, iter:200, lr:1.000e-03, loss:-0.241, batch:200 utterances> <epoch: 2, lr:1.000e-03, loss:-0.239, Total time:24.959 min> Validation model ...... <epoch: 2, iter:200, lr:1.000e-03, loss:-0.256, batch:200 utterances> <epoch: 2, lr:1.000e-03, loss:-0.232, Total time:1.679 min> Epoch: 2, now best loss change: -0.2318 Training model ...... <epoch: 3, iter:200, lr:1.000e-03, loss:-0.244, batch:200 utterances> <epoch: 3, lr:1.000e-03, loss:-0.240, Total time:24.993 min> Validation model ......

首先是我的模型大小和您的不一样，我的3M您的5M，我觉得我确实应该检查下超参数的设置。还有就是我的Log中batch:200 utterances这里的200不会变，但是您提供的log里这部分是不断上升的200->400->600...我觉得我还应该查看一下data这方面是否在训练过程中有正确导入。

感谢您的建议，我有新的进展会继续贴出来的。祝好。

Jul 08 '21 02:07 madajie9

你好，请问问题解决了嘛？我也出现batch:200 utterances这里的200不会变，iter也是一直在200，没有变化。

Jan 04 '22 03:01 yudashuixiao1

可以检查一下模型结构的超参数与论文中是否一致

Jan 04 '22 03:01 JusperLee

This issue is stale because it has been open for 14 days with no activity.

Mar 31 '23 06:03 github-actions[bot]

This issue was closed because it has been inactive for 7 days since being marked as stale.

Apr 08 '23 01:04 github-actions[bot]

Conv-TasNet Conv-TasNet copied to clipboard

复现结果loss不正确

Conv-TasNet
Conv-TasNet copied to clipboard