m3tl 为什么baseline.md里multitask的performance基本上都要比single task更差

为什么baseline.md里multitask的performance基本上都要比single task更差

Open OYE93 opened this issue 5 years ago • 4 comments

如题，谢谢

Sep 26 '19 06:09 OYE93

这篇论文也是得到了类似结果，你感兴趣可以看看

我知道在微软的MTDNN文章中其多任务效果好过单任务，但是我觉得那需要cherry-pick各个任务。

Oct 09 '19 04:10 JayYip

你好，我大概看了一下这篇文章，也是说multi-task比single training效果更好，我觉得可能是multi-task的不同机制，或者数据集也会影响效果，谢谢你的回复

Oct 09 '19 07:10 OYE93

你好，我大概看了一下这篇文章，也是说multi-task比single training效果更好，我觉得可能是multi-task的不同机制，或者数据集也会影响效果，谢谢你的回复

你的理解可能有误，微软的MT-DNN和这个repo的做法事实上就是上面那篇文章的uniform scaling, 你看文章的Figure 2和Table 1, uniform scaling是比single task的效果要差的。

Oct 09 '19 09:10 JayYip

好的，那应该是我对mt-dnn也没有理解，这篇文章是说uniform scaling没有single training效果好。我再看看，非常感谢

Oct 10 '19 02:10 OYE93