albert_zh icon indicating copy to clipboard operation
albert_zh copied to clipboard

albert_tiny 是从头开始训练的吗?

Open wugh opened this issue 5 years ago • 4 comments

你好请问一下tinybert的训练方式是不是直接从最原始的开始训练呢?还是从大模型distill到小模型呢?

wugh avatar Oct 30 '19 02:10 wugh

同问,求大佬解答

jkszw2014 avatar Dec 11 '19 14:12 jkszw2014

直接训练的呢

brightmart avatar Dec 11 '19 15:12 brightmart

@brightmart 能方便透露一些训练的细节吗?比如使用什么硬件来训练的(CPU,GPU还是TPU?)用了大概多少块硬件?训练了大概多长时间?tiny,small和base。。。等不同size模型的训练时间? 谢谢

gitathrun avatar Jan 29 '20 10:01 gitathrun

你好。基本性的tiny用 TPU v3-8(128G的显存),只需要训练2天,small训练4天左右。 不过我放出tiny, small,base,的没记错的话,都有在v3-128( 累计4096G显存)上训练过的。base只需要1天即可。

brightmart avatar Jan 29 '20 14:01 brightmart