albert_zh
albert_zh copied to clipboard
albert_tiny 是从头开始训练的吗?
你好请问一下tinybert的训练方式是不是直接从最原始的开始训练呢?还是从大模型distill到小模型呢?
同问,求大佬解答
直接训练的呢
@brightmart 能方便透露一些训练的细节吗?比如使用什么硬件来训练的(CPU,GPU还是TPU?)用了大概多少块硬件?训练了大概多长时间?tiny,small和base。。。等不同size模型的训练时间? 谢谢
你好。基本性的tiny用 TPU v3-8(128G的显存),只需要训练2天,small训练4天左右。 不过我放出tiny, small,base,的没记错的话,都有在v3-128( 累计4096G显存)上训练过的。base只需要1天即可。