roberta_zh icon indicating copy to clipboard operation
roberta_zh copied to clipboard

关于多卡训练

Open gaozhanfire opened this issue 5 years ago • 7 comments

您好,有没有多卡预训练roberta的方法。。 无论我怎么调试,使用的gpu数量还是1个 另外几个卡的利用率都是0%

gaozhanfire avatar Oct 10 '19 02:10 gaozhanfire

我也是用多GPU训练还没找到怎么改

szc11121 avatar Nov 12 '19 12:11 szc11121

可以使用TPU,速度是gpu 15到30倍;抢占式一个小时v3-8 有128g显存,15元一小时。

brightmart avatar Nov 12 '19 15:11 brightmart

可以使用TPU,速度是gpu 15到30倍;抢占式一个小时v3-8 有128g显存,15元一小时。

是说用谷歌的colab白嫖吗?训练好的模型拉到本地会不会很慢啊

szc11121 avatar Nov 12 '19 15:11 szc11121

不会;你也可以用google cloud的付费TPU付费的。一般在领域上适应、基于已经预训练过的模型,一天足够了

brightmart avatar Nov 12 '19 15:11 brightmart

不会;你也可以用google cloud的付费TPU付费的。一般在领域上适应、基于已经预训练过的模型,一天足够了

wow,好的我试试

szc11121 avatar Nov 12 '19 16:11 szc11121

不会;你也可以用google cloud的付费TPU付费的。一般在领域上适应、基于已经预训练过的模型,一天足够了

谢谢大佬

szc11121 avatar Nov 12 '19 16:11 szc11121

不会;你也可以用google cloud的付费TPU付费的。一般在领域上适应、基于已经预训练过的模型,一天足够了

请问readme里面说的对显存的要求是基于多大的显存来说的,我试了TPU要保存模型需要开GPS需要信用卡,于是打算用horovod框架在4张p40上面预训练,按理说4*22G的显存也不小了,一直报OOM

szc11121 avatar Nov 14 '19 01:11 szc11121