miracle

Results 5 comments of miracle

你好 我想问一下你们可以拿作者的font27的模型继续训练吗 总是报错 需要一些特别的设置吗?

Hello, whether you slove this problem?

Do you solve this problem?

> 推算一下,7B模型,1.2万亿token,1000张A800,0.58利用率,训练一个epoch是4天左右。 看配置好像是纯data parallel,没有开tensor parallel吗?

> > > 推算一下,7B模型,1.2万亿token,1000张A800,0.58利用率,训练一个epoch是4天左右。 > > > > > > 看配置好像是纯data parallel,没有开tensor parallel吗? > > 猜测应该开了tensor和pipeline并行,否则很难达到0.58利用率 7B开pipeline应该不至于,tp开的话可能也是2,因为seq length为4096,按照global batch size为4M推测,micro batch size和 gradient accumulate都是1,那千卡应该是纯dp的,除非是2000卡。。