miracle
miracle
你好 我想问一下你们可以拿作者的font27的模型继续训练吗 总是报错 需要一些特别的设置吗?
Hello, whether you slove this problem?
Do you solve this problem?
> 推算一下,7B模型,1.2万亿token,1000张A800,0.58利用率,训练一个epoch是4天左右。 看配置好像是纯data parallel,没有开tensor parallel吗?
> > > 推算一下,7B模型,1.2万亿token,1000张A800,0.58利用率,训练一个epoch是4天左右。 > > > > > > 看配置好像是纯data parallel,没有开tensor parallel吗? > > 猜测应该开了tensor和pipeline并行,否则很难达到0.58利用率 7B开pipeline应该不至于,tp开的话可能也是2,因为seq length为4096,按照global batch size为4M推测,micro batch size和 gradient accumulate都是1,那千卡应该是纯dp的,除非是2000卡。。