miracle comments

Results 5 comments of


                                            miracle

生成背景是绿色

你好我想问一下你们可以拿作者的font27的模型继续训练吗总是报错需要一些特别的设置吗？

pretained model how to train ?

Hello, whether you slove this problem?

How 2 finetuning with your font27

Do you solve this problem?

[Question] 预训练时间和预训练数据

> 推算一下，7B模型，1.2万亿token，1000张A800，0.58利用率，训练一个epoch是4天左右。看配置好像是纯data parallel，没有开tensor parallel吗？

> > > 推算一下，7B模型，1.2万亿token，1000张A800，0.58利用率，训练一个epoch是4天左右。 > > > > > > 看配置好像是纯data parallel，没有开tensor parallel吗？ > > 猜测应该开了tensor和pipeline并行，否则很难达到0.58利用率 7B开pipeline应该不至于，tp开的话可能也是2，因为seq length为4096，按照global batch size为4M推测，micro batch size和 gradient accumulate都是1，那千卡应该是纯dp的，除非是2000卡。。