LLaMA-Megatron 关于LLAMA pretrain相关问题。谢谢～

关于LLAMA pretrain相关问题。谢谢～

Open zhangbin1997 opened this issue 1 year ago • 3 comments

关于flash-attention：请问老哥预训练时flash-attn库的版本设置的是多少，我这边设置的为1.18.0，但是会报错，报错信息为：RuntimeError: Expected is_sm90 || is_sm8x || is_sm75 to be true, but got false. 不知道是否是flash-attn版本问题，还是说V100 不支持flash-attn呢。
关于预训练LLAMA时的loss：因为flash-attn在我的服务器上不可用，因此我预训练时没有开启flash-attn。但这个应该只是加速，不会影响效果。我的问题是，我pretrain llama 400M from scratch，但我的训练loss在基本收敛的情况下维持在3.几左右的数值，和chinchilla文章中声称的同等规模模型的训练loss为2.几不一致，同时我也基于megatron-lm官方仓库预训练了一个同样400M的GPT-2模型，其收敛的训练loss能够达到2.7 ，符合chinchilla文章的结果，但基于您仓库，我预训练400M的llama 收敛后的训练损失偏高，请问这个正常吗，您这边有验证过代码的准确性么。还是说参数量为400M的LLAMA模型训练loss正常就为3.2 呢。另外你仓库里预训练的这个13B的LLAMA模型效果请问和官方LLAMA模型效果是保持一致的么？以下为我预训练400M 的LLAMA的超参设置：单机4卡 V100 32G num-layers=24 hidden-size=1024 ffn-hidden-size=2668 num-attention-heads=16 seq-length=1024 lr=3e-4 micro bs=12 global bs=360 train_samples：200 0000（约为2B token）
老哥，你的llama_model.py 中post_language_model_processing函数的代码有错， output = mpu.gather_from_tensor_model_parallel_region(output) 应该改为output = tensor_parallel.gather_from_tensor_model_parallel_region(output)。

Jul 22 '23 08:07 zhangbin1997

LLaMA-Megatron LLaMA-Megatron copied to clipboard

关于LLAMA pretrain相关问题。谢谢～

LLaMA-Megatron
LLaMA-Megatron copied to clipboard