zxb

Results 6 issues of zxb

您好,我想请问一下预处理生成的dict.pkl因为是二进制文件,并且里面含有二进制的字符,我目前无法转换成文本格式,无法查看文件的具体内容,所以我想请问下我要怎么做可以阅读里面的内容呢,非常谢谢!

### Reminder - [ ] I have read the README and searched the existing issues. ### Reproduction 如题,streaming模式和非streaming模式下训练出来的模型指标差异巨大,请问这个是正常的吗? 全参数训练,streaming模式下num_worker都是1,非streaming模式下num_worker都是64。 我是把多个来源的数据按照顺序合并成了一个文件,训练时只有这一个数据,streaming模式下模型loss波动非常大,但非streaming模式下模型loss正常收敛。 ### Expected behavior _No response_ ### System Info _No response_...

pending

1. 关于flash-attention:请问老哥预训练时flash-attn库的版本设置的是多少,我这边设置的为1.18.0,但是会报错,报错信息为:RuntimeError: Expected is_sm90 || is_sm8x || is_sm75 to be true, but got false. 不知道是否是flash-attn版本问题,还是说V100 不支持flash-attn呢。 2. 关于预训练LLAMA时的loss:因为flash-attn在我的服务器上不可用,因此我预训练时没有开启flash-attn。但这个应该只是加速,不会影响效果。我的问题是,我pretrain llama 400M from scratch,但我的训练loss在基本收敛的情况下维持在3.几 左右的数值,和chinchilla文章中声称的同等规模模型的训练loss为2.几 不一致,同时我也基于megatron-lm官方仓库预训练了一个同样400M的GPT-2模型,其收敛的训练loss能够达到2.7 ,符合chinchilla文章的结果,但基于您仓库,我预训练400M的llama 收敛后的训练损失偏高,请问这个正常吗,您这边有验证过代码的准确性么。 还是说参数量为400M的LLAMA模型训练loss正常就为3.2 呢。另外你仓库里预训练的这个13B的LLAMA模型效果请问和官方LLAMA模型效果是保持一致的么? 以下为我预训练400M 的LLAMA的超参设置:...

请问老哥,我这边基于您LLaMA-Megatron仓库和 Megatron-LM仓库实现了LLAMA预训练,但好像这两个仓库中都没有提供基于Megatron的LLAMA模型的inference推理代码呢,请问您已经实现了相关代码吗?并且我看官方的Megatron-LM仓库中,只有GPT Evaluation和Bert Evaluation的代码,我如果根据官方的GPT inference代码直接修改成LLAMA inference代码的话,这其中是否会有很多bug呢? 谢谢~

您好,如题所示,megatron/core/tensor_parallel/layers.py中的243行处报错。 按照我先前的经验,这种报错的原因通常是因为维度不匹配。但因为我第一次用llama和megatron,因此还是想请教下您,看看您是否先前也遇到过这个问题。 不知道是不是我数据预处理时用的vocab-file和merge-file是gpt2的原因所导致的这个问题,或者还是说因为其它原因。 我也print出了total_input 和 weight.t() 的维度和device,都是匹配的呢。谢谢~ WARNING:torch.distributed.run: ***************************************** Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune...

我的微调命令就是基于本仓库提供的示例 https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/unified_finetune 微调命令: `export CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node 2 \ -m FlagEmbedding.BGE_M3.run \ --output_dir /output \ --model_name_or_path /embedding_model/bge-m3 \ --train_data /test_1k.jsonl \ --learning_rate 1e-5 \ --fp16 \ --num_train_epochs 5 \ --per_device_train_batch_size...