hadi issues

Results 9 issues of


                                            hadi

centos7 docker-compose up报错

(base) [consumer@localhost nebula-docker-compose]$ docker-compose up Starting nebuladockercompose_metad_1 ... Starting nebuladockercompose_metad_1 ... done Starting nebuladockercompose_graphd_1 ... Starting nebuladockercompose_storaged_1 ... Starting nebuladockercompose_graphd_1 Starting nebuladockercompose_storaged_1 ... done Attaching to nebuladockercompose_metad_1, nebuladockercompose_graphd_1, nebuladockercompose_storaged_1 storaged_1...

bug

Optimize the memory usage

I am trying to fine-tune the Llama 13B model using Colossalai. However, the memory usage is quite high, exceeding 270B, and causing an OOM error directly. Is there any way...

用lora微调时eval loss为nan

感谢您使用Issue提问模板，请按照以下步骤提供相关信息。我们将优先处理信息相对完整的Issue，感谢您的配合。 *提示：将[ ]中填入x，表示打对钩。提问时删除上面这两行。请只保留符合的选项，删掉其他。* ### 详细描述问题在用alpaca-lora微调时，loss不太稳定，且eval loss为nan，数据格式为： ![image](https://user-images.githubusercontent.com/19610534/236791366-7187fee6-e0f4-4802-9b10-37c5b291a3ae.png) 生成的loss截图为： ![image](https://user-images.githubusercontent.com/19610534/236791552-9e312822-3206-49f4-b521-4e800adf3533.png) ### 运行截图或log *（如有必要）请提供文本log或者运行截图，以便我们更好地了解问题详情。* ### 必查项目 - [ ] 哪个模型的问题：LLaMA / Alpaca **（只保留你要问的）** - [ ] 问题类型：**（只保留你要问的）** - 下载问题 - 模型转换和合并...

以后的训练中会增加max length吗

感谢您使用Issue提问模板，请按照以下步骤提供相关信息。我们将优先处理信息相对完整的Issue，感谢您的配合。 *提示：将[ ]中填入x，表示打对钩。提问时删除上面这两行。请只保留符合的选项，删掉其他。* ### 详细描述问题请问在后面的训练中会增加max length吗？我看7B和13B都是512，有可能会增加到2048或者4096吗？ ### 运行截图或log *（如有必要）请提供文本log或者运行截图，以便我们更好地了解问题详情。* ### 必查项目 - [ ] 哪个模型的问题：LLaMA / Alpaca **（只保留你要问的）** - [ ] 问题类型：**（只保留你要问的）** - 下载问题 - 模型转换和合并 - 模型推理问题（🤗 transformers）...

13B，chinese llama lora和alpaca lora的r和lora_alpha

感谢您使用Issue提问模板，请按照以下步骤提供相关信息。我们将优先处理信息相对完整的Issue，感谢您的配合。 *提示：将[ ]中填入x，表示打对钩。提问时删除上面这两行。请只保留符合的选项，删掉其他。* ### 详细描述问题请教一下大佬，13B的chinese llama lora中r是8，alpha为32，但是alpaca lora中r为64， alpha为128。这两个差的还挺大，请问这么做的原因是什么？这两个微调时候的epoch是不是也不一样，还请教下epoch的经验值不知道方不方便告诉下。 ### 运行截图或log *（如有必要）请提供文本log或者运行截图，以便我们更好地了解问题详情。* ### 必查项目 - [ ] 哪个模型的问题：LLaMA / Alpaca **（只保留你要问的）** - [ ] 问题类型：**（只保留你要问的）** - 下载问题 - 模型转换和合并...

如何根据不同的GPU显存来设置batch_size

### 详细描述问题我有三个nvidia Tesla的V100卡，1个16G，2个32G，该如何设置让这三个卡能够充分利用呢？不知道有没有大佬能够帮忙解答这个问题，试了好几次都没成功。现在最好的就是在2个32G的上面来跑，16G的就闲着用不了

Chinese-LLaMA-Plus-13B，推理过程中报错

感谢您使用Issue提问模板，请按照以下步骤提供相关信息。我们将优先处理信息相对完整的Issue，感谢您的配合。 *提示：将[ ]中填入x，表示打对钩。提问时删除上面这两行。请只保留符合的选项，删掉其他。* ### 详细描述问题 Chinese-LLaMA-Plus-13B，推理过程中报错： ### 运行截图或log ![image](https://github.com/ymcui/Chinese-LLaMA-Alpaca/assets/19610534/f0ba6779-5df7-4c43-b3a5-8a9ba3e67e15)

多进程跑出现loss为0，eval loss为nan

感谢您使用Issue提问模板，请按照以下步骤提供相关信息。我们将优先处理信息相对完整的Issue，感谢您的配合。 *提示：将[ ]中填入x，表示打对钩。提问时删除上面这两行。请只保留符合的选项，删掉其他。* ### 详细描述问题采用多个进程微调chinese_lora_alpaca_plus_13b模型的时候出现loss为0，并且eval loss为nan，padding_side为right ### 运行截图或log ![image](https://github.com/ymcui/Chinese-LLaMA-Alpaca/assets/19610534/04480a3b-1e09-4a0f-9a2b-43c0be4f7fac) 运行命令如下： WORLD_SIZE=2 CUDA_VISIBLE_DEVICES=1,2 torchrun --nproc_per_node=2 finetune.py --base_model '/data/public-model/plus-13b-lora/merge_chinese_lora_alpaca_plus_13b' --data_path './data/merge-46w.json' --output_dir "./plus-13b-output/alpaca-plus-13b-test-001" --batch_size 32 --micro_batch_size 16 --num_epochs 2 --learning_rate 3e-4...

用最新的代码全量微调llama-3-70B报错

### Reminder - [X] I have read the README and searched the existing issues. ### Reproduction 运行命令： deepspeed --num_gpus=8 src/train_bash.py --stage sft --model_name_or_path /train/Llama-3-70B --do_train --dataset thp --finetuning_type full --output_dir...

pending