hadi

Results 9 issues of hadi

(base) [consumer@localhost nebula-docker-compose]$ docker-compose up Starting nebuladockercompose_metad_1 ... Starting nebuladockercompose_metad_1 ... done Starting nebuladockercompose_graphd_1 ... Starting nebuladockercompose_storaged_1 ... Starting nebuladockercompose_graphd_1 Starting nebuladockercompose_storaged_1 ... done Attaching to nebuladockercompose_metad_1, nebuladockercompose_graphd_1, nebuladockercompose_storaged_1 storaged_1...

bug

I am trying to fine-tune the Llama 13B model using Colossalai. However, the memory usage is quite high, exceeding 270B, and causing an OOM error directly. Is there any way...

感谢您使用Issue提问模板,请按照以下步骤提供相关信息。我们将优先处理信息相对完整的Issue,感谢您的配合。 *提示:将[ ]中填入x,表示打对钩。提问时删除上面这两行。请只保留符合的选项,删掉其他。* ### 详细描述问题 在用alpaca-lora微调时,loss不太稳定,且eval loss为nan,数据格式为: ![image](https://user-images.githubusercontent.com/19610534/236791366-7187fee6-e0f4-4802-9b10-37c5b291a3ae.png) 生成的loss截图为: ![image](https://user-images.githubusercontent.com/19610534/236791552-9e312822-3206-49f4-b521-4e800adf3533.png) ### 运行截图或log *(如有必要)请提供文本log或者运行截图,以便我们更好地了解问题详情。* ### 必查项目 - [ ] 哪个模型的问题:LLaMA / Alpaca **(只保留你要问的)** - [ ] 问题类型:**(只保留你要问的)** - 下载问题 - 模型转换和合并...

感谢您使用Issue提问模板,请按照以下步骤提供相关信息。我们将优先处理信息相对完整的Issue,感谢您的配合。 *提示:将[ ]中填入x,表示打对钩。提问时删除上面这两行。请只保留符合的选项,删掉其他。* ### 详细描述问题 请问在后面的训练中会增加max length吗?我看7B和13B都是512,有可能会增加到2048或者4096吗? ### 运行截图或log *(如有必要)请提供文本log或者运行截图,以便我们更好地了解问题详情。* ### 必查项目 - [ ] 哪个模型的问题:LLaMA / Alpaca **(只保留你要问的)** - [ ] 问题类型:**(只保留你要问的)** - 下载问题 - 模型转换和合并 - 模型推理问题(🤗 transformers)...

感谢您使用Issue提问模板,请按照以下步骤提供相关信息。我们将优先处理信息相对完整的Issue,感谢您的配合。 *提示:将[ ]中填入x,表示打对钩。提问时删除上面这两行。请只保留符合的选项,删掉其他。* ### 详细描述问题 请教一下大佬,13B的chinese llama lora中r是8,alpha为32,但是alpaca lora中r为64, alpha为128。这两个差的还挺大,请问这么做的原因是什么?这两个微调时候的epoch是不是也不一样,还请教下epoch的经验值不知道方不方便告诉下。 ### 运行截图或log *(如有必要)请提供文本log或者运行截图,以便我们更好地了解问题详情。* ### 必查项目 - [ ] 哪个模型的问题:LLaMA / Alpaca **(只保留你要问的)** - [ ] 问题类型:**(只保留你要问的)** - 下载问题 - 模型转换和合并...

### 详细描述问题 我有三个nvidia Tesla的V100卡,1个16G,2个32G,该如何设置让这三个卡能够充分利用呢?不知道有没有大佬能够帮忙解答这个问题,试了好几次都没成功。现在最好的就是在2个32G的上面来跑,16G的就闲着用不了

感谢您使用Issue提问模板,请按照以下步骤提供相关信息。我们将优先处理信息相对完整的Issue,感谢您的配合。 *提示:将[ ]中填入x,表示打对钩。提问时删除上面这两行。请只保留符合的选项,删掉其他。* ### 详细描述问题 Chinese-LLaMA-Plus-13B,推理过程中报错: ### 运行截图或log ![image](https://github.com/ymcui/Chinese-LLaMA-Alpaca/assets/19610534/f0ba6779-5df7-4c43-b3a5-8a9ba3e67e15)

感谢您使用Issue提问模板,请按照以下步骤提供相关信息。我们将优先处理信息相对完整的Issue,感谢您的配合。 *提示:将[ ]中填入x,表示打对钩。提问时删除上面这两行。请只保留符合的选项,删掉其他。* ### 详细描述问题 采用多个进程微调chinese_lora_alpaca_plus_13b模型的时候出现loss为0,并且eval loss为nan,padding_side为right ### 运行截图或log ![image](https://github.com/ymcui/Chinese-LLaMA-Alpaca/assets/19610534/04480a3b-1e09-4a0f-9a2b-43c0be4f7fac) 运行命令如下: WORLD_SIZE=2 CUDA_VISIBLE_DEVICES=1,2 torchrun --nproc_per_node=2 finetune.py --base_model '/data/public-model/plus-13b-lora/merge_chinese_lora_alpaca_plus_13b' --data_path './data/merge-46w.json' --output_dir "./plus-13b-output/alpaca-plus-13b-test-001" --batch_size 32 --micro_batch_size 16 --num_epochs 2 --learning_rate 3e-4...

### Reminder - [X] I have read the README and searched the existing issues. ### Reproduction 运行命令: deepspeed --num_gpus=8 src/train_bash.py --stage sft --model_name_or_path /train/Llama-3-70B --do_train --dataset thp --finetuning_type full --output_dir...

pending