xianghuisun

Results 68 comments of xianghuisun

> 我的经验是继续等就行,按几下回车键。。。我用了3.5M的数据训练,数据加载加mapping用了一个半小时之后才开始train。。。 我们后面会优化数据load和tokenized的过程,尽可能提速。

您好,这个问题我这边没有复现成功。 您是否有修改deepspeed_config文件

> ``` > deepspeed --num_gpus=1 finetune.py --model_config_file run_config/Llama_config.json --deepspeed run_config/deepspeed_config.json > ``` > > 我们已经更新代码,基于deepspeed-chat。您可基于最新代码实验。

代码里的逻辑就是先加载预训练模型,然后加载LoRA权重。 model = AutoModelForCausalLM.from_pretrained( base_model, torch_dtype=torch.float16, device_map="auto", ) if os.path.exists(args.lora_weights): model = PeftModel.from_pretrained( model, args.lora_weights, torch_dtype=torch.float16, )

> 在训练的时候,运行bash training_scripts/single_gpu/run_FT.sh命令,直接什么错误都不报,但是,无法运行,显存看加载了一点,然后程序就死了。 > > 运行bash training_scripts/single_gpu/run_LoRA.sh 的时候, ![image](https://user-images.githubusercontent.com/33299522/233084516-901bd09a-8fb1-491a-9ce0-37075dd2fd2d.png) z在这个地方卡死不动了。 ![image](https://user-images.githubusercontent.com/33299522/233084762-422ef59b-01b7-4166-a2f1-fd3d0cdeefcb.png) 最后这里报错了 我们已更新了代码,可基于新版本代码试下。另外,建议您在我们提供的docker环境内运行

> 在租的服务器上跑代码,它启动就是一个docker,用的之前你们的环境,发现无法run代码了? 目前的代码对环境的依赖性较低,可以不用我们提供的docker conda创建环境后,pip install即可。之前的环境也是可以运行当前版本代码的

> finetune using `train/training_scripts/single_node/run_LoRA.sh` with `--model_name_or_path /path/to/decrypted/BELLE-LLaMA-EXT-7B/` > > But happens with the error > > ``` > │ 130 │ │ util_ops = UtilsBuilder().load() │ > │ 131 │...