hoshi-hiyouga
Results
294
comments of
hoshi-hiyouga
只能继承权重,不能继承训练进度,请手动减少 epoch 数量
@YinSonglin1997 重点是 --checkpoint_dir 参数,而不是那个参数
多卡并不能节省单张卡上面的显存,12G 跑 fp16 的 LoRA 有点勉强,试着开一下量化
用 deepspeed 试试
可能是你的 GPU 性能达到了上限
学习率太大了
请查看 Readme
--checkpoint_dir 指向断点权重文件夹
我在本地机器上测试了没有问题,我的测试参数是: ```bash #!/bin/bash CUDA_VISIBLE_DEVICES=0 python src/train_sft.py \ --model_name_or_path chatglm2 \ --use_v2 \ --do_train \ --dataset alpaca_gpt4_zh \ --finetuning_type lora \ --lora_rank 32 \ --output_dir out/debug_sft_v2 \ --overwrite_cache \ --overwrite_output_dir \...
@happy-xlf 这个文件大小明显有问题