ChatGLM-Tuning icon indicating copy to clipboard operation
ChatGLM-Tuning copied to clipboard

训练报错:libcuda.so not found! Do you have a CUDA driver installed? If you are on a cluster, make sure you are on a CUDA machine!

Open woody926 opened this issue 1 year ago • 2 comments

WIn10 anaconda环境下

python finetune.py --dataset_path data/alpaca --lora_rank 8 --per_device_train_batch_size 6 --gradient_accumulation_steps 1 --max_steps 52000 --save_steps 1000 --save_total_limit 2 --learning_rate 1e-4 --fp16 --remove_unused_columns false --logging_steps 50 --output_dir output

CUDA 11.6 都已经安装好了

本地搜索,找不到libcudart.so 文件 只有libcuda.so,main.py指定了 LD_LIBRARY_PATH = "C:/Windows/System32/lxss/lib/libcuda.so"

woody926 avatar Mar 30 '23 04:03 woody926

因为bitsandbytes只能在Linux下面跑。你可以考虑在WSL2里面搭建训练环境

VanderBieu avatar Mar 30 '23 07:03 VanderBieu

bitsandbytes可以在windows跑的,首先你需要安装0.35.0版本的bitsandbytes,然后按照如下操作 git clone https://github.com/bmaltais/kohya_ss.git cd kohya_ss cp .\bitsandbytes_windows*.dll .\venv\Lib\site-packages\bitsandbytes
cp .\bitsandbytes_windows\cextension.py .\venv\Lib\site-packages\bitsandbytes\cextension.py cp .\bitsandbytes_windows\main.py .\venv\Lib\site-packages\bitsandbytes\cuda_setup\main.py

我这样操作之后,就可以训练了

littlestone0806 avatar Apr 07 '23 05:04 littlestone0806

找到conda环境下的bitsandbytes包,把其中的四个文件更换为上面kohya_ss中的bitsandbytes_windows的四个文件,然后如果出现NoModelError,把main.py里from path的代码注释了

daerzhu avatar Apr 23 '23 13:04 daerzhu