Biały Wilk
Biały Wilk
+1,百度网盘已经被河蟹了
> per_device_train_batch_size太小了,调到100试下。你一个卡多少显存 卡不行,A10。。。。带不动100,FP16,最大到4,现在堆了8张卡,分布式跑吧
微软的deepspeed-chat,改改代码应该可以支持吧
情况和这个相同么? https://github.com/THUDM/ChatGLM-6B/issues/592#event-9003274415
试过2W的诗歌创作数据,效果已经很不错了
第一张卡应该有很多进程,看网上说是torch.load的锅,但是改了之后,依然这样,是框架哪里问题?
如果第一张卡有太多进程占用显存,检查下你是不是从git安装的transformers,不能装最新的4.29.0.dev,这个版本就会出现核0多出来3个进程
```python import bitsandbytes as bnb from transformers import ( AutoConfig, AutoTokenizer, AutoModel, set_seed, BitsAndBytesConfig ) import torch from peft import ( prepare_model_for_kbit_training, LoraConfig, get_peft_model, get_peft_model_state_dict, PeftModel ) compute_dtype = torch.bfloat16...
必须使用 transformers==4.30.2,从源代码安装的transformers==4.31.0.dev0是不行的