Blur
Blur
> 速度,单位是token/s 谢谢解答
并且web_demo中经常出现 "Human: " 
> @Data2Me 问下do_predict怎么用? python3 /mnt/cpfs/guanyutao/LLaMA-Efficient-Tuning/src/train_sft.py --model_name_or_path /model_checkpoint/baichuan-7B --do_predict --dataset dev --checkpoint_dir /baichuan-7B-lora/4200/checkpoint-4200 --output_dir /baichuan --per_device_eval_batch_size 8 --max_samples 1000 --predict_with_generate --dataset_dir /LLaMA-Efficient-Tuning/data
请问LLaMA-Vicuna-13B的权重在哪里下载?有相应的微调代码吗?
> ``` > model = model.quantize(4) > model = model.half().cuda() > model.transformer.prefix_encoder.float() > model = model.eval() > ``` > > 这样才能使用GPU推理 可以了,非常感谢您!
> ``` > model = model.quantize(4) > model = model.half().cuda() > model.transformer.prefix_encoder.float() > model = model.eval() > ``` > > 这样才能使用GPU推理 为什么使用web_demo.py的结果和直接使用ptuning中的main.py predict,预测结果差别这么大?web中的结果明显比predict要差
> @Data2Me 请问您找到web结果比predict结果要差的原因了吗? web的第一次回复是和predict相同的,后面就不是了,所以我现在web上测试每次一个问题,然后clear history
> > spm_model_file = '../ChatLLaMA-zh-7B/tokenizer.model'这个分词模型是不是损坏了? > > 我测试了没有遇到这个问题,检查一下Sentencepiece版本? 我这里是0.1.97 我这边Sentencepiece版本也是0.1.97,刚试了还是报错: File "/opt/conda/lib/python3.10/site-packages/sentencepiece/__init__.py", line 310, in LoadFromFile return _sentencepiece.SentencePieceProcessor_LoadFromFile(self, arg) RuntimeError: Internal: src/sentencepiece_processor.cc(1101) [model_proto->ParseFromArray(serialized.data(), serialized.size())]