Blur comments

Results 12 comments of


                                            Blur

[BUG] flash attention推理速度疑问

> 速度，单位是token/s 谢谢解答

为什么用py脚本do_predict和web_demo中回答的结果不一样

并且web_demo中经常出现 "Human: " ![image](https://github.com/hiyouga/LLaMA-Efficient-Tuning/assets/59723064/6a60cebd-851a-4fc1-a38d-121307194aff)

为什么用py脚本do_predict和web_demo中回答的结果不一样

> @Data2Me 问下do_predict怎么用？ python3 /mnt/cpfs/guanyutao/LLaMA-Efficient-Tuning/src/train_sft.py --model_name_or_path /model_checkpoint/baichuan-7B --do_predict --dataset dev --checkpoint_dir /baichuan-7B-lora/4200/checkpoint-4200 --output_dir /baichuan --per_device_eval_batch_size 8 --max_samples 1000 --predict_with_generate --dataset_dir /LLaMA-Efficient-Tuning/data

LLaMA-Vicuna-13B 和 Baichuan-Vicuna-7B 的对比评测数据（由GPT4打分，供大家参考）

请问LLaMA-Vicuna-13B的权重在哪里下载？有相应的微调代码吗？

模型用qlora 学不会领域的知识，回答的内容都相关但是与训练内容不对应

same

[BUG/Help] web_demo部署后无返回结果：RuntimeError: "LayerNormKernelImpl" not implemented for 'Half'

> ``` > model = model.quantize(4) > model = model.half().cuda() > model.transformer.prefix_encoder.float() > model = model.eval() > ``` > > 这样才能使用GPU推理可以了，非常感谢您!

[BUG/Help] web_demo部署后无返回结果：RuntimeError: "LayerNormKernelImpl" not implemented for 'Half'

> ``` > model = model.quantize(4) > model = model.half().cuda() > model.transformer.prefix_encoder.float() > model = model.eval() > ``` > > 这样才能使用GPU推理为什么使用web_demo.py的结果和直接使用ptuning中的main.py predict，预测结果差别这么大？web中的结果明显比predict要差

[BUG/Help] web_demo部署后无返回结果：RuntimeError: "LayerNormKernelImpl" not implemented for 'Half'

> @Data2Me 请问您找到web结果比predict结果要差的原因了吗？ web的第一次回复是和predict相同的，后面就不是了，所以我现在web上测试每次一个问题，然后clear history

运行脚本generate_chatllama.py后，tokenizer报错

同样出错

运行脚本generate_chatllama.py后，tokenizer报错

> > spm_model_file = '../ChatLLaMA-zh-7B/tokenizer.model'这个分词模型是不是损坏了？ > > 我测试了没有遇到这个问题，检查一下Sentencepiece版本？我这里是0.1.97 我这边Sentencepiece版本也是0.1.97，刚试了还是报错： File "/opt/conda/lib/python3.10/site-packages/sentencepiece/__init__.py", line 310, in LoadFromFile return _sentencepiece.SentencePieceProcessor_LoadFromFile(self, arg) RuntimeError: Internal: src/sentencepiece_processor.cc(1101) [model_proto->ParseFromArray(serialized.data(), serialized.size())]