标准提问格式,请大家按照这个方式进行提问~(重要)(非常重要)
标准示例:
环境:
soc环境 transformers:4.32.0 torch:2.0.1+cpu LLM-TPU:6fcc8bf/latest 2024.06.30 tpu-mlir:d0cbae7 2024.06.30 driver版本:0.5.1 libsophon:#1 SMP Sun Jun 16 05:39:19 CST 2024
路径:
/workspace/LLM-TPU/models/Qwen1_5/python_demo
操作:
python3 pipeline.py --model_path ../compile/qwen1.5-1.8b_f16_seq4096_1dev.bmodel --tokenizer_path ../token_config/ --devid 12 --generation_mode penalty_sample
问题:
其他:
自己编译的模型无法跑通,使用./run.sh --model llama2 --arch soc的能跑通
示例说明
环境:
soc环境(需要注明是soc环境还是pcie环境,这两者的处理方式不同) transformers:4.32.0(可以不用,但是涉及到onnx与tokenizer相关的问题需要transformers以及torch版本) torch:2.0.1+cpu(可以不用,但是涉及到onnx与tokenizer相关的问题需要transformers以及torch版本) LLM-TPU:6fcc8bf/latest 2024.06.30(git log命令查看,具体commit id可以不要,但是日期一定要) tpu-mlir:d0cbae7 2024.06.30(如果是自己编译的模型,需要提交tpu-mlir版本,具体commit id可以不要,但是日期一定要) driver版本:0.5.1(使用bm-smi命令查看) libsophon:#1 SMP Sun Jun 16 05:39:19 CST 2024 (soc使用uname -v,pcie使用cat /proc/bmsophon/driver_version) (基本上50%以上的问题都是版本问题)
路径:
/workspace/LLM-TPU/models/Qwen1_5/python_demo
操作:
python3 pipeline.py --model_path ../compile/qwen1.5-1.8b_f16_seq4096_1dev.bmodel --tokenizer_path ../token_config/ --devid 12 --generation_mode penalty_sample
问题:
(问题截图需要清晰的展现输入的命令,具体的错误,以及使用的路径,如果路径比较敏感建议打码,但是LLM-TPU后面的要带上) (需要bm-smi的截图,使用bm-smi后,可以看到显存使用情况)
其他:
如果是自己编译的模型,需要注明使用拉下来的模型,能否跑通