标准提问格式，请大家按照这个方式进行提问~（重要）（非常重要）

Open chuxiaoyi2023 opened this issue 1 year ago • 0 comments

标准示例：

环境：

soc环境 transformers：4.32.0 torch：2.0.1+cpu LLM-TPU：6fcc8bf/latest 2024.06.30 tpu-mlir：d0cbae7 2024.06.30 driver版本：0.5.1 libsophon：#1 SMP Sun Jun 16 05:39:19 CST 2024

路径：

/workspace/LLM-TPU/models/Qwen1_5/python_demo

操作：

python3 pipeline.py --model_path ../compile/qwen1.5-1.8b_f16_seq4096_1dev.bmodel --tokenizer_path ../token_config/ --devid 12 --generation_mode penalty_sample

问题：

3e7124e1f57a6f8cb92c308c941a850

其他：

自己编译的模型无法跑通，使用./run.sh --model llama2 --arch soc的能跑通

示例说明

环境：

soc环境（需要注明是soc环境还是pcie环境，这两者的处理方式不同） transformers：4.32.0（可以不用，但是涉及到onnx与tokenizer相关的问题需要transformers以及torch版本） torch：2.0.1+cpu（可以不用，但是涉及到onnx与tokenizer相关的问题需要transformers以及torch版本） LLM-TPU：6fcc8bf/latest 2024.06.30（git log命令查看，具体commit id可以不要，但是日期一定要） tpu-mlir：d0cbae7 2024.06.30（如果是自己编译的模型，需要提交tpu-mlir版本，具体commit id可以不要，但是日期一定要） driver版本：0.5.1（使用bm-smi命令查看） libsophon：#1 SMP Sun Jun 16 05:39:19 CST 2024 （soc使用uname -v，pcie使用cat /proc/bmsophon/driver_version）（基本上50%以上的问题都是版本问题）

路径：

/workspace/LLM-TPU/models/Qwen1_5/python_demo

操作：

python3 pipeline.py --model_path ../compile/qwen1.5-1.8b_f16_seq4096_1dev.bmodel --tokenizer_path ../token_config/ --devid 12 --generation_mode penalty_sample

问题：

3e7124e1f57a6f8cb92c308c941a850

（问题截图需要清晰的展现输入的命令，具体的错误，以及使用的路径，如果路径比较敏感建议打码，但是LLM-TPU后面的要带上）（需要bm-smi的截图，使用bm-smi后，可以看到显存使用情况）

其他：

如果是自己编译的模型，需要注明使用拉下来的模型，能否跑通

Jul 17 '24 08:07 chuxiaoyi2023