使用 llm_demo 运行Qwen-1_8B-Chat模型的llm.mn, 没有交互
平台(如果交叉编译请再附上交叉编译目标平台):
Linux
1:完成了qwen/Qwen-1_8B-Chat 下载
2:在MNN仓库下,编译MNNConvert 结果:编译正常
3:使用 MNN 目录下面的 transformers/llm/export/llm_export.py 进行模型导出,把 torch 模型转换成 onnx
4: 使用如下命令把onnx 导出mnn ../build/MNNConvert -f ONNX --modelFile onnx/llm.onnx llm.mnn --weightQuantBits=4 --transformerFuse=1 --saveExternalData --MNNModel Qwen-1_8B-Chat.mnn 结果4个文件 :embeddings_bf16.bin Qwen-1_8B-Chat.mnn Qwen-1_8B-Chat.mnn.weight tokenizer.txt
5: 编译LLM引擎并使用 生成 libllm 和 llm_demo
6:验证Qwen-1_8B-Chat.mnn 模型文件 执行 ./../../../build/llm_demo onnx/Qwen-1_8B-Chat.mnn 0 10 的时候,提示下面错误 config path is onnx/Qwen-1_8B-Chat.mnn The device support i8sdot:0, support fp16:0, support i8mm: 0 Can't open file:.tempcache Load Cache file error. is_single_ = 1 load tokenizer tokenizer_type = 1 load tokenizer Done load onnx/Qwen-1_8B-Chat.mnn ... Done! main, 181, cost time: 4776.811035 ms Prepare for resize opt Begin Prepare for resize opt End Fix: 1264 - Total: 1506, rate = 0.839309 main, 185, cost time: 486.660034 ms prompt file is 0
结果:没有进入对话模式
Marking as stale. No activity in 60 days.