Zhu Lei issues

Results 1 issues of


                                            Zhu Lei

[Bug] llm_bench 在 ARM CPU 上测试 gemma-3-1b-it 模型时出现异常高的解码速度（1500 toks/s）

我最近在使用 `llm_bench` 工具对端侧大模型进行性能测试。在测试 `gemma-3-1b-it-qat-q4_0-gguf-MNN` 模型时，我发现了一些异常高且可能不正确的解码速度。特别地，目前只有在这个模型上才会出现这个情况 **问题描述** `llm_bench` 工具在特定条件下（例如 `prompt=128, decode=128`）报告 Gemma 模型的解码速度超过了 **1500 tokens/秒**。这个数值远高于预期，也比 `llama.cpp` 等类似框架（在相同模型上，`llama.cpp` 的速度约为 52 tok/s）快得不合常理。同时，这个速度会随着输入长度、参数（-c[precison 1:High,2:Low]）的变化而发生剧烈的、不符合逻辑的波动。与此对比，使用本项目（MNN）的`llm_demo` 工具交互式聊天也并没有体现出1500 tokens/秒左右的decode，目测应该是50 tok/s左右（大概）？ #### **不合理点一：Decode 速度异常高且剧烈波动** - **现象**:...