Zhu Lei

Results 1 issues of Zhu Lei

我最近在使用 `llm_bench` 工具对端侧大模型进行性能测试。在测试 `gemma-3-1b-it-qat-q4_0-gguf-MNN` 模型时,我发现了一些异常高且可能不正确的解码速度。特别地,目前只有在这个模型上才会出现这个情况 **问题描述** `llm_bench` 工具在特定条件下(例如 `prompt=128, decode=128`)报告 Gemma 模型的解码速度超过了 **1500 tokens/秒**。这个数值远高于预期,也比 `llama.cpp` 等类似框架(在相同模型上,`llama.cpp` 的速度约为 52 tok/s)快得不合常理。同时,这个速度会随着输入长度、参数(-c[precison 1:High,2:Low])的变化而发生剧烈的、不符合逻辑的波动。 与此对比,使用本项目(MNN)的`llm_demo` 工具交互式聊天也并没有体现出1500 tokens/秒 左右的decode,目测应该是50 tok/s左右(大概)? #### **不合理点一:Decode 速度异常高且剧烈波动** - **现象**:...