PencilGo issues

Repositories
Issues
Comments

Results 1 issues of


                                            PencilGo

MNN-LLM的论文提到Prefetch KV Pipeline方案抓Trace发现推理过程中与UFS的IO很少，没有节省内存

我研究MNN-LLM: A Generic Inference Engine for Fast Large Language Model Deployment on Mobile Devices 论文 DRAM-Flash Hybrid Storage 小节提到的推理时KV offload/prefetch 方法。实测时通过prefetto抓取Block和f2fs层的trace log分析IO的RW很少，内存占用很大，没有节省内存。 ----------- 测试机：SM8650 + 12GB DRAM MNN-LLM APP...

question

stale