PencilGo
Results
1
issues of
PencilGo
我研究MNN-LLM: A Generic Inference Engine for Fast Large Language Model Deployment on Mobile Devices 论文 DRAM-Flash Hybrid Storage 小节提到的推理时KV offload/prefetch 方法。 实测时通过prefetto抓取Block和f2fs层的trace log分析IO的RW很少,内存占用很大,没有节省内存。 ----------- 测试机:SM8650 + 12GB DRAM MNN-LLM APP...
question
stale