我们在用小米14 pro测试了下llama.cpp以及ollama跑minicpm。 模型加载大约10s,图片编码大约10s。
相比llm,这个速度还是非常慢,我们有更好的方案解决图片编码问题吗,或者咱们有端模型群吗?
是有的。我们在端侧用npu和工程优化加速模型推理计算。 但这部分暂时还不开源,关于此可以加入微信群,或者联系面壁智能商务同学进一步合作。