端模型跑vlm的延时

Open dingtine opened this issue 1 year ago • 1 comments

我们在用小米14 pro测试了下llama.cpp以及ollama跑minicpm。模型加载大约10s，图片编码大约10s。

相比llm，这个速度还是非常慢，我们有更好的方案解决图片编码问题吗，或者咱们有端模型群吗？

Aug 26 '24 01:08 dingtine

是有的。我们在端侧用npu和工程优化加速模型推理计算。但这部分暂时还不开源，关于此可以加入微信群，或者联系面壁智能商务同学进一步合作。

Aug 26 '24 11:08 tc-mb