王召德
王召德
检查了代码,我们之前支持的Qwen2-VL和Qwen2.5-VL没有支持视频输出,单次推理只支持单张图片输入;因此位置编码没有使用m_rope,现在这部分功能已经在支持了
已更新,在 https://github.com/alibaba/MNN/pull/3505 中添加了支持
代码实现:https://github.com/alibaba/MNN/blob/ebb8c8ff86b9bd15d6f3ca47a552e9ee11dbbefa/transformers/llm/engine/src/omni.cpp#L519
> > 代码实现: > > [MNN/transformers/llm/engine/src/omni.cpp](https://github.com/alibaba/MNN/blob/ebb8c8ff86b9bd15d6f3ca47a552e9ee11dbbefa/transformers/llm/engine/src/omni.cpp#L519) > > Line 519 in [ebb8c8f](/alibaba/MNN/commit/ebb8c8ff86b9bd15d6f3ca47a552e9ee11dbbefa) > > VARP Omni::gen_position_ids(int seq_len) { > > 大佬,apps\Android\MnnLlmChat 这个apk 好多bug,根本编译不了,是不是漏传了很多文件啊: > > 比如这个目录就没有传 com.alibaba.mnnllm.android.chat.model 稍等,我们检查一下
https://github.com/alibaba/MNN/pull/3506 已上传
`推理异常`是指什么?
[The mobile-sam speed](https://github.com/ChaoningZhang/MobileSAM#:~:text=On%20a%20single%20GPU%2C%20MobileSAM%20runs%20around%2012ms%20per%20image%3A%208ms%20on%20the%20image%20encoder%20and%204ms%20on%20the%20mask%20decoder.) test on a single GPU. Which device you tested on ?