支持 jasper en vision language v1
https://huggingface.co/NovaSearch/jasper_en_vision_language_v1
我需要做Arxiv摘要的Embedding,MTEB上我进行了筛选,在Arxiv任务上这个模型目前是很好的选择(不知道为啥conan没有这个任务的数据)
这个模型的原始模型是Qwen架构,使用了Full Attention,不是Decoder only 结构。我尝试了直接使用 open vino 加速,导出失败了,我询问了作者,他不了解如何进行模型加速,所以这个模型加速实现可能会有一些困难,我不确定。
@Yikai-Liao 这个模型是基于VL模型训练的,所以暂时还不支持,后面我也研究一下怎么支持,其实就是用 vllm 框架进行加速
这模型现在推理太慢了,cpu 推理耗时是 conan v1 的 4 倍左右,虽然我是 github action 抽 Embedding,白嫖
@Yikai-Liao https://docs.vllm.ai/en/latest/models/supported_models.html 你可以尝试这样部署,先使用vllm 看能否部署, 如果可以的话,可以跟我说一下,我后面也支持一下
cpu 版本没有预编译的,编译阶段就炸了
我测试了,jasper v1 的 text 部分来自 stella v5,可以 vLLM 加速,不需要任何改动,直接用,SigLip 加速应该也没问题,就是俩拼一块不清楚该怎么加速,目前没法直接加速。不过感觉可以把权重复制到 stella 模型里直接先用上