PaddleMIX
PaddleMIX copied to clipboard
cogVLM模型复现向前推理
cogVLM模型复现向前推理
任务描述
任务背景
- CogVLM 是一个强大的开源视觉语言模型,利用视觉专家模块深度整合语言编码和视觉编码,在10项权威跨模态基准上取得了SOTA性能
完成步骤
- 模型、代码已经开源。
- 根据开源代码进行网络结构转换,前向推理。代码链接。
- 要求输入相同的图像与prompt,效果与web demo(测试网址)相当。
- 提交代码PR到PaddleMIX。
提交内容:
- 模型脚本提交到paddlemix/models。
- 推理脚本提交到paddlemix/examples。