Ant-Multi-Modal-Framework icon indicating copy to clipboard operation
Ant-Multi-Modal-Framework copied to clipboard

m2 encoder的文本编码器和图像编码器分别是什么?

Open Yimi81 opened this issue 3 months ago • 1 comments

如题,论文中似乎没有提到,是文本是glm吗,图像是vit? @LandyGuo

Yimi81 avatar Sep 03 '25 11:09 Yimi81

我们使用了glm的tokenizer, 整体模型结构设计参考了beit3: https://arxiv.org/abs/2208.10442, 预训练任务设计参考了sycoca: https://arxiv.org/abs/2401.02137, 因模型结构有修改,文本编码器和图像编码器没有预训练权重可加载,预训练过程中随机初始化,train from scratch进行参数学习。

LandyGuo avatar Sep 15 '25 08:09 LandyGuo