Ant-Multi-Modal-Framework
Ant-Multi-Modal-Framework copied to clipboard
m2 encoder的文本编码器和图像编码器分别是什么?
如题,论文中似乎没有提到,是文本是glm吗,图像是vit? @LandyGuo
我们使用了glm的tokenizer, 整体模型结构设计参考了beit3: https://arxiv.org/abs/2208.10442, 预训练任务设计参考了sycoca: https://arxiv.org/abs/2401.02137, 因模型结构有修改,文本编码器和图像编码器没有预训练权重可加载,预训练过程中随机初始化,train from scratch进行参数学习。