m2 encoder的文本编码器和图像编码器分别是什么？

Open Yimi81 opened this issue 3 months ago • 1 comments

如题，论文中似乎没有提到，是文本是glm吗，图像是vit? @LandyGuo

Sep 03 '25 11:09 Yimi81

我们使用了glm的tokenizer, 整体模型结构设计参考了beit3： https://arxiv.org/abs/2208.10442，预训练任务设计参考了sycoca: https://arxiv.org/abs/2401.02137, 因模型结构有修改，文本编码器和图像编码器没有预训练权重可加载，预训练过程中随机初始化，train from scratch进行参数学习。

Sep 15 '25 08:09 LandyGuo