InternVL
InternVL copied to clipboard
关于论文和代码之间的疑问。
我在看"InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks" 这篇论文,论文中3个阶段,都需要一个一个训练才能组成一个模型。论文中的每个阶段训练分别对应代码中的那一块?