InternVL
InternVL copied to clipboard
Consistency training和Router training用了多少数据量?
论文中提到Consistency training复用了SFT的数据,请问是完全一致的数据量吗?还是挑选了部分子集呢?
同理,Router training具体使用了多少呢?