CogCoM 请问有关数据集是开源的吗？

我注意到了你们开创性的工作，我想知道你们的 synthesized CoM data是开源的吗？

Feb 27 '24 14:02 The-kamisato-Sii

我注意到了你们开创性的工作，我想知道你们的 synthesized CoM data是开源的吗？

Hi, 感谢对我们工作的认可。由于该工作是在公司实习期间完成，我们正在协调对于数据的开源。此外，我们在开源代码中给出了完整可复现的数据生成方法（见data/），包括数据预处理、文本推理步骤生成、视觉内容标注、CoM遍历及合成，给定任意包含图像的VQA数据源，可以很方便的构造大量的CoM推理链数据。

Feb 28 '24 18:02 qijimrc

我注意到了你们开创性的工作，我想知道你们的 synthesized CoM data是开源的吗？

Hi, 感谢对我们工作的认可。由于该工作是在公司实习期间完成，我们正在协调对于数据的开源。此外，我们在开源代码中给出了完整可复现的数据生成方法（见data/），包括数据预处理、文本推理步骤生成、视觉内容标注、CoM遍历及合成，给定任意包含图像的VQA数据源，可以很方便的构造大量的CoM推理链数据。

hi,我注意到论文中的com data数量在70k,剩余约500K数据是instruct dataset,请问这个数据我可以从哪里获取？是否是由公开数据集进一步清洗后得到？ @qijimrc

Apr 16 '24 11:04 terryII

@terryII Hi Terry, 我们在论文Sec. 2.3.2第二节中介绍了570K CoM数据的构成，其中：分别对应三种能力（instruction-following、texts-recognition和detailed-captioning）的公开数据集MultiInstruct，LLaVAR和ShareGPT4V构成了剩余的500K的数据。

Apr 17 '24 03:04 qijimrc

@terryII Hi Terry, 我们在论文Sec. 2.3.2第二节中介绍了570K CoM数据的构成，其中：分别对应三种能力（instruction-following、texts-recognition和detailed-captioning）的公开数据集MultiInstruct，LLaVAR和ShareGPT4V构成了剩余的500K的数据。

好的感谢！

Apr 17 '24 03:04 terryII

hi,我尝试用公开数据集MultiInstruct，LLaVAR和ShareGPT4V来构建500K数据集时发现每个公开数据集的任务种类繁多，并且每个数据集的体量都大于500K，每种数据集三种能力较难抽取，请问采用什么原则才能快速的抽取出500K数据呢？或者能否开源这部分数据集？ @qijimrc

May 09 '24 09:05 terryII

Hi @terryII , 为了保证数据质量，我们用的数据构成是这样的：16K high-quality instruction-following data from LLAVAR； 100K high-quality captions data from ShareGPT4V; 380K instruction-following data from MultiInstruct; 70K CoM data. 其中，我们对MultiInstruct原本的数据进行了部分删减和改变（将短answer的样本增加“give me a concise answer”instruction）。这部分数据会在近期全部开源。

May 10 '24 07:05 qijimrc