请问有关数据集是开源的吗?
我注意到了你们开创性的工作,我想知道你们的 synthesized CoM data是开源的吗?
我注意到了你们开创性的工作,我想知道你们的 synthesized CoM data是开源的吗?
Hi, 感谢对我们工作的认可。由于该工作是在公司实习期间完成,我们正在协调对于数据的开源。此外,我们在开源代码中给出了完整可复现的数据生成方法(见data/),包括数据预处理、文本推理步骤生成、视觉内容标注、CoM遍历及合成,给定任意包含图像的VQA数据源,可以很方便的构造大量的CoM推理链数据。
我注意到了你们开创性的工作,我想知道你们的 synthesized CoM data是开源的吗?
Hi, 感谢对我们工作的认可。由于该工作是在公司实习期间完成,我们正在协调对于数据的开源。此外,我们在开源代码中给出了完整可复现的数据生成方法(见
data/),包括数据预处理、文本推理步骤生成、视觉内容标注、CoM遍历及合成,给定任意包含图像的VQA数据源,可以很方便的构造大量的CoM推理链数据。
hi,我注意到论文中的com data数量在70k,剩余约500K数据是instruct dataset,请问这个数据我可以从哪里获取?是否是由公开数据集进一步清洗后得到? @qijimrc
@terryII Hi Terry, 我们在论文Sec. 2.3.2第二节中介绍了570K CoM数据的构成,其中:分别对应三种能力(instruction-following、texts-recognition和detailed-captioning)的公开数据集MultiInstruct,LLaVAR和ShareGPT4V构成了剩余的500K的数据。
@terryII Hi Terry, 我们在论文Sec. 2.3.2第二节中介绍了570K CoM数据的构成,其中:分别对应三种能力(instruction-following、texts-recognition和detailed-captioning)的公开数据集
MultiInstruct,LLaVAR和ShareGPT4V构成了剩余的500K的数据。
好的 感谢!
hi,我尝试用公开数据集MultiInstruct,LLaVAR和ShareGPT4V来构建500K数据集时发现每个公开数据集的任务种类繁多,并且每个数据集的体量都大于500K,每种数据集三种能力较难抽取,请问采用什么原则才能快速的抽取出500K数据呢?或者能否开源这部分数据集? @qijimrc
Hi @terryII , 为了保证数据质量,我们用的数据构成是这样的:16K high-quality instruction-following data from LLAVAR; 100K high-quality captions data from ShareGPT4V; 380K instruction-following data from MultiInstruct; 70K CoM data. 其中,我们对MultiInstruct原本的数据进行了部分删减和改变(将短answer的样本增加“give me a concise answer”instruction)。这部分数据会在近期全部开源。