Miracle
Miracle
> 我注意到了你们开创性的工作,我想知道你们的 synthesized CoM data是开源的吗? Hi, 感谢对我们工作的认可。由于该工作是在公司实习期间完成,我们正在协调对于数据的开源。此外,我们在开源代码中给出了完整可复现的数据生成方法(见`data/`),包括`数据预处理`、`文本推理步骤生成`、`视觉内容标注`、`CoM遍历及合成`,给定任意包含图像的VQA数据源,可以很方便的构造大量的CoM推理链数据。
@terryII Hi Terry, 我们在论文Sec. 2.3.2第二节中介绍了570K CoM数据的构成,其中:分别对应三种能力(instruction-following、texts-recognition和detailed-captioning)的公开数据集`MultiInstruct`,`LLaVAR`和`ShareGPT4V`构成了剩余的500K的数据。
Hi @terryII , 为了保证数据质量,我们用的数据构成是这样的:16K high-quality instruction-following data from LLAVAR; 100K high-quality captions data from ShareGPT4V; 380K instruction-following data from MultiInstruct; 70K CoM data. 其中,我们对MultiInstruct原本的数据进行了部分删减和改变(将短answer的样本增加“give me a concise answer”instruction)。这部分数据会在近期全部开源。
> Excuse me, but when the model inference on 1 * RTX4090, running `python cli_demo_sat.py --from_pretrained cogcom-base-17b --local_tokenizer tokenizer --english --quant 4`, the output will be CUDA out of memory....
我们早期对比了ChatGLM-3和GPT4,实验发现后者效果更好。不过目前针对Question描述比较清楚的VQA数据,我们认为可以使用GLM4生成文本推理步骤。
> 我注意到在`cogcom/data/tools/gpt4.py`中调用的模型api为`gpt-3.5-turbo`而不是gpt4,考虑到api的费用问题,是不是可以用gpt-3.5-turbo生成的com数据就能达到较为理想的效果? @qijimrc Hi terry, 针对问题描述较为清楚的VQA数据,采用gpt-3.5-turbo也能获得较多的positive chains(我们测试GPT4生成positive chains的占比在35%左右,可以作为对比)。
> Thanks for the great work! I am concern about the computation cost. CogCom will result in how much increase in training costs and inference time? Hi, thanks for your...
@sleepyshep Hi,感谢你对我们工作的关注和认可。在CoM训练数据构造阶段,我们基于GroundingDINO来识别manipulation指定的object的多个boxes;在模型推理阶段,我们直接让CogCoM输出指定object的多个boxes,以[[x1,y1,x2,y2],[x1,y1,x2,y2]]的形式表示(如果该object存在多个框且模型输出正确)。 如果输出遗漏了boxes,可能是CogCoM识别失败导致,方便的话可以share一下你的case我进行测试。
Hi,感谢关注。我们目前暂时没有中文的版本,在未来可能会标注更难的视觉推理类问题并支持中文。
> 由于显卡限制,4张2080Ti 自己部署的Int4,但是效果不是很理想,什么时候能够提供Demo验证~ Hi, 感谢对我们工作的关注!提供Web demo会第一时间在README通知。