TaiSu icon indicating copy to clipboard operation
TaiSu copied to clipboard

TaiSu(太素)--a large-scale Chinese multimodal dataset(亿级大规模中文视觉语言预训练数据集)

Results 11 TaiSu issues
Sort by recently updated
recently updated
newest added

我是否可以通过download.py自己下载对应的图片,原始的url是否可以共享一下

你好,感谢贡献TaiSu数据集。 现在希望能想下载该数据集,已经通过邮件提交了申请,但一直没有答复,可以帮忙通过一下申请吗,万分感谢

你好,感谢贡献TaiSu数据集。 在数据下载目录中,filtered_caption.txt中caption的数量大约是14M,共计有37个压缩文件,看了下文件中都是图片,图片数量远远大于caption数量。 这个是为什么呢?

代码中只有下载图片相关的代码,请问图片对应的caption 是怎么获取的?

$ tar xvf baidu_image10.tgz tar: This does not look like a tar archive tar: Skipping to next header tar: Archive contains ‘\356S\305>\003\376\272\022\212\222\240\251’ where numeric off_t value expected 目前解压了三个tgz文件都是报这个错误,请问是数据问题还是我的解压方式有问题呢

Can you teach me how to save a dataset as an LMDB database? I saw that you used two LMDB databases, one for images and one for text, to load...

你好你好,我是北京语言大学的一名对compute vision十分感兴趣的本科生。最近有一个想做一个图片检索的mini project,关注到了你们的项目。不知道能不能得到完整数据集的下载链接,十分感谢!已发邮件,我的邮箱是[email protected]