TaiSu-data
TaiSu-data
有提供文本文件。请看readme.
似乎你是在问如何爬取文本,我们只提供了根据图片链接下载图片的脚本。没有提供爬取图片链接和文本的脚本。 太素的全部数据都可以直接通过网盘下载,不需要自己爬取。
> 请问除了百度云有其他的脚本下载方式吗,我这边 bypy 的连接非常不稳定 暂时没有。
> 有个图文相似性的问题请教下: 1.看到论文里会用OFA large获取caption,再通过机器翻译转成中文,最后再去做图文相似性过滤,不知道这个流程我理解的是否有问题 2.生成caption是自回归的过程吗,这样效率会是瓶颈吗,毕竟自回归太慢了,出的token数越多,循环次数越多 是自回归的。目前做image capitioning 主要的方法就是自回归模型。确实需要比较多的计算资源。
你好, caption 文本应该包含一亿多行, 有的行包含两个文本。 图片数据可能在不同文件夹有重复, 以及有一部分图片是没有文本标注的,建议用caption id 来获取对应图片。
提供的压缩文件有 .tar, .tgz, .tar.gz几种格式。解压命令是不一样的。您可以查一下解压命令。可以用pigz -d baidu*.tgz 将.tgt文件转成tar, 然后统一解压缩.tar文件。
> > 我在解压image11和12的时候,用如下命令,pigz -d baidu_image11.tgz,会提示我 pigz: skipping: baidu_image11.tgz: corrupted -- crc32 mismatch 这可能是下载文件出错了。
I am affraid that it's too costly to keep all the data on google drive. Currently, you can first try to download it from baidu disk . And we will...