TaiSu-data comments

Results 8 comments of


                                            TaiSu-data

How to capture the caption of images

有提供文本文件。请看readme.

How to capture the caption of images

似乎你是在问如何爬取文本，我们只提供了根据图片链接下载图片的脚本。没有提供爬取图片链接和文本的脚本。太素的全部数据都可以直接通过网盘下载，不需要自己爬取。

How to capture the caption of images

> 请问除了百度云有其他的脚本下载方式吗，我这边 bypy 的连接非常不稳定暂时没有。

How to capture the caption of images

> 有个图文相似性的问题请教下： 1.看到论文里会用OFA large获取caption，再通过机器翻译转成中文，最后再去做图文相似性过滤，不知道这个流程我理解的是否有问题 2.生成caption是自回归的过程吗，这样效率会是瓶颈吗，毕竟自回归太慢了，出的token数越多，循环次数越多是自回归的。目前做image capitioning 主要的方法就是自回归模型。确实需要比较多的计算资源。

Caption数量和图片数量不匹配

你好， caption 文本应该包含一亿多行，有的行包含两个文本。图片数据可能在不同文件夹有重复，以及有一部分图片是没有文本标注的，建议用caption id 来获取对应图片。

数据集解压问题

提供的压缩文件有 .tar, .tgz, .tar.gz几种格式。解压命令是不一样的。您可以查一下解压命令。可以用pigz -d baidu*.tgz 将.tgt文件转成tar, 然后统一解压缩.tar文件。

数据集解压问题

> > 我在解压image11和12的时候，用如下命令，pigz -d baidu_image11.tgz，会提示我 pigz: skipping: baidu_image11.tgz: corrupted -- crc32 mismatch 这可能是下载文件出错了。

Can you provide a link of Google Drive? Many Thanks

I am affraid that it's too costly to keep all the data on google drive. Currently, you can first try to download it from baidu disk . And we will...