Chinese-CLIP
Chinese-CLIP copied to clipboard
使用build_lmdb_dataset.py脚本转换lmdb文件的问题
我在使用build_lmdb_dataset.py时发生了如下报错
Traceback (most recent call last):
File "...\cn_clip\preprocess\build_lmdb_dataset.py", line 50, in
我搜到的是因为map_size开太大,超过硬盘容量,但是我也不知道多大的容量合适,才不会影响数据的处理
#1024**4大概是1TB,1024**3是1GB,可以根据数据集大小调整这个的大小
可能是磁盘总空间不到1TB不能用1024**4,我是用了map_size=9000000000,这个问题就没再出现了。这个数不行的话可以尝试往小一点设置
我也是一模一样的错误,我将map_size改动后,即改动成了我当前路径的存储磁盘所支持的大小,但是发现它依然会提出同样的错误,而且生成的lmdb文件会精准的占掉我所设置的硬盘大小,比如我设置为30*1024**3,就是30GB,它生成的lmdb文件夹里面的test文件会直接占掉30GB,然后处理到train的时候还是会报错,我就很迷惑,这算什么回事?
我也是一模一样的错误,我将map_size改动后,即改动成了我当前路径的存储磁盘所支持的大小,但是发现它依然会提出同样的错误,而且生成的lmdb文件会精准的占掉我所设置的硬盘大小,比如我设置为30*1024**3,就是30GB,它生成的lmdb文件夹里面的test文件会直接占掉30GB,然后处理到train的时候还是会报错,我就很迷惑,这算什么回事?
我也是一模一样的错误,我将map_size改动后,即改动成了我当前路径的存储磁盘所支持的大小,但是发现它依然会提出同样的错误,而且生成的lmdb文件会精准的占掉我所设置的硬盘大小,比如我设置为30*1024**3,就是30GB,它生成的lmdb文件夹里面的test文件会直接占掉30GB,然后处理到train的时候还是会报错,我就很迷惑,这算什么回事?
首先,这个设置大小,类似申请空间放置数据,就是申请多少就占用多少,然后train还报错,可能是数据集太大,也可能是没有那么多空间了。
谢谢各位的解答,后来我把mapsize调成2GB就好了。然后随着数据集的增大,有时候mapsize开小了,他并不会报错,依然能按照流程跑完图文检索,但是答案似乎会不正确,继续调大mapsize就又好了,希望也能帮到各位。
我的原始数据为1.56G,利用build_lmdb_dataset.py脚本在windows系统下转换时我开辟一个2T的空间也会被占满,但是我在linux系统下生成的lmdb文件也只有3G大小。请问这是为什么?
我的原始数据为1.56G,利用build_lmdb_dataset.py脚本在windows系统下转换时我开辟一个2T的空间也会被占满,但是我在linux系统下生成的lmdb文件也只有3G大小。请问这是为什么?
是的,非常的奇妙,果真是对windows不那么友好呢,我在windows上怎么更改设置都不行,总是会发出一样的错误,但是一转到Ubuntu系统上运行就完全没有任何问题,非常不解。
为什么我生成的train文件夹里的lmdb和valid文件夹里的lmdb文件内存都一样大哇
并且报错,这是为啥呢
并且报错,这是为啥呢
可以试着看一下数据集,是不是他推荐的格式。
为什么我生成的train文件夹里的lmdb和valid文件夹里的lmdb文件内存都一样大哇
调整代码里面数据库的大小,然后根据这个参数,先生成大的train,调小占用空间,再生成valid、和test。
为什么我生成的train文件夹里的lmdb和valid文件夹里的lmdb文件内存都一样大哇
调整代码里面数据库的大小,然后根据这个参数,先生成大的train,调小占用空间,再生成valid、和test。
谢谢您的建议,我在自己的数据集上已经跑通了,还想请教您一个问题。就是这个项目得到的图文特征后可以做image caption吗,就是对图片生成一段图片描述 再次感谢您