MingsYang
MingsYang
@cyanic-selkie could you explain how you fixed it? I met the same error in loading other datasets, is it due to the version of the library enviroment?
@cyanic-selkie Emm, I get it. I just tried to use a new version python enviroment, and it show no errors anymore.
有个图文相似性的问题请教下: 1.看到论文里会用OFA large获取caption,再通过机器翻译转成中文,最后再去做图文相似性过滤,不知道这个流程我理解的是否有问题 2.生成caption是自回归的过程吗,这样效率会是瓶颈吗,毕竟自回归太慢了,出的token数越多,循环次数越多
> > 有个图文相似性的问题请教下: 1.看到论文里会用OFA large获取caption,再通过机器翻译转成中文,最后再去做图文相似性过滤,不知道这个流程我理解的是否有问题 2.生成caption是自回归的过程吗,这样效率会是瓶颈吗,毕竟自回归太慢了,出的token数越多,循环次数越多 > > 是自回归的。目前做image capitioning 主要的方法就是自回归模型。确实需要比较多的计算资源。 那过滤这么多数据大概用了多少计算资源和时间啊,方便告知吗,另外有尝试过非自回归的过滤方法吗,比如用多模态大语言模型走teacher forcing的方式走前向输出,根据loss划阈值过滤
> > 请问除了百度云有其他的脚本下载方式吗,我这边 bypy 的连接非常不稳定 > > 暂时没有。 @ksOAn6g5 @aries-young 请问下用bypy下载的正常速度是多少啊,我这边开了会员下载还只有1.x M/s,这数据量不知道要下到什么时候去