vega icon indicating copy to clipboard operation
vega copied to clipboard

spnas: FileNotFoundError: 'workers/serial/1/model_1.pth'

Open sisrfeng opened this issue 4 years ago • 24 comments

hi, I'm running:
vega ~/v/examples/nas/sp_nas/wf_spnas.yml --modify --batch_size 2 but during each experiment, I got: FileNotFoundError: [Errno 2] 没有那个文件或目录: '/data/wf/e/tasks/12_17日13时29分_11月/workers/serial/1/model_1.pth'
How to fix it?

Thx!

image

image

sisrfeng avatar Dec 05 '21 04:12 sisrfeng

Please provide complete log. @sisrfeng

Lzc06 avatar Dec 06 '21 02:12 Lzc06

请问这个错误是因为imageNet数据集的结构不对吗? image

数据集从这里下载的: https://www.kaggle.com/c/imagenet-object-localization-challenge/data?select=imagenet_object_localization_patched2019.tar.gz image

结构: image image

image

image

(如果val下不多建一级val, 会报错, 说找不到图片啥的)

这几个文件, 除了pipeline.log, 都是空的 image

sisrfeng avatar Mar 06 '22 04:03 sisrfeng

@sisrfeng 这是没有找到serial阶段生成的模型,你看下这个目录下有没有model_1.pth,另外,为什么你的task目录下的子目录名称是中文?时区有关? image

dawncc avatar Mar 09 '22 01:03 dawncc

这个问题解决了, FileNotFoundError: [Errno 2] 没有那个文件或目录: '/data/wf/e/tasks/12_17日13时29分_11月/workers/serial/1/model_1.pth'

没记错的话, 解决方法是: 在val下多建一级val, image

现在能找到serial下的model1.pth等 image

中文目录: 这是因为我改过conda环境里的源码, ( 原来的日期, 一堆数字, 不好辨认)

sisrfeng avatar Mar 12 '22 13:03 sisrfeng

现在这个问题怎么搞呢? image

sisrfeng avatar Mar 12 '22 13:03 sisrfeng

现在这个问题怎么搞呢? image

由于torchvision版本更新的原因,最新版本的torchvision中的fasterRCNN需要手动转换下roi_pooler,如果你的torchvision版本较低,可以删除 vega.networks.faster_rcnn下的如下部分,使用 super(FasterRCNN, self).__init__(backbone_neck, num_classes, **kwargs)即可: image

dawncc avatar Mar 14 '22 01:03 dawncc

谢谢! 请问这里的prerequirement, 没指定版本的话, 最好是安装最新的stable版嘛? (我的ubuntu是20.04) image

sisrfeng avatar Mar 14 '22 01:03 sisrfeng

不需要。20.04没问题的。 @sisrfeng

zhangjiajin avatar Mar 14 '22 10:03 zhangjiajin

我用python3.9.7 装的是最新的stable版: conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

无论是否修改这里: anaconda3/envs/py39_torch111/lib/python3.9/site-packages/vega/networks/faster_rcnn.py

image

都是一样的错误.

image

请问怎么解决呢?

sisrfeng avatar Mar 19 '22 08:03 sisrfeng

我用的是torch==1.8.0, torchvision==0.9.0,直接用vega的代码,没有做修改。

dawncc avatar Mar 21 '22 02:03 dawncc

conda create --name py39_torch1_8_0 python==3.9

conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=11.1 -c pytorch -c conda-forge

没改vega代码, 还是出错: image

跟ImageNet的目录结构有关吗?

请问这个错误是因为imageNet数据集的结构不对吗? image

数据集从这里下载的: https://www.kaggle.com/c/imagenet-object-localization-challenge/data?select=imagenet_object_localization_patched2019.tar.gz image

结构: image image

image

image

(如果val下不多建一级val, 会报错, 说找不到图片啥的)

这几个文件, 除了pipeline.log, 都是空的 image

sisrfeng avatar Mar 23 '22 01:03 sisrfeng

这是检测网络,用的数据集是COCO2017:https://cocodataset.org/#download vega暂不支持VOC格式的数据集。 第三阶段用ImageNet数据集做重燃,防止backbone的精度丢失过大,用标准的ImagneNet数据集:https://image-net.org/challenges/LSVRC/index.php

dawncc avatar Mar 23 '22 03:03 dawncc

谢谢~

  1. 我用的确实是coco2017, 之前跑过CenterNet等模型, 没有出现问题
  2. ImageNet现在应该是把数据放到Kaggle托管了, 我从ImageNet官网的链接跳过去的. 下载的文件, 有val和train目录. train目录下还有目录, val下却没有再分目录, 所有图片混在一起. 应该是这原因 导致了下面这个问题: FileNotFoundError: [Errno 2] 没有那个文件或目录: '/data/wf/e/tasks/12_17日13时29分_11月/workers/serial/1/model_1.pth'

我的解决方法是: 在val下多建一级val 请问你们在实验时, 有这么处理吗?

关于这个错误: image

我找到的线索: image image image

但还是不知道怎么解决, 可以再帮忙看看吗?

sisrfeng avatar Mar 25 '22 03:03 sisrfeng

我们的imagenet数据集下分了val和val_unsorted两个目录,结构如下: val/n01797xxx/xxx.jpeg, val_unsorted/val/xxx.jpeg. 至于你的错误,我们还未重现过,你方便的话可以把日志级别调成debug级别,然后把pipeline.log发给我们。 调整日志级别,修改yml配置:

general:
     logger:
          level: debug

dawncc avatar Mar 25 '22 07:03 dawncc

好的, 我重新跑一下.

val/n01797xxx/xxx.jpeg 这是从ImageNet官网下载后, 根据gt自己划分的吗?

sisrfeng avatar Mar 25 '22 14:03 sisrfeng

再请教下log的问题:

log的level还没到debug, 就已经这么多记录了:

image 你们是怎么从中找到有用的信息的呢?

训练时每次迭代的记录太多了, 没有缩进, 不能在vim或者vscode里按缩进折叠, 太难翻了.

sisrfeng avatar Mar 25 '22 14:03 sisrfeng

kaggle上得imagenet数据集是简化版的,日志级别调整到debug以后会异常栈打印出来。另外我们会根据日志信息看下训练过程是否有问题。

dawncc avatar Mar 26 '22 01:03 dawncc

@sisrfeng 在 tasks/<task id>/logs/ 目录下会有日志,把日志打包作为附件提供一下。

zhangjiajin avatar Mar 28 '22 07:03 zhangjiajin

tasks/目录: tmp_at_home.zip 还是到了parallel阶段报错:Tuple啥的

我把官方的yml文件的一些参数改小了, (不然太慢了:) 1648464486(1)

sisrfeng avatar Mar 28 '22 10:03 sisrfeng

从日志上看是parallel报错了,可能原因是serial阶段搜索出来的网络输出的特征图和parallel阶段对不上,我找人定位解决一下这个问题。

dawncc avatar Mar 28 '22 11:03 dawncc

@sisrfeng 你的配置文件要修改一下,parallel阶段的searchspace定义应该为[0,1,2,3],这是一个长度为4的数组,对应的是fasterRcnn的4个特征图。搜索算法会打断其顺序和组合,但是总长度不变。 image

dawncc avatar Mar 29 '22 11:03 dawncc

求助~ 用回官方的spnas.yml后, 遇到新问题: vega version: release 1.8.2

pipeline.log fine_tune_worker_0.log

sisrfeng avatar May 26 '22 14:05 sisrfeng

这个和python的版本有关,可先考虑使用python3.7。 这个问题我们计划在本周内解决。 @sisrfeng

zhangjiajin avatar May 27 '22 02:05 zhangjiajin

已修改并合入到: https://github.com/huawei-noah/vega/pull/233

请使用最新的版本。

@sisrfeng

zhangjiajin avatar May 30 '22 07:05 zhangjiajin