cc
cc
@sisrfeng 这是没有找到serial阶段生成的模型,你看下这个目录下有没有model_1.pth,另外,为什么你的task目录下的子目录名称是中文?时区有关? 
> 现在这个问题怎么搞呢?  由于torchvision版本更新的原因,最新版本的torchvision中的fasterRCNN需要手动转换下`roi_pooler`,如果你的torchvision版本较低,可以删除 `vega.networks.faster_rcnn`下的如下部分,使用` super(FasterRCNN, self).__init__(backbone_neck, num_classes, **kwargs)`即可: 
我用的是`torch==1.8.0`, `torchvision==0.9.0`,直接用vega的代码,没有做修改。
这是检测网络,用的数据集是COCO2017:https://cocodataset.org/#download vega暂不支持VOC格式的数据集。 第三阶段用ImageNet数据集做重燃,防止backbone的精度丢失过大,用标准的ImagneNet数据集:https://image-net.org/challenges/LSVRC/index.php
我们的imagenet数据集下分了val和val_unsorted两个目录,结构如下: `val/n01797xxx/xxx.jpeg`, `val_unsorted/val/xxx.jpeg`. 至于你的错误,我们还未重现过,你方便的话可以把日志级别调成debug级别,然后把pipeline.log发给我们。 调整日志级别,修改yml配置: ```yaml general: logger: level: debug ```
kaggle上得imagenet数据集是简化版的,日志级别调整到debug以后会异常栈打印出来。另外我们会根据日志信息看下训练过程是否有问题。
从日志上看是parallel报错了,可能原因是serial阶段搜索出来的网络输出的特征图和parallel阶段对不上,我找人定位解决一下这个问题。
@sisrfeng 你的配置文件要修改一下,parallel阶段的searchspace定义应该为`[0,1,2,3]`,这是一个长度为4的数组,对应的是fasterRcnn的4个特征图。搜索算法会打断其顺序和组合,但是总长度不变。 
serial阶段的搜索空间['111-2111-211111-211']中,表示backbone有[3, 4, 6, 3]个block,-表示下采样的位置,2表示channels *2。 parallel的[[0, 1, 2, 3]]是FPN的每个特征层融合包含的layer的数量,里面的值是[0,3]之间随机的,比如[0,3,0,1]这样都行。