gyr-kdgc

Results 5 comments of gyr-kdgc

只要把自己的数据集转换为coco格式的数据集就能够使用了,这个问题已经解决了,但是运行的时候,在reignition阶段会报错:model statics failed, ex=conv2d(): argument 'input' (position 1) must be Tensor, not list;yml文件内容如下: `pipeline: [fine_tune, serial, reignition, parallel, fullytrain] fine_tune: pipe_step: type: TrainPipeStep model: pretrained_model_file: /home/nas/pretrain/fasterrcnn_resnet50_fpn_coco-258fb6c6.pth model_desc: type: FasterRCNN convert_pretrained:...

换成imagenet数据集后,可以完整运行了,目前的疑问是serial阶段的搜索空间['111-2111-211111-211']和parallel阶段的搜索空间[[0, 1, 2, 3]]分别代表什么意思?如果自定义的话应该怎么去设置?

请问你这个问题解决了吗?我也遇到了相同的问题,卡住不动了,gpu利用率也是0,并没有开始训练

> 请问你这个问题解决了吗?我也遇到了相同的问题,卡住不动了,gpu利用率也是0,并没有开始训练 2023-10-12 07:03:18.989342: I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.cc:365] Started server with target: grpc://localhost:49295 INFO:tensorflow:BROADCAST_0_broadcast_pool tensors: 217 tensors (tf.int64_ref, tf.float64_ref): 358.61 MB and 0 dynamic-shaped tensors INFO:tensorflow:BROADCAST_0_broadcast_pool group (1/15): 62 tensors (tf.float64_ref): 31.02...

问题已解决,记录一下,在script中的.sh脚本命令前面加上NCCL_DEBUG=INFO,发现是nccl通信连接超时,看了日志中的网卡名称和ifconfig中查看的网卡名称是一样的。后来在script中的.sh脚本命令前面加上NCCL_SOCKET_IFNAME=ens192来指定网卡,就可以正常运行了。