RT-DETR
RT-DETR copied to clipboard
Collection of questions/discussions/usage
Star this repo, keep following news
finetune doc
- https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetr_paddle#finetune
discussions
- https://github.com/PaddlePaddle/PaddleDetection/issues/8402
- https://github.com/PaddlePaddle/PaddleDetection/issues/8293
- https://github.com/PaddlePaddle/PaddleDetection/issues/8431
- https://github.com/PaddlePaddle/PaddleDetection/issues/8430
- https://github.com/PaddlePaddle/PaddleDetection/issues/8380
- https://github.com/PaddlePaddle/PaddleDetection/issues/8379
- https://github.com/lyuwenyu/RT-DETR/issues/3
- https://github.com/lyuwenyu/RT-DETR/issues/13
- https://github.com/lyuwenyu/RT-DETR/issues/12
- https://github.com/lyuwenyu/RT-DETR/issues/16
- https://github.com/lyuwenyu/RT-DETR/issues/18
- https://github.com/lyuwenyu/RT-DETR/issues/23
- https://github.com/lyuwenyu/RT-DETR/issues/30
- https://github.com/lyuwenyu/RT-DETR/issues/33
- https://github.com/lyuwenyu/RT-DETR/issues/36
- https://github.com/PaddlePaddle/PaddleDetection/issues/8286
- https://github.com/PaddlePaddle/PaddleDetection/issues/8283
- https://github.com/PaddlePaddle/PaddleDetection/issues/8248
- https://github.com/PaddlePaddle/PaddleDetection/issues/8400
- https://github.com/PaddlePaddle/PaddleDetection/issues/8548
大佬,您好。RT-DETR集成了不少技术,可否啥时候开个讲座哇,去年你们在detection方面讲座挺多的,今年感觉较少。 先前走实时探测路线的同学,应该很多也知道DETR,但都觉得时效性一时半会解决不了,所以我相信像我这种对很多细节是不了解的,都是重新复习+进一步学习来对待RT-DETR 。 也可以讲讲你们的经历故事(很是好奇,毕竟工业界好多人都放弃花时间在这方面的努力了),也可以讲讲未来Detection的发展预期,也可以讲讲DETR,deformable DETR, DAB-DETR,DN-DETR,DINO-DETR之类的。 十分期待!!!
大佬,您好。RT-DETR集成了不少技术,可否啥时候开个讲座哇,去年你们在detection方面讲座挺多的,今年感觉较少。 先前走实时探测路线的同学,应该很多也知道DETR,但都觉得时效性一时半会解决不了,所以我相信像我这种对很多细节是不了解的,都是重新复习+进一步学习来对待RT-DETR 。 也可以讲讲你们的经历故事(很是好奇,毕竟工业界好多人都放弃花时间在这方面的努力了),也可以讲讲未来Detection的发展预期,也可以讲讲DETR,deformable DETR, DAB-DETR,DN-DETR,DINO-DETR之类的。 十分期待!!!
@sdreamforchen
可以的,看看有多少同学需要 可以组织一下 聊一聊我们这个工作的动机 以及背后的一些优化的细节和思考
好的好的。我在detection群里吆喝一声
---原始邮件--- 发件人: @.> 发送时间: 2023年6月29日(周四) 下午4:14 收件人: @.>; 抄送: @.@.>; 主题: Re: [lyuwenyu/RT-DETR] 关于RT-DETR相关问题/讨论/使用可留言 (Issue #1)
可以的,看看有多少同学需要 可以组织一下 聊一聊我们这个工作的动机 以及背后的一些优化的细节和思考
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>
大佬,请问什么时候更新pytorch版的rt-detr?
大佬,请问什么时候更新pytorch版的rt-detr?
paddle版的训练也不麻烦 推理的话可以转onnx也很方便 我近期再精简下代码 方便大家看; torch版本的着急的话可以先用第三方那个,我贴链接了
期待大佬的讲座以及pytorch版本的re-detr,主要想试一试pytorch版的ssld_v2预训练模型。
大佬,您好。RT-DETR集成了不少技术,可否啥时候开个讲座哇,去年你们在detection方面讲座挺多的,今年感觉较少。 先前走实时探测路线的同学,应该很多也知道DETR,但都觉得时效性一时半会解决不了,所以我相信像我这种对很多细节是不了解的,都是重新复习+进一步学习来对待RT-DETR 。 也可以讲讲你们的经历故事(很是好奇,毕竟工业界好多人都放弃花时间在这方面的努力了),也可以讲讲未来Detection的发展预期,也可以讲讲DETR,deformable DETR, DAB-DETR,DN-DETR,DINO-DETR之类的。 十分期待!!!
@sdreamforchen 可以的,看看有多少同学需要 可以组织一下 聊一聊我们这个工作的动机 以及背后的一些优化的细节和思考
大佬,这个事情已经在办了。说到时候和paddleX新版本一个时间段举办,您看可以不呢? 毕竟我们不是同一个单位,有些事情蛮简单,但是我也使不上全力。 望理解,抱歉抱歉抱歉!十分的歉意!
用resnet18,backbone 深度不变,宽度变为0.5;其余设置如下 HybridEncoder: hidden_dim: 192 use_encoder_idx: [2] num_encoder_layers: 1 encoder_layer: name: TransformerLayer d_model: 192 nhead: 8 dim_feedforward: 512 dropout: 0. activation: 'gelu' expansion: 0.5 depth_mult: 0.67
学习率为0.0005
最终精度可以达到38%(精度自我认为比较正常,算比较好),但是训练到120epoch后就有点不稳定了,精度为35.9%,后续精度波动在10个点以上. 第一次训练是采用的0.001,当时是几十个epoch后就开始不稳定了。 我应该继续再调小点学习率吗(目标:训练N/T级别的网络)
用resnet18,backbone 深度不变,宽度变为0.5;其余设置如下 HybridEncoder: hidden_dim: 192 use_encoder_idx: [2] num_encoder_layers: 1 encoder_layer: name: TransformerLayer d_model: 192 nhead: 8 dim_feedforward: 512 dropout: 0. activation: 'gelu' expansion: 0.5 depth_mult: 0.67
学习率为0.0005
最终精度可以达到38%(精度自我认为比较正常,算比较好),但是训练到120epoch后就有点不稳定了,精度为35.9%,后续精度波动在10个点以上. 第一次训练是采用的0.001,当时是几十个epoch后就开始不稳定了。 我应该继续再调小点学习率吗(目标:训练N/T级别的网络)
是加载coco预训练的嘛 ? 可以调小lr试一下,或者把backbone的lr_nulti调小
期待大佬的讲座以及pytorch版本的re-detr,主要想试一试pytorch版的ssld_v2预训练模型。
@ocrhei
是需要resnet的预训练嘛,torch的bakcbone我先上传了一版本 https://github.com/lyuwenyu/RT-DETR/blob/main/rtdetr_pytorch/src/resnet.py
- ResNet101_vd_ssld_pretrained_from_paddle.pth 提取码: 5x6q
- ResNet50_vd_ssld_v2_pretrained_from_paddle.pth 提取码: 6eip
- ResNet34_vd_pretrained_from_paddle.pth 提取码: 84pe
- ResNet18_vd_pretrained_from_paddle.pth 提取码: mg64
没有现成的预训练,毕竟整个都缩放了的
---原始邮件--- 发件人: @.> 发送时间: 2023年7月3日(周一) 上午9:24 收件人: @.>; 抄送: @.@.>; 主题: Re: [lyuwenyu/RT-DETR] 关于RT-DETR相关问题/讨论/使用可留言 (Issue #1)
用resnet18,backbone 深度不变,宽度变为0.5;其余设置如下 HybridEncoder: hidden_dim: 192 use_encoder_idx: [2] num_encoder_layers: 1 encoder_layer: name: TransformerLayer d_model: 192 nhead: 8 dim_feedforward: 512 dropout: 0. activation: 'gelu' expansion: 0.5 depth_mult: 0.67
学习率为0.0005
最终精度可以达到38%(精度自我认为比较正常,算比较好),但是训练到120epoch后就有点不稳定了,精度为35.9%,后续精度波动在10个点以上. 第一次训练是采用的0.001,当时是几十个epoch后就开始不稳定了。 我应该继续再调小点学习率吗(目标:训练N/T级别的网络)
是加载coco预训练的嘛 ? 可以调小lr试一下,或者把backbone的lr_nulti调小
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>
没有现成的预训练,毕竟整个都缩放了的 … ---原始邮件--- 发件人: @.> 发送时间: 2023年7月3日(周一) 上午9:24 收件人: @.>; 抄送: @.@.>; 主题: Re: [lyuwenyu/RT-DETR] 关于RT-DETR相关问题/讨论/使用可留言 (Issue #1) 用resnet18,backbone 深度不变,宽度变为0.5;其余设置如下 HybridEncoder: hidden_dim: 192 use_encoder_idx: [2] num_encoder_layers: 1 encoder_layer: name: TransformerLayer d_model: 192 nhead: 8 dim_feedforward: 512 dropout: 0. activation: 'gelu' expansion: 0.5 depth_mult: 0.67 学习率为0.0005 最终精度可以达到38%(精度自我认为比较正常,算比较好),但是训练到120epoch后就有点不稳定了,精度为35.9%,后续精度波动在10个点以上. 第一次训练是采用的0.001,当时是几十个epoch后就开始不稳定了。 我应该继续再调小点学习率吗(目标:训练N/T级别的网络) 是加载coco预训练的嘛 ? 可以调小lr试一下,或者把backbone的lr_nulti调小 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>
@sdreamforchen
训练后期降低是正常的, r50 r101在coco上都有这个现象, 可以尝试的 1. 加一些学习率调整的策略(eg. cosine) 2. eval时候decoder layer 还可以再减一个 不过这些都得在具体数据集验证一下
好的。现在设置的是-2。作者给的建议。
---原始邮件--- 发件人: @.> 发送时间: 2023年7月3日(周一) 上午10:48 收件人: @.>; 抄送: @.@.>; 主题: Re: [lyuwenyu/RT-DETR] 关于RT-DETR相关问题/讨论/使用可留言 (Issue #1)
没有现成的预训练,毕竟整个都缩放了的 … ---原始邮件--- 发件人: @.> 发送时间: 2023年7月3日(周一) 上午9:24 收件人: @.>; 抄送: @.@.>; 主题: Re: [lyuwenyu/RT-DETR] 关于RT-DETR相关问题/讨论/使用可留言 (Issue #1) 用resnet18,backbone 深度不变,宽度变为0.5;其余设置如下 HybridEncoder: hidden_dim: 192 use_encoder_idx: [2] num_encoder_layers: 1 encoder_layer: name: TransformerLayer d_model: 192 nhead: 8 dim_feedforward: 512 dropout: 0. activation: 'gelu' expansion: 0.5 depth_mult: 0.67 学习率为0.0005 最终精度可以达到38%(精度自我认为比较正常,算比较好),但是训练到120epoch后就有点不稳定了,精度为35.9%,后续精度波动在10个点以上. 第一次训练是采用的0.001,当时是几十个epoch后就开始不稳定了。 我应该继续再调小点学习率吗(目标:训练N/T级别的网络) 是加载coco预训练的嘛 ? 可以调小lr试一下,或者把backbone的lr_nulti调小 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>
@sdreamforchen
训练后期降低是正常的, r50 r101在coco上都有这个现象, 可以尝试的 1. 加一些学习率调整的策略(eg. cosine) 2. eval时候decoder layer 还可以再减一个 不过这些都得在具体数据集验证一下
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>
期待大佬的讲座以及pytorch版本的re-detr,主要想试一试pytorch版的ssld_v2预训练模型。
@ocrhei
是需要resnet的预训练嘛,torch的bakcbone我先上传了一版本 https://github.com/lyuwenyu/RT-DETR/blob/main/rtdetr_pytorch/src/resnet.py
- ResNet101_vd_ssld_pretrained_from_paddle.pth 提取码: 5x6q
- ResNet50_vd_ssld_v2_pretrained_from_paddle.pth 提取码: 6eip
- ResNet34_vd_pretrained_from_paddle.pth 提取码: 84pe
- ResNet18_vd_pretrained_from_paddle.pth 提取码: mg64
感谢,还有一个小问题,就是paddle代码中的resnet学习率是0.1xlr,请问这在pytorch中该如何调整呢。
这个在pytorch里是不需要改代码, 可以在优化器的位置改 使用 param_group: 把backbone的参数单独放一个group 其中lr = base_lr * 0.1就行了, @ocrhei
@lyuwenyu Hi, can I ask you to check this fix PR https://github.com/PaddlePaddle/PaddleDetection/pull/8409? After the SSOD PR merged, iou_score is set to None.
@lyuwenyu Hi, can I ask you to check this fix PR PaddlePaddle/PaddleDetection#8409? After the SSOD PR merged, iou_score is set to None.
@nijkah done, good job. If you want to use original rt-detr, try this pure repo.
@lyuwenyu 大佬您好,我对RT-DETR非常感兴趣,打算后续的课题以它为基础开展。由于我对yolov8项目比较熟悉,所以目前没打算在yolov8项目上应用和改进RT-DETR,目前有2个问题:
1、在YOLOv8项目上运行RT-DETR的yaml文件,能够显示参数量信息,但是不显示FLOPs信息(已排除thop包的问题),请问能否完善一下?
2、YOLOv8项目上只有rt-detr-l.yaml和rt-detr-x.yaml,能够补充以resnet为backbone的rt-detr.yaml文件吗?
期待您的回复~
@lyuwenyu 大佬您好,我在复现rtdetr_hgnetv2_l_6x_coco的效果时,训完发现mAP=0.522,距离0.53还是有点差距。唯一的区别应该就是batchsize=4并且是单卡训练,只能加个梯度累计,加在了ppdet/engine/trainer.py里面:
def train(self, validate=False):
self.accumulate_batchs_num = 2
"""
省略中间代码
"""
for step_id, data in enumerate(self.loader):
ni = len(self.loader) * epoch_id + step_id
"""
省略中间代码
"""
# in dygraph mode, optimizer.minimize is equal to optimizer.step
if (ni % self.accumulate_batchs_num) == 0:
scaler.minimize(self.optimizer, scaled_loss)
"""
省略中间代码
"""
# model backward
loss.backward()
if (ni % self.accumulate_batchs_num) == 0:
self.optimizer.step()
if (ni % self.accumulate_batchs_num) == 0:
curr_lr = self.optimizer.get_lr()
self.lr.step()
if self.cfg.get('unstructured_prune'):
self.pruner.step()
self.optimizer.clear_grad()
self.status['learning_rate'] = curr_lr
if (ni % self.accumulate_batchs_num) == 0:
if self.use_ema:
self.ema.update()
主要是改动了上面这几个地方,请问这样加梯度累计有问题嘛?还是其实模型中梯度累计和加大batchsize不能完全等效,我看训练设置里面已经冻结了backbone的freeze_norm层,请问batchsize减小真的会有这么大影响嘛?
@lyuwenyu 大佬您好,我对RT-DETR非常感兴趣,打算后续的课题以它为基础开展。由于我对yolov8项目比较熟悉,所以目前没打算在yolov8项目上应用和改进RT-DETR,目前有2个问题:
1、在YOLOv8项目上运行RT-DETR的yaml文件,能够显示参数量信息,但是不显示FLOPs信息(已排除thop包的问题),请问能否完善一下?
2、YOLOv8项目上只有rt-detr-l.yaml和rt-detr-x.yaml,能够补充以resnet为backbone的rt-detr.yaml文件吗?
期待您的回复~
@kuguahentian
- yolov8项目的问题 你可以在ultralytics/ultralytics/issues问一下
- resnet系列的backbone和预训练 我已经上传在这, 你需要适配一下(换一下backbone) ultralytics.com/models/rtdetr就行
@lyuwenyu 大佬您好,我在复现rtdetr_hgnetv2_l_6x_coco的效果时,训完发现mAP=0.522,距离0.53还是有点差距。唯一的区别应该就是batchsize=4并且是单卡训练,只能加个梯度累计,加在了ppdet/engine/trainer.py里面:
@yangyuya 看着没啥问题, 原版的是batch_size==4x4, 这样你accumulate_batchs_num应该是4吧 ? 另外训练过程中不加不要加amp,再确认一下梯度累加的位置没问题就行。 我把logs上传了 你跑时候看下前面的能对上不 https://github.com/lyuwenyu/RT-DETR/issues/8
大佬,想问问rt-detr的Efficient Hybrid Encoder模块设计的motivation是?比如CCFM的结构设计主要是参考哪篇论文或怎么想出来的,还有怎么发现用单层的S5进行seft_att比多个尺度的特征进行seft_att效果好。期待大佬的解答 @lyuwenyu
大佬,想问问rt-detr的Efficient Hybrid Encoder模块设计的motivation是?比如CCFM的结构设计主要是参考哪篇论文或怎么想出来的,还有怎么发现用单层的S5进行seft_att比多个尺度的特征进行seft_att效果好。期待大佬的解答 @lyuwenyu
@jiinhui ( 可以先star本项目持续关注动态
大致的一个思路吧
- 目标,在保持精度的情况下,把encoder的速度降下来
- 分析,encoder的时间复杂度 ~ O(L^2),在640输入+多尺度特征的情况下 L = (20^2 + 40^2 + 80^2);
- 分析,在这里原始的encoder其实没有了层次的概念了,直接输入拉平输入到transformer
- 分析,想要速度快就要减小 L --> 同层内interaction (每层的L, L1 = 20^2, L2 = 40^2, L3 = 80^2)
- 分析,4还能不能更快 --> transformer可以得到relation信息,猜测对检测这个任务来说high-level semantic relation information更有用(e.g 电脑在桌子上 旁边还有个手机 这种组合可能性更大 有助于检测任务), 然后可以通过插值的方式把这种信息高效的broadcast到其他level 并且通过特定fusion方式和当前层的信息整合
- 于是就有了论文里的Table 3 的那些试验去证明上边的想法,( 当然也有一些意外的发现比如单用S5更好😬
细节
- CCFM模块本身的结构是pan-like + csp + repvgg + mix-fusion (concat + add) 这样一种组合
更细节的可以参考我们的论文 https://arxiv.org/abs/2304.08069
新入坑, 很优秀的工作! 从paper里面看, 整个工作并没有用到deformable attention对吧?
新入坑, 很优秀的工作! 从paper里面看, 整个工作并没有用到deformable attention对吧?
@noringname
感谢认可。 decoder里的attn用的是deformable attn
训练自己的数据集出现这样的报错: ValueError: (InvalidArgument) Sum of Attr(num_or_sections) must be equal to the input's size along the split dimension. But received Attr(num_or_sections) = [84], input(X)'s shape = [2166784], Attr(dim) = 0. [Hint: Expected sum_of_section == input_axis_dim, but received sum_of_section:84 != input_axis_dim:2166784.] (at /paddle/paddle/phi/infermeta/unary.cc:3285)
大佬请问这是什么问题。
训练自己的数据集出现这样的报错: ValueError: (InvalidArgument) Sum of Attr(num_or_sections) must be equal to the input's size along the split dimension. But received Attr(num_or_sections) = [84], input(X)'s shape = [2166784], Attr(dim) = 0. [Hint: Expected sum_of_section == input_axis_dim, but received sum_of_section:84 != input_axis_dim:2166784.] (at /paddle/paddle/phi/infermeta/unary.cc:3285)
大佬请问这是什么问题。
什么版本的paddle, 另外是一开始就报错还是训练的过程中,可以贴一个更全的报错的信息
( @guoqsGary 可以先star本项目持续关注动态
训练自己的数据集出现这样的报错: ValueError: (InvalidArgument) Sum of Attr(num_or_sections) must be equal to the input's size along the split dimension. But received Attr(num_or_sections) = [84], input(X)'s shape = [2166784], Attr(dim) = 0. [Hint: Expected sum_of_section == input_axis_dim, but received sum_of_section:84 != input_axis_dim:2166784.] (at /paddle/paddle/phi/infermeta/unary.cc:3285) 大佬请问这是什么问题。
什么版本的paddle, 另外是一开始就报错还是训练的过程中,可以贴一个更全的报错的信息
( @guoqsGary 可以先star本项目持续关注动态
你好,paddle版本为2.4.2
-
由于出现显存不够的问题我就在read里面将train和eval的bs改成了1。
-
之后就是训练一开始就出现这样的错误:
W0720 15:56:00.572955 908 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 8.6, Driver API Version: 12.0, Runtime API Version: 10.2
W0720 15:56:00.577303 908 gpu_resources.cc:91] device: 0, cuDNN Version: 8.4.
[07/20 15:56:04] ppdet.utils.checkpoint INFO: Finish loading model weights: /home/gy/.cache/paddle/weights/ResNet50_vd_ssld_v2_pretrained.pdparams
Traceback (most recent call last):
File "tools/train.py", line 183, in
dn_positive_idx = paddle.split(dn_positive_idx,
File "/home/gy/workspace/work/RT-DETR/rtdetr_paddle/ppdet/modeling/transformers/utils.py", line 294, in get_contrastive_denoising_training_group
dn_positive_idx = paddle.split(dn_positive_idx,
找到这一行 把 dn_positive_idx的shape, 和 [n * num_group for n in num_gts]打印出来看下
另外 提一个新的issue吧
大佬你好,我想问问为什么encoder layer的数量选择只有一层,我在论文里好像没有看到相关的实验。