zhanghuiyao

Results 116 comments of zhanghuiyao

当前暂未支持310P在线推理,可以尝试使用mslite进行推理 https://github.com/mindspore-lab/mindyolo/blob/master/deploy/README.md

可以尝试降低学习率试一下

pr 280跟这个是一个场景吗 是的话 每次学习的loss应该是不对的 https://github.com/mindspore-lab/mindyolo/issues/280

分组的逻辑和官方是一致的 这个地方应该只是命名不同 只是为了保证多个模型的一致性

可以尝试在 `def build_targets` [link](https://github.com/mindspore-lab/mindyolo/blob/master/mindyolo/models/losses/yolov5_loss.py#L136) 函数中debug看下是哪一步导致的 `tmasks` 出现全0 从输入的 `predict` 和 `target` 到return的 `tmasks`

> > 这个是我的训练log, 这个loss 已经非nan了,也就没有出现全零了。 > > 是的。这个是我这边训练的loss。 > > ``` > > 2024-04-07 06:56:19,709 [INFO] Epoch 1/300, Step 100/101, imgsize (640, 640), loss: 0.7016, lbox: 0.1512, lobj: 0.1086, lcls:...

> * 选取其中128张作为这个数据集,目前,现在还是loss不收敛(150epochs). > ![image](https://private-user-images.githubusercontent.com/21277368/320272356-dc01fb29-f150-43cd-b06b-3a1d2130eb0d.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTI1NDY4NDcsIm5iZiI6MTcxMjU0NjU0NywicGF0aCI6Ii8yMTI3NzM2OC8zMjAyNzIzNTYtZGMwMWZiMjktZjE1MC00M2NkLWIwNmItM2ExZDIxMzBlYjBkLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA0MDglMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNDA4VDAzMjIyN1omWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTU5YmM2M2M4NWM0ODdhNzkzN2NkYjZkY2NhZTk5NDFkMjNjOTFhNDYzOWRjYzQwNGZlOGYzNzlkZTgyNjEzNDQmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.FtvlaJ-HaDV5JxFDKew21CW2uFv4xjNskQgofHkGLRk) > * 接下来,需要什么样的工作,指导一下?多谢 > > [log (2).txt](https://github.com/mindspore-lab/mindyolo/files/14896701/log.2.txt) 建议其中一个思路可以尝试换成1张图片不做数据增强过拟合查看loss和结果,确认模型是否可以正常学习,另外可以再调调超参

> @zhanghuiyao 关于 yolov5 中,没张图片的标注的框的数量,填充到160 的原因是什么? 是问了加快运算速度么? MindSpore 2.1 里面对动态shape支持可能不那么完善 这里是为了保持shape一致

> @zhanghuiyao hello 我调了一顿学习率,和这个优化器哈,128张图片我这边loss 下降不下去? 我这现在啥状态, 还有啥改进的地方么? 下面是我的一些记录 https://kj-smart.feishu.cn/sheets/Eeo1szYKJh0t9htgv1mcW9A2nFf?from=from_copylink 表里看起来不同的学习率的差异还是比较大,可以尝试用 随机初始权重 和 coco pretrain的权重 分别跑一组实验看看效果

> @zhanghuiyao > > 1. 通过 nn.Cell.trainable_params() 与 value_and_grad 返回的tensor 以及 梯度, 顺序是对应的么? > 2. 我这边尝试将这个梯度打印出来, 我这边发现里面存在这个 梯度 L2 存在 None 值 > value_and_grad 返回的梯度应该和 optimizer.parameters 里面是对应的,grad为None的可能是对应的parameter的require_grad为False https://github.com/mindspore-lab/mindyolo/blob/master/mindyolo/utils/train_step_factory.py#L51