one-yolov5 issues

add no_grad

add no_grad to avoid `RuntimeError: Can only set leaf tensor's data.`

AttributeError: module 'oneflow.distributed' has no attribute 'barrier'

命令：python -m oneflow.distributed.launch --nproc_per_node 2 train.py --batch 64 --data data/mydata.yaml --device 0,1 环境： python3.9+cu117+oneflow0.9.0，2080ti Traceback (most recent call last): File "/home/liaozhongke/deeplearning/one-yolov5/train.py", line 672, in main(opt) File "/home/liaozhongke/deeplearning/one-yolov5/train.py", line 568, in...

jie311

Guide:

- [ ] 显存问题跟踪 , - [ ] deepcopy(m)，显存不正常（issues:https://github.com/Oneflow-Inc/one-yolov5/issues/101 ） - [ ] 分类模型性能, - [ ] 提供cpu导出支持 - [ ] [YOLOv5-with-Neural-Magic's-DeepSparse](https://github.com/ultralytics/yolov5/wiki/YOLOv5-with-Neural-Magic's-DeepSparse)

ccssu

Guide

one-yolov5/classify/train.py 脚本 nsys 报告【2023-03-29】

- [引言](#引言) - [one-yolo 测试结果] - [one-yolov5项目相关数据] - [one-yolo 详细测试数据] - [修复方案] - [ 资料集] ## 引言对 one-yolov5/classify/train.py 跑了两份 nsys 报告 . one-yolo_profile： [03-29-07-10profile.zip](https://github.com/wearmheart/worker/files/11097987/03-29-07-10profile.zip) torch-yolo_profile: [torch_03-29-08-37profile.zip](https://github.com/wearmheart/worker/files/11098388/torch_03-29-08-37profile.zip) ## one-yolo 测试结果...

ccssu

[TODO] 开发memory_reserved算子和性能优化

2

- [ ] - 利用profile 工具优化性能（目标： GLM仓库性能优化 https://github.com/Oneflow-Inc/libai/tree/main/projects/GLM ， one-yolov5分类模型性能优化) - [ ] - 学习oneflow 内存管理 ### profile工具上手 - nsys: [结合NVTX注释上手nsys](https://github.com/Oneflow-Inc/one-yolov5/issues/122#issuecomment-1484386632) - py-spy https://github.com/Oneflow-Inc/one-yolov5/issues/120#issue-1616558768 ### one-yolov5项目 > 项目地址: https://github.com/Oneflow-Inc/one-yolov5 >...

ccssu

Guide

关于分类模型训练测试，每次比PyTorch慢几秒的原因&可复现代码

## 前言 ## py-spy 分析 ## 可稳定复现代码 ## 最近计划 ## 前言在研究定位 PyTorch 中 Python API 对应的 C++ 代码 https://github.com/Oneflow-Inc/OneTeam/issues/147 时候试了下 pytorch官网推荐的一个性能定位工具 [py-spy](https://github.com/pytorch/pytorch/edit/master/CONTRIBUTING.md#profiling-with-py-spy) 定位了到pr: https://github.com/Oneflow-Inc/one-yolov5/pull/111 在分类模型训练测试，每次比PyTorch慢几秒的在 tloss...

ccssu

one-yolov5 v1.2.0 精度测试目标精度

1

## 目标精度 ### [Pretrained Checkpoints](https://github.com/ultralytics/yolov5/releases/tag/v6.1) ![image](https://user-images.githubusercontent.com/109639975/216877435-3048b1fb-b41c-4fcb-a979-9205c9947fea.png) ### [New Segmentation Checkpoints](https://github.com/ultralytics/yolov5/releases/tag/v7.0) ![image](https://user-images.githubusercontent.com/109639975/216878253-60b3ee39-80f6-46e9-aa68-bb54b6cfd1c6.png) ### [New Classification Checkpoints](https://github.com/ultralytics/yolov5/releases/tag/v6.2) ![image](https://user-images.githubusercontent.com/109639975/216878092-eb9877f9-6f59-4a65-8eef-8370cfb39083.png)

ccssu

Guide

add build_targets_optim

4

link https://github.com/Oneflow-Inc/oneflow/pull/9536

BBuf

8卡ddp增加batch_size，精度值严重下降

8

> Multi-GPU Training https://github.com/ultralytics/yolov5/issues/475 ## 问题描述增加 batch_size ，在300个epoch训练下，mAP_0.5:0.95 精度值下降了`2.4750000000000014` 。数据表如下所示: | | gpu | batch_size | cfg | metrics/mAP_0.5, | metrics/mAP_0.5:0.95, | |--------|-----|------------|--------------|------------------|-----------------------| | 目标 | 2 |...

ccssu

question

使用的oneflow的版本是多少

lifeyou

one-yolov5
one-yolov5 copied to clipboard

Metadata

add no_grad

AttributeError: module 'oneflow.distributed' has no attribute 'barrier'

Guide:

one-yolov5/classify/train.py 脚本 nsys 报告【2023-03-29】

[TODO] 开发memory_reserved算子和性能优化

关于分类模型训练测试，每次比PyTorch慢几秒的原因&可复现代码

one-yolov5 v1.2.0 精度测试目标精度

add build_targets_optim

8卡ddp增加batch_size，精度值严重下降

使用的oneflow的版本是多少

← Metadata

Owner

Metadata

one-yolov5 one-yolov5 copied to clipboard

Metadata

← Metadata

Owner

Metadata

one-yolov5
one-yolov5 copied to clipboard