tomgotjack

Results 23 comments of tomgotjack

你可以导出ONNX模型,然后部署。ONNX模型目前需要确定好文本后导出,所以它只能检测提前确定好的类,这个恰好满足你的需求

@Wuzhongze 你好,这部分可以参考mmyolo官方给出的文档 [https://github.com/open-mmlab/mmyolo/blob/main/docs/zh_cn/common_usage/freeze_layers.md](url) 我做了一个简单的冻结部分权重的训练,代码如下: `model = dict( type='YOLOWorldDetector', mm_neck=True, num_train_classes=num_training_classes, num_test_classes=num_classes, data_preprocessor=dict(type='YOLOWDetDataPreprocessor'), backbone=dict( _delete_=True, type='MultiModalYOLOBackbone', frozen_stages=4, image_model={{_base_.model.backbone}}, text_model=dict( type='HuggingCLIPLanguageBackbone', model_name=text_model_name, frozen_modules=['all'])), neck=dict(type='YOLOWorldPAFPN', guide_channels=text_channels, embed_channels=neck_embed_channels, num_heads=neck_num_heads, freeze_all=True, block_cfg=dict(type='MaxSigmoidCSPLayerWithTwoConv')), bbox_head=dict(type='YOLOWorldHead', head_module=dict(type='YOLOWorldHeadModule', use_bn_head=True,...

@apple32112311 I have the same problem,have you solved it now?

@LLH-Harward @KingBoyAndGirl 我用下面的代码规避这个问题。 我在内存中建立了一个虚拟的文件路径tmp_filename,这样runner就不需要经过磁盘了。 # 使用OPENCV读取视频帧,得到帧为numpy数组,将 numpy 数组转换为 PIL 图像对象 pil_image = Image.fromarray(image) # 保存 PIL 图像到指定路径 #pil_image.save(image_path) with tempfile.NamedTemporaryFile(delete=False, suffix='.png') as tmp_file: # 保存图像到临时文件 pil_image.save(tmp_file, format='PNG') tmp_filename = tmp_file.name...

@wondervictor 我运行了你提供的 [deploy/onnx_demo.py](https://github.com/AILab-CVC/YOLO-World/blob/master/deploy/onnx_demo.py),当代码运行到: for frame in track_iter_progress(video_reader): 这里会产生如下报错: Traceback (most recent call last): File "E:\YOLO\YOLO-World\video_demo.py", line 148, in main() File "E:\YOLO\YOLO-World\video_demo.py", line 113, in main for frame in track_iter_progress(video_reader): File...

@LLH-Harward 你好,想问下用inference库提供的v2-x怎么跑? 我这里使用的是自己微调之后的模型

@LLH-Harward 谢谢,我后面看一下这个。 目前我做了一个简单的界面,可以加载视频或者调用摄像头,不过分辨率只有240P,效果如下: https://www.bilibili.com/video/BV14T421X72d/?spm_id_from=333.1365.list.card_archive.click&vd_source=0c335752a9ae5c749d91670cca8575ac

模型推理速度和图片分辨率有关。我实测下来240P图片可以0.09S推理,而1080P图片推理就要0.33S。 我想调用摄像头,就需要做成实时推理,对速度要求比较高。 用240P大概能做到每秒10帧。再配合抽帧,就能实现一个勉强能看的效果。如果提升分辨率,就卡的没法看了。 我的显卡是2060,如果换用好的显卡,推理速度变快,就能提升分辨率了

@LLH-Harward 我遇到了同样的问题,不过光顾着测速度给忘了。 我用一段视频做了人车两个类别的测试,目标检测类别是对的,但输出类别是["person"]和["bicycle"]。这两个类别恰好是COCO80个类别的前两个,你可以从这里寻找一下原因

问了一下deepseek,结果如下: `sys.stdout` 是 Python 标准库 `sys` 模块中的一个对象,表示标准输出流(通常是屏幕)。它用于向控制台输出文本。 在 `track_iter_progress(frames, file=sys.stdout)` 中,`file=sys.stdout` 指定了进度信息输出的位置。默认情况下,进度信息会打印到控制台。如果你想将输出重定向到其他地方(如文件),可以将 `file` 参数设置为其他文件对象。例如: ```python with open('output.txt', 'w') as f: track_iter_progress(frames, file=f) ``` 这样,进度信息会写入 `output.txt` 文件,而不是显示在控制台上。 这个项目过去太久,我也没有印象了,你看看ai的解释吧 发送自我的盖乐世 -------- 原始信息...