tomgotjack comments

Results 23 comments of


                                            tomgotjack

请问下如何在端侧高效地部署YOLO-World，只检测一种特定的目标种类（如糖果）呢？

你可以导出ONNX模型，然后部署。ONNX模型目前需要确定好文本后导出，所以它只能检测提前确定好的类，这个恰好满足你的需求

如何冻结预训练权重，进行部分微调？

@Wuzhongze 你好，这部分可以参考mmyolo官方给出的文档 [https://github.com/open-mmlab/mmyolo/blob/main/docs/zh_cn/common_usage/freeze_layers.md](url) 我做了一个简单的冻结部分权重的训练，代码如下： `model = dict( type='YOLOWorldDetector', mm_neck=True, num_train_classes=num_training_classes, num_test_classes=num_classes, data_preprocessor=dict(type='YOLOWDetDataPreprocessor'), backbone=dict( _delete_=True, type='MultiModalYOLOBackbone', frozen_stages=4, image_model={{_base_.model.backbone}}, text_model=dict( type='HuggingCLIPLanguageBackbone', model_name=text_model_name, frozen_modules=['all'])), neck=dict(type='YOLOWorldPAFPN', guide_channels=text_channels, embed_channels=neck_embed_channels, num_heads=neck_num_heads, freeze_all=True, block_cfg=dict(type='MaxSigmoidCSPLayerWithTwoConv')), bbox_head=dict(type='YOLOWorldHead', head_module=dict(type='YOLOWorldHeadModule', use_bn_head=True,...

IndexError: index 20021 is out of bounds for dimension 0 with size 16128

@apple32112311 I have the same problem,have you solved it now?

inference on video

@LLH-Harward @KingBoyAndGirl 我用下面的代码规避这个问题。我在内存中建立了一个虚拟的文件路径tmp_filename，这样runner就不需要经过磁盘了。 # 使用OPENCV读取视频帧，得到帧为numpy数组，将 numpy 数组转换为 PIL 图像对象 pil_image = Image.fromarray(image) # 保存 PIL 图像到指定路径 #pil_image.save(image_path) with tempfile.NamedTemporaryFile(delete=False, suffix='.png') as tmp_file: # 保存图像到临时文件 pil_image.save(tmp_file, format='PNG') tmp_filename = tmp_file.name...

inference on video

@wondervictor 我运行了你提供的 [deploy/onnx_demo.py](https://github.com/AILab-CVC/YOLO-World/blob/master/deploy/onnx_demo.py)，当代码运行到： for frame in track_iter_progress(video_reader): 这里会产生如下报错： Traceback (most recent call last): File "E:\YOLO\YOLO-World\video_demo.py", line 148, in main() File "E:\YOLO\YOLO-World\video_demo.py", line 113, in main for frame in track_iter_progress(video_reader): File...

inference on video

@LLH-Harward 你好，想问下用inference库提供的v2-x怎么跑？我这里使用的是自己微调之后的模型

inference on video

@LLH-Harward 谢谢，我后面看一下这个。目前我做了一个简单的界面，可以加载视频或者调用摄像头，不过分辨率只有240P，效果如下： https://www.bilibili.com/video/BV14T421X72d/?spm_id_from=333.1365.list.card_archive.click&vd_source=0c335752a9ae5c749d91670cca8575ac

inference on video

模型推理速度和图片分辨率有关。我实测下来240P图片可以0.09S推理，而1080P图片推理就要0.33S。我想调用摄像头，就需要做成实时推理，对速度要求比较高。用240P大概能做到每秒10帧。再配合抽帧，就能实现一个勉强能看的效果。如果提升分辨率，就卡的没法看了。我的显卡是2060，如果换用好的显卡，推理速度变快，就能提升分辨率了

inference on video

@LLH-Harward 我遇到了同样的问题，不过光顾着测速度给忘了。我用一段视频做了人车两个类别的测试，目标检测类别是对的，但输出类别是["person"]和["bicycle"]。这两个类别恰好是COCO80个类别的前两个，你可以从这里寻找一下原因

inference on video

问了一下deepseek，结果如下： `sys.stdout` 是 Python 标准库 `sys` 模块中的一个对象，表示标准输出流（通常是屏幕）。它用于向控制台输出文本。在 `track_iter_progress(frames, file=sys.stdout)` 中，`file=sys.stdout` 指定了进度信息输出的位置。默认情况下，进度信息会打印到控制台。如果你想将输出重定向到其他地方（如文件），可以将 `file` 参数设置为其他文件对象。例如： ```python with open('output.txt', 'w') as f: track_iter_progress(frames, file=f) ``` 这样，进度信息会写入 `output.txt` 文件，而不是显示在控制台上。这个项目过去太久，我也没有印象了，你看看ai的解释吧发送自我的盖乐世 -------- 原始信息...