CZ999-07

Results 3 comments of CZ999-07

How do you define your custom dataset and what method do you use to add the caption?

> 我遵循了LVIS数据集中的格式。在标题中,我将图像中所有不同对象的名称合并为一个句子,然后我使用负标记和正标记来表示注释中的每一个。 The custom dataset I used for fine tuning, the dataset is the traditional yolov5 format converted to coco format, nothing else has changed. I don't have a caption...

> 你的字幕实际上取决于你想如何使用这个模型。我将所有不同类别的名称合并为一个句子,例如“plane .直升机。因为我唯一做的就是做开放式检测,除此之外,我不必在我的标题中包含任何复杂的推理,例如“倒置的飞机”或类似的东西。 > > 因此,在您的苹果示例中,如果您想单独检测每个苹果,那么您可以遵循我的格式,即“苹果”。但是,假设你只想检测树上的苹果,那么你的标题需要更复杂,比如“树上的苹果”,而不仅仅是“苹果”。最后,这只取决于你想用你的模型做什么。因此,如果你想在图片中的所有苹果上都有一个边界框,你只需要使用“苹果”作为文本提示。 > > 如果你想实现一种让模型接受更多语言线索的方法,你也可以试验文本阈值超参数(如果我没记错的话,在其中一个配置文件中)。我认为 u 为每个注释指示的负标记和正标记也会影响模型的学习方式 > > 至于向数据集添加标题所需的方法脚本。如果你的字幕遵循一个非常固定的结构,你可以考虑为它编写一个代码,但如果你认为这是不可行的,那么可能需要手动注释。 > > 我将在下面插入我的数据集的片段,向您展示数据集格式是什么样的,因为我上次在处理这个问题时也遇到了问题。你必须自己去找 flickr 数据集,因为 github 仓库上的链接不起作用(只有 ultralytics 页面上的链接起作用)。您可以引用 flickr 数据集格式来创建您的数据集。 > > [可以在他们文档的 prepare-datasets 部分下找到...