xuzhang
xuzhang
可以参考这个 https://github.com/PaddlePaddle/PaddleVideo/tree/develop/paddlevideo/loader/dataset
可以尝试添加代理加速
在你的这个case中,训练过程貌似只考虑了图像和PCM特征。 如果您想要使用音频特征,可以尝试修改数据加载器代码以包含音频特征,更新您的模型输入以接受这个额外的音频特征维度,调整 feat_dim 配置以反映新的特征维度总和。
静态图推理应该不支持,可能存在兼容性问题
用的是什么版本的paddle呢,可以降级paddle版本或尝试使用paddle 2.0试试看,最新版本可能没有兼容。另外,如果有图像、视频理解和生成的需求,可以使用我们新的跨模态工具: https://github.com/PaddlePaddle/PaddleMIX/tree/develop
MutimodalVideoTag这个项目已经长时间没有更新了,该项目主要是基于老版本paddle2.0版本开发,一些相关依赖可能也要降级到相应的老版本
你可以使用PaddlePaddle的summary API来保存训练过程中的summary。同时,你也可以使用VisualDL来可视化模型,数据和训练过程。 另外,如果有图像、视频理解和生成的需求,可以使用我们新的跨模态工具: https://github.com/PaddlePaddle/PaddleMIX/tree/develop
https://github.com/PaddlePaddle/PaddleVideo/blob/develop/docs/zh-CN/annotation_tools.md 是的,只是个工具,编译好的 另外,如果有图像、视频理解和生成的需求,可以使用我们新的跨模态工具: https://github.com/PaddlePaddle/PaddleMIX/tree/develop
Perhaps you could raise an issue in the original repository.
请检查数据预处理步骤是否正确,确保输入数据已经被正确地归一化和调整尺寸;另外如果模型没有被正确地训练,那么它可能无法正确地计算IOU分数,请检查模型训练过程,包括损失函数和优化器的选择是否正确。