wgh1989

Results 9 comments of wgh1989

@nuckykk 请问你解决了吗?我也遇到这个问题

从log中看到,提取的图像和音频特征大小分别为(224, 2048) (32, 1024),这里有两个问题, 一个是音画可能不同步,一般图像的T等于音频T的5倍,不过这个不会导致报错,因为后面会做对齐 另一个问题,提取的音频32x1024,小于40s(BMN的最小windows=200,即40s),会造成BMN的proposal无法获取对应长度的音频特征,导致报错 建议用大于40s的视频测试,保证提取的图像特征大于200 * 2048,音频大于40 * 1024

可以提供一下你的视频吗,我想测试看看

抱歉,一直没登陆,回复晚了 这个主要原因是特征提取,最后不足batch的数据被丢弃了,这个在最新版本中已经修复 我刚把视频下载,新代码跑了一下,是没问题的 ![image](https://user-images.githubusercontent.com/35423940/110919667-7a2b8d00-8357-11eb-887e-819db5c1f995.png) 如图,在每个模型的data_reader部分都加了最后不足batch的数据 另外就是,一定要保证视频时长 > 40s,如果觉得这个太长,可以在训练BMN的时候调整这个参数

@YongdongTan 512916是整个视频特征?视频的时长是多少?

时间维度上不能进行下采样,因为BMN的输入是每一帧的特征

可以试试pip install gast==0.3.3

输入格式需要自己改下 试试这个版本 https://bj.bcebos.com/v1/acg-algo/models/action-football/PaddleVideo-release-2.1-football.tar

这是logger的错误,line72改为如下就好了 logger.info("feature shape {} {}".format(np_image_features.shape, np_audio_features.shape)) 我更新下代码