PaddleVideo icon indicating copy to clipboard operation
PaddleVideo copied to clipboard

timesformer的输入为什么是1 3 24 224 224 而不是 1 3 8 224 224

Open dengfenglai321 opened this issue 2 years ago • 1 comments

你好,请问timesformer的网络输入是8帧吧,我看代码里是1 3 24 224 224, 这个24 怎么理解和怎么得到呢

dengfenglai321 avatar Jan 19 '22 09:01 dengfenglai321

不知道你指的是否是export_model.py里的InputSpec,因为推理和测试使用的是同样的策略,即UniformCrop,所以24实际上是由3组8帧的视频帧组成,即[I0,I1,...,I7, I0,I1,...,I7, I0,I1,...,I7], 经过Pipeline处理完得到24帧,然后在framework中由于runtime_cfg的控制会被重新切分成3组8帧的视频,送入网络计算出结果,再把3组输出融合得到最后的分数 image

HydrogenSulfate avatar Jan 20 '22 03:01 HydrogenSulfate