PaddleVideo
PaddleVideo copied to clipboard
timesformer的输入为什么是1 3 24 224 224 而不是 1 3 8 224 224
你好,请问timesformer的网络输入是8帧吧,我看代码里是1 3 24 224 224, 这个24 怎么理解和怎么得到呢
不知道你指的是否是export_model.py
里的InputSpec
,因为推理和测试使用的是同样的策略,即UniformCrop,所以24实际上是由3组8帧的视频帧组成,即[I0,I1,...,I7, I0,I1,...,I7, I0,I1,...,I7],
经过Pipeline处理完得到24帧,然后在framework中由于runtime_cfg的控制会被重新切分成3组8帧的视频,送入网络计算出结果,再把3组输出融合得到最后的分数