TalkNet-ASD
TalkNet-ASD copied to clipboard
关于视频FPS的问题
因为AVA数据集fps是可变的,train_loader中,通过改变mfcc提取参数来对齐音频和视频的长度,那么为什么不预先将video转换成25fps格式,使用固定fps视频训练和使用匹配fps视频测试,这样准确率是否会更高
因为提供的标签换起来太麻烦了 所以没有做过这样的尝试
谢谢回复,非常棒的工作! Active speaker detection是当前连接speaker-related audio cues和visual cues的重要渠道之一。我能否将训练代码merge到3D-Speaker中。
你好!抱歉才看到,可以的没问题,感谢3D-Speaker对于社区的贡献!