TalkNet-ASD
TalkNet-ASD copied to clipboard
ACM MM 2021: 'Is Someone Speaking? Exploring Long-term Temporal Features for Audio-visual Active Speaker Detection'
Hi, first of all, thank you for providing the codes, I found it very helpful and has tested it on a set of youtube videos with high quality result. One...
Hey folks! I posted here a while back about a demo of TalkNet which is now linked in the repository [README](https://github.com/TaoRuijie/TalkNet-ASD?tab=readme-ov-file#updates). We took that demo and turned it into a...
大佬您好,我想问一下,就是在windows系统里不允许文件名里有冒号,有什么比较好的解决办法,我自己尝试过在生成视频切片文件的时候把entity_id的冒号split出来换成'.',但是他的vedioclips少了10个G,然后在后面dataloader的时候也把dataname中的冒号在代码里换成了'.',然后运行trainTalkNet.py,结果是他有训练的进度条,但是score.txt里没有记录内容,而且训练完一个epoch之后他会如下显示: Traceback (most recent call last): File "G:\TalkNet\TalkNet-ASD-main\trainTalkNet.py", line 86, in main() File "G:\TalkNet\TalkNet-ASD-main\trainTalkNet.py", line 75, in main mAPs.append(s.evaluate_network(epoch = epoch, loader = valLoader, **vars(args))) File "G:\TalkNet\TalkNet-ASD-main\talkNet.py", line 76, in...
你好!demoTalkNet.py中似乎给出了每一帧中说话人检测的得分(score)。得分为正判定为说话,得分为负判定为不说话。如何根据得分计算出说话人正在说话的概率呢?
因为AVA数据集fps是可变的,train_loader中,通过改变mfcc提取参数来对齐音频和视频的长度,那么为什么不预先将video转换成25fps格式,使用固定fps视频训练和使用匹配fps视频测试,这样准确率是否会更高
Using the project how would I begin to extract each unique face in a video , and based on that face its timestamp from when it occurs and the region...
大佬您好,我想复现做一下您论文中的那几个消融实验,请问想要去掉某一个模块的话代码应该怎么修改呢
作者您好,非常感谢您可以开源这么好的作品。我尝试使用了预训练 TalkNet 模型的 ASD Demo,并得到了相应的结果。在这里我想请教下您后续该如何把用绿色框标注出来的人脸序列从视频中提取出来呢(也就是用一些工具只把真是说话人的人脸提取出来,忽略红框中的人脸)?您可以提供一些思路给我吗?另外,我在自己的视频数据上做了些实验后,发现确实是如果一个人说话很短时,不容易被检测到,请问如果想在这方面做些改进的话,应该在哪部分可以改呢?期待您的回答,非常感谢!