Liu-arch
Liu-arch
Why the Hausdorff distance is not shown in Set matching metric? cum_dists = dists.min(3)[0].sum(2) + dists.min(2)[0].sum(2)
十分感谢您的回复!关于您BIKE那篇论文,我也有一点问题,就是你说Don't change the num_sample, just set it to 1。但是关于views在UCF和HMDB上是1*1,但是在其他数据集,包括Kinetics400,上面写的是4*3,这种当num_sample改变之后train的代码如何修改呢?因为数据从一个tensor变为了一个列表。images = images.view((-1,config.data.num_segments,3)+images.size()[-2:]) # bt 3 h w b,t,c,h,w = images.size() images= images.view(-1,c,h,w) 以及 image_embedding, cls_embedding, text_embedding, logit_scale = model(images, texts, return_token=True)...
您好十分感谢您之前的回信!我还有几个问题困惑着我,希望您能给出解答。 1. 在BIKE这篇论文中,exps/k400/VIT-B/32/8f/video_attributes_log.txt中为什么显示的训练过程只有30代并且显示测试准确率只有70.05.但是下面写着video_labels== torch.Size([19800]) sentence_label=== torch.Size([19800]) tensor(19800, device='cuda:0') a==0.7 b==0.3 top1==81.46969604492188 top5==95.8131332397461 大概训练多少代才得到的81.46呢?前面a==0.7,b==0.3都是什么意思? 2. Frozen label encoder 以及category encoder有什么区别和联系吗?table6(a)中显示 frozen label encoder提升了效果。以及(technical) Transf是什么呢? 3. 除此之外还有一个小问题就是关于baseline就是普通的CLIP是指单纯的这样吗? similarity = (vid_emb @ cls_emb.T).softmax(dim=-1)#torch.Size([32, 8,...
您好十分感谢您之前的回信!我还有几个问题困惑着我,希望您能给出解答。 1. 在BIKE这篇论文中,exps/k400/VIT-B/32/8f/video_attributes_log.txt中为什么显示的训练过程只有30代并且显示测试准确率只有70.05.但是下面写着video_labels== torch.Size([19800]) sentence_label=== torch.Size([19800]) tensor(19800, device='cuda:0') a==0.7 b==0.3 top1==81.46969604492188 top5==95.8131332397461 大概训练多少代才得到的81.46呢?前面a==0.7,b==0.3都是什么意思? 2. Frozen label encoder 以及category encoder有什么区别和联系吗?table6(a)中显示 frozen label encoder提升了效果。以及(technical) Transf是什么呢? 3. 除此之外还有一个小问题就是关于baseline就是普通的CLIP是指单纯的这样吗? similarity = (vid_emb @ cls_emb.T).softmax(dim=-1)#torch.Size([32,...
您好十分感谢您之前的回信!我还有几个问题困惑着我,希望您能给出解答。 1. 在BIKE这篇论文中,exps/k400/VIT-B/32/8f/video_attributes_log.txt中为什么显示的训练过程只有30代并且显示测试准确率只有70.05.但是下面写着video_labels== torch.Size([19800]) sentence_label=== torch.Size([19800]) tensor(19800, device='cuda:0') a==0.7 b==0.3 top1==81.46969604492188 top5==95.8131332397461 大概训练多少代才能得到加上attributes部分之前的78.9呢? 2. Frozen label encoder 以及category encoder有什么区别和联系吗?table6(a)中显示 frozen label encoder提升了效果。以及(technical) Transf是什么呢? 3. 除此之外还有一个小问题就是关于baseline就是普通的CLIP是指单纯的这样吗? similarity = (vid_emb @ cls_emb.T).softmax(dim=-1)#torch.Size([32,...