CMG icon indicating copy to clipboard operation
CMG copied to clipboard

三种模态的特征序列长度都不同,怎么修改Cross_VQEmbeddingEMA_AVT模块

Open yhd-123 opened this issue 7 months ago • 4 comments

如果audio_feat,video_feat,text_feat的特征序列长度都不同,AVT_VQVAE_Encoder中的self.Cross_quantizer = Cross_VQEmbeddingEMA_AVT(n_embeddings, self.hidden_dim)传播会出错。

v_ph = torch.reshape(v_ph, ((B, T, M))) # [BxT, M] -> [B, T, M] RuntimeError: shape '[16, 99, 400]' is invalid for input of size 236800

Cross_VQEmbeddingEMA_AVT部分怎么修改代码,我想直接用audio_feat,video_feat,text_feat通过AVT_VQVAE_Encoder获取量化后语义对齐的特征表示audio_vq,video_vq,text_vq,进行下游任务。

yhd-123 avatar Jul 09 '24 13:07 yhd-123