madgnot
madgnot
请问 你是先做对比学习 将语音内容特征编码器 先训练好 然后 固定权重,作为特征提取器 ?还是与整个网络同时训练,同时做对比学习和生成?
也就是说你的语音编码器,先通过对比学习学习好,然后,在网络训练的时候,作为特征提取器,固定权重,结合身份信息和姿态信息生成人脸。 ------------------ 原始邮件 ------------------ 发件人: ***@***.***>; 发送时间: 2021年8月17日(星期二) 下午4:15 收件人: ***@***.***>; 抄送: ***@***.***>; ***@***.***>; 主题: Re: [Hangz-nju-cuhk/Talking-Face_PC-AVS] 请问你是如何做语音和视频的对比学习的 (#16) 这种对比学习的思想在各种audio-visual的paper里介绍的太多了,所以这边我就简略了。我把比如12帧的feature拼起来作为一个clip,和同样长度但是选自各个时间点或不同视频的另一个模态feature之间做对比学习。 @madgnot 对比学习的关键就是训练内容编码器,所以不可能固定encoder的权重。但是对比学习训练是单独训练,不加入生成器的。 — You are receiving this because you were mentioned. Reply...
> Hi @youcaiSUN @martinriven: Link: [https://pan.baidu.com/s/1TGzOwUcXsRw72l4gaWre_w?pwd=pg71 ](https://pan.baidu.com/s/1TGzOwUcXsRw72l4gaWre_w?pwd=pg71%C2%A0) password:`pg71` I have download your shared files, but i can not zip it, will appear something is wrong