EMO
EMO copied to clipboard
不同stage训练参数的疑问
请问,每个阶段训练的参数是如下吗? stage1 : Face Locator + ref全部 + sd unet全部 stage2 :又加了一个audio cross attention,所以可能还是要全部动;因此就是 Face Locator + ref全部 + sd unet全部+ temporal modules (这一部分有可能不需要微调ref) stage3: temporal modules + speed layers
另外论文中提到,ref 只需要一次,那么t参数应该给多少呢?
谢谢!