VAR icon indicating copy to clipboard operation
VAR copied to clipboard

请问下两个阶段ablation的细节

Open YilanWang opened this issue 1 year ago • 2 comments

请问作者,如果使用1) multi scale VQVAE(VQGAN) 但是采用VQGAN(taming transfomer)的transformer(clip?), 或者是使用2) VQVAE(VQGAN) 但是gpt-like transformer, 这两种方式下的指标和原始VQGAN相比怎么样呢?

感觉2)有点难做实验,但还是想问问作者有没有做过这样的实验,感谢~~

YilanWang avatar May 07 '24 09:05 YilanWang

hi@YilanWang taming transfomer使用的也属于gpt-like transformer,结构是相同的,包括和vit/dit也是基本相同

keyu-tian avatar May 07 '24 12:05 keyu-tian

哇,感谢大佬回复,作者要不啥时候搞个直播或者在b站上发个视频讲解呗,我看别的issue大家对细节的关注还挺多的

YilanWang avatar May 07 '24 13:05 YilanWang

thx the author and I close the issue

YilanWang avatar May 11 '24 01:05 YilanWang