Chinese-CLIP icon indicating copy to clipboard operation
Chinese-CLIP copied to clipboard

是否可以作为stable diffusion的text encoder?

Open zhaop-l opened this issue 3 years ago • 9 comments

尝试将Chinese CLIP作为stable diffusion的text encoder,但是一直生成纯黑图像(安全检查已经关闭),我想问下是否可以作为sd的text encoder呢?官方是否做过测试。

zhaop-l avatar Dec 13 '22 10:12 zhaop-l

您好,Chinese-CLIP模型应用在stable diffusion的尝试我们正在探索中,请您期待我们后续的正式发布。目前我们在一些小规模数据集(MUGE数据)尝试finetune有些初步结果,暂时还不是很完善达到能开源的阶段。当下我们在尝试的方案,是把Chinese-CLIP作为text encoder后只finetune这部分。从一些MUGE电商领域以及比较简单的通用领域的case来看,结果还算正常,可能一定的finetune还是需要的,如:

  • 落地式台盆柜 image image

  • 一只猫坐在草地上,4K,高清,真实图片 image image

但确实由于我们在这个任务上也是刚刚起步,现在我们的探索还非常初步,请继续期待我们在这个方向的更多发布。如果您后续有更多的进展,也欢迎积极和我们讨论!

yangapku avatar Dec 13 '22 11:12 yangapku

就是你们目前开源的模型,使用ChineseCLIPTextModel,其效果是不行的,必须要进行finetune吗?

zhaop-l avatar Dec 13 '22 14:12 zhaop-l

@zhaopu0710 因为stable diffusion本身已经按照英文CLIP的语义空间训练好,Chinese-CLIP图文参数和CLIP都已经不同,把Chinese-CLIP按照自己语义空间训练的文本encoder直接替换过去,这本身就不应该work了,这个方法就是错误的。进行finetune是必要的。

yangapku avatar Dec 13 '22 14:12 yangapku

好的,了解了。非常感谢!

zhaop-l avatar Dec 13 '22 14:12 zhaop-l

您好,请问这块有任何进展可以公布吗?

zjttfs avatar Jan 09 '23 06:01 zjttfs

@zjttfs 您好,我们还在继续准备的过程中哈,请您再继续等待下~ 我们的人员精力确实非常紧张,有进展我们会第一时间公布哈

yangapku avatar Jan 09 '23 10:01 yangapku

Hi, (1) is there any update on this issue? (2) to fine-tune your Chinese-CLIP model text encoder on other diffusion models trained on English-corpus, how much training data do you expect so as to achieve a decent performance?

thanks for your excellent work!

kerkathy avatar May 26 '23 02:05 kerkathy

@yangapku 您好, 你可以公布一下Chinese CLIP结合Stabel Diffusion的代码吗? 我在结合的时候遇到了很多问题

HiddenMarkovModel avatar Feb 05 '24 04:02 HiddenMarkovModel

@yangapku 您好, 你可以公布一下Chinese CLIP结合Stabel Diffusion的代码吗? 我在结合的时候遇到了很多问题

或许可以借鉴一下:https://hf-mirror.com/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1

gg22mm avatar Aug 15 '24 07:08 gg22mm