Chinese-CLIP 是否可以作为stable diffusion的text encoder?

尝试将Chinese CLIP作为stable diffusion的text encoder，但是一直生成纯黑图像（安全检查已经关闭），我想问下是否可以作为sd的text encoder呢？官方是否做过测试。

Dec 13 '22 10:12 zhaop-l

您好，Chinese-CLIP模型应用在stable diffusion的尝试我们正在探索中，请您期待我们后续的正式发布。目前我们在一些小规模数据集（MUGE数据）尝试finetune有些初步结果，暂时还不是很完善达到能开源的阶段。当下我们在尝试的方案，是把Chinese-CLIP作为text encoder后只finetune这部分。从一些MUGE电商领域以及比较简单的通用领域的case来看，结果还算正常，可能一定的finetune还是需要的，如：

落地式台盆柜
一只猫坐在草地上，4K，高清，真实图片

但确实由于我们在这个任务上也是刚刚起步，现在我们的探索还非常初步，请继续期待我们在这个方向的更多发布。如果您后续有更多的进展，也欢迎积极和我们讨论！

Dec 13 '22 11:12 yangapku

就是你们目前开源的模型，使用ChineseCLIPTextModel，其效果是不行的，必须要进行finetune吗？

Dec 13 '22 14:12 zhaop-l

@zhaopu0710 因为stable diffusion本身已经按照英文CLIP的语义空间训练好，Chinese-CLIP图文参数和CLIP都已经不同，把Chinese-CLIP按照自己语义空间训练的文本encoder直接替换过去，这本身就不应该work了，这个方法就是错误的。进行finetune是必要的。

Dec 13 '22 14:12 yangapku

好的，了解了。非常感谢！

Dec 13 '22 14:12 zhaop-l

您好,请问这块有任何进展可以公布吗?

Jan 09 '23 06:01 zjttfs

@zjttfs 您好，我们还在继续准备的过程中哈，请您再继续等待下~ 我们的人员精力确实非常紧张，有进展我们会第一时间公布哈

Jan 09 '23 10:01 yangapku

Hi, (1) is there any update on this issue? (2) to fine-tune your Chinese-CLIP model text encoder on other diffusion models trained on English-corpus, how much training data do you expect so as to achieve a decent performance?

thanks for your excellent work!

May 26 '23 02:05 kerkathy

@yangapku 您好, 你可以公布一下Chinese CLIP结合Stabel Diffusion的代码吗? 我在结合的时候遇到了很多问题

Feb 05 '24 04:02 HiddenMarkovModel

@yangapku 您好, 你可以公布一下Chinese CLIP结合Stabel Diffusion的代码吗? 我在结合的时候遇到了很多问题

或许可以借鉴一下：https://hf-mirror.com/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1

Aug 15 '24 07:08 gg22mm