是否可以作为stable diffusion的text encoder?
尝试将Chinese CLIP作为stable diffusion的text encoder,但是一直生成纯黑图像(安全检查已经关闭),我想问下是否可以作为sd的text encoder呢?官方是否做过测试。
您好,Chinese-CLIP模型应用在stable diffusion的尝试我们正在探索中,请您期待我们后续的正式发布。目前我们在一些小规模数据集(MUGE数据)尝试finetune有些初步结果,暂时还不是很完善达到能开源的阶段。当下我们在尝试的方案,是把Chinese-CLIP作为text encoder后只finetune这部分。从一些MUGE电商领域以及比较简单的通用领域的case来看,结果还算正常,可能一定的finetune还是需要的,如:
-
落地式台盆柜

-
一只猫坐在草地上,4K,高清,真实图片

但确实由于我们在这个任务上也是刚刚起步,现在我们的探索还非常初步,请继续期待我们在这个方向的更多发布。如果您后续有更多的进展,也欢迎积极和我们讨论!
就是你们目前开源的模型,使用ChineseCLIPTextModel,其效果是不行的,必须要进行finetune吗?
@zhaopu0710 因为stable diffusion本身已经按照英文CLIP的语义空间训练好,Chinese-CLIP图文参数和CLIP都已经不同,把Chinese-CLIP按照自己语义空间训练的文本encoder直接替换过去,这本身就不应该work了,这个方法就是错误的。进行finetune是必要的。
好的,了解了。非常感谢!
您好,请问这块有任何进展可以公布吗?
@zjttfs 您好,我们还在继续准备的过程中哈,请您再继续等待下~ 我们的人员精力确实非常紧张,有进展我们会第一时间公布哈
Hi, (1) is there any update on this issue? (2) to fine-tune your Chinese-CLIP model text encoder on other diffusion models trained on English-corpus, how much training data do you expect so as to achieve a decent performance?
thanks for your excellent work!
@yangapku 您好, 你可以公布一下Chinese CLIP结合Stabel Diffusion的代码吗? 我在结合的时候遇到了很多问题
@yangapku 您好, 你可以公布一下Chinese CLIP结合Stabel Diffusion的代码吗? 我在结合的时候遇到了很多问题
或许可以借鉴一下:https://hf-mirror.com/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1