Yang An
Yang An
您好,这个问题我们确实后续需要更好支持下。我们进行Chinese-CLIP预训练时,对于预训练上亿量级图文对的分布式数据读取,其实是采用了集团内部的数据表读取机制(并非LMDB),LMDB这套数据存取逻辑是我们先为开源版本准备的,模型finetune因为数据量级不会很大,问题可能不大,但是处理7000w这种大量级的数据确实还是会有些不便。我们后面看看能否支持一些优化机制(比如支持按机器数/卡数切分成多个LMDB小文件,训练时每台机器/每张卡读取自己的LMDB小文件),但是我们现在人员精力确实相当紧张,所以可能会比较慢一些不太好预估何时完成。您可以先按照这样的思路进行尝试(LMDB本身应该是支持制作时保存在多个小文件中的),更欢迎您为我们提供PR,支持上这个issue哈。
明白~ 如果后续尝试有更多问题,欢迎及时沟通同步!
@Xujianzhong 您好,没有问题哈: + 视觉侧原始CLIP权重(格式已转好),用于在预训练中文CLIP时,初始化视觉侧 1. RN50:https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/checkpoints/init_weights/RN50/RN50.state_dict.pt 2. ViT-B-16:https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/checkpoints/init_weights/ViT-B-16/ViT-B-16.state_dict.pt 3. ViT-L-14:https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/checkpoints/init_weights/ViT-L-14/ViT-L-14.state_dict.pt 4. ViT-H-14(Laion):https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/checkpoints/init_weights/ViT-H-14/ViT-H-14.state_dict.pt + 文本侧原始Roberta权重(格式已转好),用于在预训练中文CLIP时,初始化文本侧 1. RBT3:https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/checkpoints/init_weights/chinese_rbt3/pytorch_model.bin 2. Roberta-base-wwm-ext:https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/checkpoints/init_weights/chinese_roberta_wwm_base_ext/pytorch_model.bin 3. Roberta-large-wwm-ext:https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/checkpoints/init_weights/chinese_roberta_wwm_large_ext/pytorch_model.bin 如果有更多问题,欢迎继续留言。如果觉得Chinese-CLIP代码库对您有帮助,请您为我们点点star⭐️并推荐给身边的朋友们!
您好,建议还是通过finetune的方式,引入您希望模型拥有的先验。目前直接使用我们提供的模型,应该暂时还无法实现这个特性哈。
您好,Chinese-CLIP模型应用在stable diffusion的尝试我们正在探索中,请您期待我们后续的正式发布。目前我们在一些小规模数据集(MUGE数据)尝试finetune有些初步结果,暂时还不是很完善达到能开源的阶段。当下我们在尝试的方案,是把Chinese-CLIP作为text encoder后只finetune这部分。从一些MUGE电商领域以及比较简单的通用领域的case来看,结果还算正常,可能一定的finetune还是需要的,如: + 落地式台盆柜   + 一只猫坐在草地上,4K,高清,真实图片   但确实由于我们在这个任务上也是刚刚起步,现在我们的探索还非常初步,请继续期待我们在这个方向的更多发布。如果您后续有更多的进展,也欢迎积极和我们讨论!
@zhaopu0710 因为stable diffusion本身已经按照英文CLIP的语义空间训练好,Chinese-CLIP图文参数和CLIP都已经不同,把Chinese-CLIP按照自己语义空间训练的文本encoder直接替换过去,这本身就不应该work了,这个方法就是错误的。进行finetune是必要的。
@zjttfs 您好,我们还在继续准备的过程中哈,请您再继续等待下~ 我们的人员精力确实非常紧张,有进展我们会第一时间公布哈
Chinese-CLIP github版本直接把分词器实现在本身代码中了哈,不需要引入外部其他库代码了
您好,目前CPU训练尚不支持哈
您好,请问可以提供下完整报错吗?