Yang An comments

Results 55 comments of


                                            Yang An

lmdb存放千万级别数据IO问题

您好，这个问题我们确实后续需要更好支持下。我们进行Chinese-CLIP预训练时，对于预训练上亿量级图文对的分布式数据读取，其实是采用了集团内部的数据表读取机制（并非LMDB），LMDB这套数据存取逻辑是我们先为开源版本准备的，模型finetune因为数据量级不会很大，问题可能不大，但是处理7000w这种大量级的数据确实还是会有些不便。我们后面看看能否支持一些优化机制（比如支持按机器数/卡数切分成多个LMDB小文件，训练时每台机器/每张卡读取自己的LMDB小文件），但是我们现在人员精力确实相当紧张，所以可能会比较慢一些不太好预估何时完成。您可以先按照这样的思路进行尝试（LMDB本身应该是支持制作时保存在多个小文件中的），更欢迎您为我们提供PR，支持上这个issue哈。

lmdb存放千万级别数据IO问题

明白~ 如果后续尝试有更多问题，欢迎及时沟通同步！

关于完全在自己的数据集上的训练

@Xujianzhong 您好，没有问题哈： + 视觉侧原始CLIP权重（格式已转好），用于在预训练中文CLIP时，初始化视觉侧 1. RN50：https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/checkpoints/init_weights/RN50/RN50.state_dict.pt 2. ViT-B-16：https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/checkpoints/init_weights/ViT-B-16/ViT-B-16.state_dict.pt 3. ViT-L-14：https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/checkpoints/init_weights/ViT-L-14/ViT-L-14.state_dict.pt 4. ViT-H-14（Laion）：https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/checkpoints/init_weights/ViT-H-14/ViT-H-14.state_dict.pt + 文本侧原始Roberta权重（格式已转好），用于在预训练中文CLIP时，初始化文本侧 1. RBT3：https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/checkpoints/init_weights/chinese_rbt3/pytorch_model.bin 2. Roberta-base-wwm-ext：https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/checkpoints/init_weights/chinese_roberta_wwm_base_ext/pytorch_model.bin 3. Roberta-large-wwm-ext：https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/checkpoints/init_weights/chinese_roberta_wwm_large_ext/pytorch_model.bin 如果有更多问题，欢迎继续留言。如果觉得Chinese-CLIP代码库对您有帮助，请您为我们点点star⭐️并推荐给身边的朋友们！

跨模态检索中的以文搜图，能否对输入的query文本包含的关键字/词，进行不同权重的设置，从而能够检索出更加细致且符合用户意愿的图片？

您好，建议还是通过finetune的方式，引入您希望模型拥有的先验。目前直接使用我们提供的模型，应该暂时还无法实现这个特性哈。

是否可以作为stable diffusion的text encoder?

您好，Chinese-CLIP模型应用在stable diffusion的尝试我们正在探索中，请您期待我们后续的正式发布。目前我们在一些小规模数据集（MUGE数据）尝试finetune有些初步结果，暂时还不是很完善达到能开源的阶段。当下我们在尝试的方案，是把Chinese-CLIP作为text encoder后只finetune这部分。从一些MUGE电商领域以及比较简单的通用领域的case来看，结果还算正常，可能一定的finetune还是需要的，如： + 落地式台盆柜 ![image](https://user-images.githubusercontent.com/17445544/207306488-979b23b6-9d16-4961-bf05-7b088acfb5f5.png) ![image](https://user-images.githubusercontent.com/17445544/207306570-72ea1b44-8671-4af7-be2d-9ca68eeeef17.png) + 一只猫坐在草地上，4K，高清，真实图片 ![image](https://user-images.githubusercontent.com/17445544/207306654-fe409592-b960-4b25-b471-144f785dad7c.png) ![image](https://user-images.githubusercontent.com/17445544/207306681-e978a322-2ad7-41f4-9328-efc9c4217151.png) 但确实由于我们在这个任务上也是刚刚起步，现在我们的探索还非常初步，请继续期待我们在这个方向的更多发布。如果您后续有更多的进展，也欢迎积极和我们讨论！

Yang An

lmdb存放千万级别数据IO问题

lmdb存放千万级别数据IO问题

关于完全在自己的数据集上的训练

跨模态检索中的以文搜图，能否对输入的query文本包含的关键字/词，进行不同权重的设置，从而能够检索出更加细致且符合用户意愿的图片？

是否可以作为stable diffusion的text encoder?

是否可以作为stable diffusion的text encoder?

是否可以作为stable diffusion的text encoder?

请问CLIPTokenizer和Chinese-CLIP中的什么对应呢？

能否CPU训练

NameError: name 'FlashMHA' is not defined Killing subprocess 131988