Visual-Chinese-LLaMA-Alpaca
Visual-Chinese-LLaMA-Alpaca copied to clipboard
训练数据
请问训练数据来自哪里呢?中文captioning的数据质量相对较差啊
我们的预训练数据都来自可从网上下载的公开数据集。除了收集原生中文caption数据,我们还将一些公开的英文caption数据集的文本翻译成了中文。
具体有哪些中文captioning数据集呢?或者有公开文档可以看看么?感觉Taisu之类的数据集噪声很大,直接用这个数据集做captioning看不到效果。
+1,方便说一下是哪些公开数据集嘛,一共有多少量的数据呢