Visual-Chinese-LLaMA-Alpaca 训练数据

训练数据

Open qingzwang opened this issue 1 year ago • 3 comments

请问训练数据来自哪里呢？中文captioning的数据质量相对较差啊

Aug 01 '23 02:08 qingzwang

我们的预训练数据都来自可从网上下载的公开数据集。除了收集原生中文caption数据，我们还将一些公开的英文caption数据集的文本翻译成了中文。

Aug 01 '23 05:08 GoGoJoestar

具体有哪些中文captioning数据集呢？或者有公开文档可以看看么？感觉Taisu之类的数据集噪声很大，直接用这个数据集做captioning看不到效果。

Aug 01 '23 05:08 qingzwang

+1，方便说一下是哪些公开数据集嘛，一共有多少量的数据呢

Dec 18 '23 10:12 zhongtao93