Visual-Chinese-LLaMA-Alpaca icon indicating copy to clipboard operation
Visual-Chinese-LLaMA-Alpaca copied to clipboard

训练数据

Open qingzwang opened this issue 1 year ago • 3 comments

请问训练数据来自哪里呢?中文captioning的数据质量相对较差啊

qingzwang avatar Aug 01 '23 02:08 qingzwang

我们的预训练数据都来自可从网上下载的公开数据集。除了收集原生中文caption数据,我们还将一些公开的英文caption数据集的文本翻译成了中文。

GoGoJoestar avatar Aug 01 '23 05:08 GoGoJoestar

具体有哪些中文captioning数据集呢?或者有公开文档可以看看么?感觉Taisu之类的数据集噪声很大,直接用这个数据集做captioning看不到效果。

qingzwang avatar Aug 01 '23 05:08 qingzwang

+1,方便说一下是哪些公开数据集嘛,一共有多少量的数据呢

zhongtao93 avatar Dec 18 '23 10:12 zhongtao93