MNBVC icon indicating copy to clipboard operation
MNBVC copied to clipboard

语料分类

Open wangdefours opened this issue 11 months ago • 1 comments

有对应数据的语料分类的目录之类的吗?大佬

wangdefours avatar Feb 12 '25 02:02 wangdefours

1.huggingface上有少量分类的数据。 2.“为了长而持久的提供数据集的更新和下载,为了尽量避免版权争议,本数据集不提供压缩包内数据的索引和分类。” 3.所有压缩包内数据都清洗为7种语料格式:https://wiki.mnbvc.org/doku.php/%E7%8E%B0%E6%9C%89%E8%AF%AD%E6%96%99%E6%A0%BC%E5%BC%8F 4.所有压缩包解压后的子目录上都在目录名后缀上对本目录内语料做了分类说明

esbatmop avatar Feb 17 '25 03:02 esbatmop