MNBVC
MNBVC copied to clipboard
语料分类
有对应数据的语料分类的目录之类的吗?大佬
1.huggingface上有少量分类的数据。 2.“为了长而持久的提供数据集的更新和下载,为了尽量避免版权争议,本数据集不提供压缩包内数据的索引和分类。” 3.所有压缩包内数据都清洗为7种语料格式:https://wiki.mnbvc.org/doku.php/%E7%8E%B0%E6%9C%89%E8%AF%AD%E6%96%99%E6%A0%BC%E5%BC%8F 4.所有压缩包解压后的子目录上都在目录名后缀上对本目录内语料做了分类说明