esbatmop
esbatmop
里屋的管理员们也在改代码,准备分个地方做数据集的交流专区,改好后github首页会更新的,满足大家的好奇心。
1.huggingface上有少量分类的数据。 2.“为了长而持久的提供数据集的更新和下载,为了尽量避免版权争议,本数据集不提供压缩包内数据的索引和分类。” 3.所有压缩包内数据都清洗为7种语料格式:https://wiki.mnbvc.org/doku.php/%E7%8E%B0%E6%9C%89%E8%AF%AD%E6%96%99%E6%A0%BC%E5%BC%8F 4.所有压缩包解压后的子目录上都在目录名后缀上对本目录内语料做了分类说明
这里有几个原因: 1.我们是针对预训练的语料集,代码语料作为人类近几十年新出现的语料品种,具备逻辑压缩、格式统一等优点,是预训练语料集中必不可少的部分。 2.目前开源的其他代码语料集,不但做了代码仓库的过滤,而且对字符编码做了清洗,导致包含中文注释的代码数据很少。我们是中文语料集,需要尽可能的保留中文编码,所以我们爬取代码数据时对GBK等其他编码的代码数据做了特殊处理。 3.开源代码仓库并不只有一个github,我们统计到还有另外8个开源代码仓库和其他散碎的代码,这些数据都是其他代码语料集缺少的。 4.国内爬取github等代码仓库有一定难度。
pdf的处理是比较麻烦的,请参阅项目首页的“多模态处理工具”。付费工具我们试下来mathpix的效果最好。 word比较复杂,有doc和docx不同的版本,微软在windows环境提供了官方的转码工具,可以找一下。
我们没有特地去收集火星文语料,一些火星文内容会在论坛语料和聊天语料中存在,我们没有对这种数据做特别过滤。 你需要火星文语料,可以把正常文本的数据,通过各种互联网上的中文转火星文工具来处理成火星文语料。https://www.google.com.hk/search?q=%E8%BD%AC%E7%81%AB%E6%98%9F%E6%96%87%E5%B7%A5%E5%85%B7