esbatmop
esbatmop
麻烦@silverriver 看下
> 本身就是搜集中文语料的项目,国内用户还是二等公民么?不首先以国内用户访问方便为准则么? 我们鼓励任何方式分发MNBVC数据集,也欢迎你加入MNBVC项目提供更多的数据分发方式。目前往huggingface上传数据只有一两位同学在做,非常辛苦。 往modelscope平台上传一份数据绝对是个好主意,但需要有人能帮忙做这个事情。
我们目前只有silverriver一位同学负责huggingface的数据上传,因为huggingface的水管太小,且即便开了vpn,传输仍然容易中断,所以往huggingface上放数据的进度有点慢。
这部分语料来源于common crawl 的开源数据集,现有老外做的开源数据集都不考虑中文编码问题。而且现有转码工具和python自身的中文编码都还留着很多坑。各种乱码深究源头可能要追述到中国错过了上一次工业革命,本身很多字符集编码转码都不是中国人开发的。我们的语料增强小组正在对中文编码问题进行深入研究:https://github.com/alanshi/charset_mnbvc 就目前来看,发现这种问题请使用时从语料集中排出这些无法正常显示的字符。
> 借楼问下编码相关的问题,最近在看里面的一些内容,发现部分文档虽然是.txt格式,但是直接open读取的时候,解码不管是utf-8还是gb2312都会失败,这个有考虑过统一格式吗?也许是我打开方式不对,还请指点一下。 目前压缩包里txt格式的文件,都是我们在往jsonl统一格式时,发现有编码问题所以暂停的。可以使用我们语料增强小组最新提供的工具:https://wiki.mnbvc.org/doku.php/github_codespaces%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E
不一样,威力包括没有完成清洗的数据,威力里的数据和百度网盘是一样的。可以参考其他issue #35
威力里的数据在持续清洗中(这需要很多人力的投入,需要时间,我们离国外成熟数据集还有很大距离),清洗好后会更新威力的包。最终威力里的所有数据会统一到下面几种格式:https://wiki.mnbvc.org/doku.php/%E7%8E%B0%E6%9C%89%E8%AF%AD%E6%96%99%E6%A0%BC%E5%BC%8F
谢谢支持,我们离欧美成熟的数据集还有很大距离,还需要好多年的时间来补上功课。
1.越往后的包数据清洗的越干净。我们在第一阶段(到本月底,项目成立一个月整,且顺利完成1Tb数据堆量小目标)后,会启动对历史数据压缩包的重新清洗打包工作。 2.我们的判断是,堆量的优先级更高,数据人人能洗。目前数据清洗任务由yufei的组负责,可以去里屋或者Trello向这个组提需求和提供代码(另一个issue中有项目进展Trello的链接)。 3.我们也有将数据集放到huggingface上的精加工计划,目前pomelo在负责其中一块工作,可以去里屋催他。 4.这是一个社区主导的项目,[里屋社区](http://mnbvc.253874.net)是项目主要讨论区。
在收录数据时会尽量避免不重复收录. 但是不同来源数据间的去重并不是这个语料集需要考虑的工作. 本语料集对标的是chatGPT训练使用的40T数据,这份包括了网页数据的40T数据也是没有做内部去重的.