esbatmop comments

Results 25 comments of


                                            esbatmop

huggingface被墙，是否考虑也往modelscope平台上传一份数据

> 本身就是搜集中文语料的项目，国内用户还是二等公民么？不首先以国内用户访问方便为准则么? 我们鼓励任何方式分发MNBVC数据集，也欢迎你加入MNBVC项目提供更多的数据分发方式。目前往huggingface上传数据只有一两位同学在做，非常辛苦。往modelscope平台上传一份数据绝对是个好主意，但需要有人能帮忙做这个事情。

huggingface数据进度

我们目前只有silverriver一位同学负责huggingface的数据上传，因为huggingface的水管太小，且即便开了vpn，传输仍然容易中断，所以往huggingface上放数据的进度有点慢。

这部分语料来源于common crawl 的开源数据集，现有老外做的开源数据集都不考虑中文编码问题。而且现有转码工具和python自身的中文编码都还留着很多坑。各种乱码深究源头可能要追述到中国错过了上一次工业革命，本身很多字符集编码转码都不是中国人开发的。我们的语料增强小组正在对中文编码问题进行深入研究：https://github.com/alanshi/charset_mnbvc 就目前来看，发现这种问题请使用时从语料集中排出这些无法正常显示的字符。

无法正常显示的字符编码

> 借楼问下编码相关的问题，最近在看里面的一些内容，发现部分文档虽然是.txt格式，但是直接open读取的时候，解码不管是utf-8还是gb2312都会失败，这个有考虑过统一格式吗？也许是我打开方式不对，还请指点一下。目前压缩包里txt格式的文件，都是我们在往jsonl统一格式时，发现有编码问题所以暂停的。可以使用我们语料增强小组最新提供的工具：https://wiki.mnbvc.org/doku.php/github_codespaces%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E

威力里的数据跟抱脸里的数据是否一样?

不一样，威力包括没有完成清洗的数据，威力里的数据和百度网盘是一样的。可以参考其他issue #35

威力里的数据跟抱脸里的数据是否一样?

威力里的数据在持续清洗中（这需要很多人力的投入，需要时间，我们离国外成熟数据集还有很大距离），清洗好后会更新威力的包。最终威力里的所有数据会统一到下面几种格式：https://wiki.mnbvc.org/doku.php/%E7%8E%B0%E6%9C%89%E8%AF%AD%E6%96%99%E6%A0%BC%E5%BC%8F

祝贺语料翻倍！

谢谢支持，我们离欧美成熟的数据集还有很大距离，还需要好多年的时间来补上功课。

我有大量算力，支持开源项目，请大家把数据尽量洗干净

1.越往后的包数据清洗的越干净。我们在第一阶段（到本月底，项目成立一个月整，且顺利完成1Tb数据堆量小目标）后，会启动对历史数据压缩包的重新清洗打包工作。 2.我们的判断是，堆量的优先级更高，数据人人能洗。目前数据清洗任务由yufei的组负责，可以去里屋或者Trello向这个组提需求和提供代码(另一个issue中有项目进展Trello的链接)。 3.我们也有将数据集放到huggingface上的精加工计划，目前pomelo在负责其中一块工作，可以去里屋催他。 4.这是一个社区主导的项目，[里屋社区](http://mnbvc.253874.net)是项目主要讨论区。

我有大量算力，支持开源项目，请大家把数据尽量洗干净

在收录数据时会尽量避免不重复收录. 但是不同来源数据间的去重并不是这个语料集需要考虑的工作. 本语料集对标的是chatGPT训练使用的40T数据,这份包括了网页数据的40T数据也是没有做内部去重的.