MNBVC 无法正常显示的字符编码

在抽样观察20230147/huggingface.20230147.1.网页/61.jsonl时，发现数组下标为12的json中含有无法正常显示的字符：用jieba分词后显示为：我使用chatGPT建议的以下代码正则匹配“无法正常显示的字符”： def count_unprintable_characters(string): pattern = r'[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]' matches = re.findall(pattern, string) return len(matches) 发现在该jsonl的10万条json中，有超过1.1万条有这种情况。请问这是正常的还是语料出错了？

Jun 10 '23 23:06 LlinWing

这部分语料来源于common crawl 的开源数据集，现有老外做的开源数据集都不考虑中文编码问题。而且现有转码工具和python自身的中文编码都还留着很多坑。各种乱码深究源头可能要追述到中国错过了上一次工业革命，本身很多字符集编码转码都不是中国人开发的。我们的语料增强小组正在对中文编码问题进行深入研究：https://github.com/alanshi/charset_mnbvc

就目前来看，发现这种问题请使用时从语料集中排出这些无法正常显示的字符。

Jun 11 '23 03:06 esbatmop

借楼问下编码相关的问题，最近在看里面的一些内容，发现部分文档虽然是.txt格式，但是直接open读取的时候，解码不管是utf-8还是gb2312都会失败，这个有考虑过统一格式吗？也许是我打开方式不对，还请指点一下。

Aug 15 '23 11:08 FlyCarrot

借楼问下编码相关的问题，最近在看里面的一些内容，发现部分文档虽然是.txt格式，但是直接open读取的时候，解码不管是utf-8还是gb2312都会失败，这个有考虑过统一格式吗？也许是我打开方式不对，还请指点一下。

目前压缩包里txt格式的文件，都是我们在往jsonl统一格式时，发现有编码问题所以暂停的。可以使用我们语料增强小组最新提供的工具：https://wiki.mnbvc.org/doku.php/github_codespaces%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E

Aug 18 '23 06:08 esbatmop

借楼问下编码相关的问题，最近在看里面的一些内容，发现部分文档虽然是.txt格式，但是直接open读取的时候，解码不管是utf-8还是gb2312都会失败，这个有考虑过统一格式吗？也许是我打开方式不对，还请指点一下。

目前压缩包里txt格式的文件，都是我们在往jsonl统一格式时，发现有编码问题所以暂停的。可以使用我们语料增强小组最新提供的工具：wiki.mnbvc.org/doku.php/github_codespaces%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E

在hf上传的语料中发现Unicode特殊区段的字符未被过滤，请问这是故意保留的吗？

Nov 15 '23 03:11 chinoll