MNBVC icon indicating copy to clipboard operation
MNBVC copied to clipboard

无法正常显示的字符编码

Open LlinWing opened this issue 2 years ago • 4 comments

在抽样观察20230147/huggingface.20230147.1.网页/61.jsonl时,发现数组下标为12的json中含有无法正常显示的字符: image 用jieba分词后显示为: image 我使用chatGPT建议的以下代码正则匹配“无法正常显示的字符”: def count_unprintable_characters(string): pattern = r'[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]' matches = re.findall(pattern, string) return len(matches) 发现在该jsonl的10万条json中,有超过1.1万条有这种情况。 请问这是正常的还是语料出错了?

LlinWing avatar Jun 10 '23 23:06 LlinWing

这部分语料来源于common crawl 的开源数据集,现有老外做的开源数据集都不考虑中文编码问题。而且现有转码工具和python自身的中文编码都还留着很多坑。各种乱码深究源头可能要追述到中国错过了上一次工业革命,本身很多字符集编码转码都不是中国人开发的。我们的语料增强小组正在对中文编码问题进行深入研究:https://github.com/alanshi/charset_mnbvc

就目前来看,发现这种问题请使用时从语料集中排出这些无法正常显示的字符。

esbatmop avatar Jun 11 '23 03:06 esbatmop

借楼问下编码相关的问题,最近在看里面的一些内容,发现部分文档虽然是.txt格式,但是直接open读取的时候,解码不管是utf-8还是gb2312都会失败,这个有考虑过统一格式吗?也许是我打开方式不对,还请指点一下。

FlyCarrot avatar Aug 15 '23 11:08 FlyCarrot

借楼问下编码相关的问题,最近在看里面的一些内容,发现部分文档虽然是.txt格式,但是直接open读取的时候,解码不管是utf-8还是gb2312都会失败,这个有考虑过统一格式吗?也许是我打开方式不对,还请指点一下。

目前压缩包里txt格式的文件,都是我们在往jsonl统一格式时,发现有编码问题所以暂停的。可以使用我们语料增强小组最新提供的工具:https://wiki.mnbvc.org/doku.php/github_codespaces%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E

esbatmop avatar Aug 18 '23 06:08 esbatmop

借楼问下编码相关的问题,最近在看里面的一些内容,发现部分文档虽然是.txt格式,但是直接open读取的时候,解码不管是utf-8还是gb2312都会失败,这个有考虑过统一格式吗?也许是我打开方式不对,还请指点一下。

目前压缩包里txt格式的文件,都是我们在往jsonl统一格式时,发现有编码问题所以暂停的。可以使用我们语料增强小组最新提供的工具:wiki.mnbvc.org/doku.php/github_codespaces%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E

在hf上传的语料中发现Unicode特殊区段的字符未被过滤,请问这是故意保留的吗?

chinoll avatar Nov 15 '23 03:11 chinoll