无法正常显示的字符编码
在抽样观察20230147/huggingface.20230147.1.网页/61.jsonl时,发现数组下标为12的json中含有无法正常显示的字符:
用jieba分词后显示为:
我使用chatGPT建议的以下代码正则匹配“无法正常显示的字符”:
def count_unprintable_characters(string):
pattern = r'[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]'
matches = re.findall(pattern, string)
return len(matches)
发现在该jsonl的10万条json中,有超过1.1万条有这种情况。
请问这是正常的还是语料出错了?
这部分语料来源于common crawl 的开源数据集,现有老外做的开源数据集都不考虑中文编码问题。而且现有转码工具和python自身的中文编码都还留着很多坑。各种乱码深究源头可能要追述到中国错过了上一次工业革命,本身很多字符集编码转码都不是中国人开发的。我们的语料增强小组正在对中文编码问题进行深入研究:https://github.com/alanshi/charset_mnbvc
就目前来看,发现这种问题请使用时从语料集中排出这些无法正常显示的字符。
借楼问下编码相关的问题,最近在看里面的一些内容,发现部分文档虽然是.txt格式,但是直接open读取的时候,解码不管是utf-8还是gb2312都会失败,这个有考虑过统一格式吗?也许是我打开方式不对,还请指点一下。
借楼问下编码相关的问题,最近在看里面的一些内容,发现部分文档虽然是.txt格式,但是直接open读取的时候,解码不管是utf-8还是gb2312都会失败,这个有考虑过统一格式吗?也许是我打开方式不对,还请指点一下。
目前压缩包里txt格式的文件,都是我们在往jsonl统一格式时,发现有编码问题所以暂停的。可以使用我们语料增强小组最新提供的工具:https://wiki.mnbvc.org/doku.php/github_codespaces%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E
借楼问下编码相关的问题,最近在看里面的一些内容,发现部分文档虽然是.txt格式,但是直接open读取的时候,解码不管是utf-8还是gb2312都会失败,这个有考虑过统一格式吗?也许是我打开方式不对,还请指点一下。
目前压缩包里txt格式的文件,都是我们在往jsonl统一格式时,发现有编码问题所以暂停的。可以使用我们语料增强小组最新提供的工具:wiki.mnbvc.org/doku.php/github_codespaces%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E
在hf上传的语料中发现Unicode特殊区段的字符未被过滤,请问这是故意保留的吗?