LlinWing

Results 1 issues of LlinWing

在抽样观察20230147/huggingface.20230147.1.网页/61.jsonl时,发现数组下标为12的json中含有无法正常显示的字符: ![image](https://github.com/esbatmop/MNBVC/assets/17806440/fab474fa-c38f-4420-8fd5-c8da06416fb5) 用jieba分词后显示为: ![image](https://github.com/esbatmop/MNBVC/assets/17806440/9f27c825-0846-4717-bf3f-2fcddebd58c5) 我使用chatGPT建议的以下代码正则匹配“无法正常显示的字符”: def count_unprintable_characters(string): pattern = r'[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]' matches = re.findall(pattern, string) return len(matches) 发现在该jsonl的10万条json中,有超过1.1万条有这种情况。 请问这是正常的还是语料出错了?