LlinWing
Results
1
issues of
LlinWing
在抽样观察20230147/huggingface.20230147.1.网页/61.jsonl时,发现数组下标为12的json中含有无法正常显示的字符:  用jieba分词后显示为:  我使用chatGPT建议的以下代码正则匹配“无法正常显示的字符”: def count_unprintable_characters(string): pattern = r'[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]' matches = re.findall(pattern, string) return len(matches) 发现在该jsonl的10万条json中,有超过1.1万条有这种情况。 请问这是正常的还是语料出错了?