ChatGLM-Tuning
ChatGLM-Tuning copied to clipboard
chore: two minor fixes
两处小修正
- 去掉了
README
中python tokenize_dataset_rows.py
参数的多余空格,多余空格使转义符转义到空格上了。 -
cover_alpaca2jsonl.py
中json.dumps
时,中文字符会被转义,生成的jsonl
文件可读性略差,当然json.loads
会转义回来不影响功能。
>>> import json
>>> print(json.dumps({ "intro": "测试"}))
{"intro": "\u6d4b\u8bd5"}
>>> print(json.dumps({ "intro": "测试" }, ensure_ascii=False))
{"intro": "测试"}
>>> print(json.loads('{"intro": "\u6d4b\u8bd5"}'))
{'intro': '测试'}
>>> print(json.loads('{"intro": "测试"}'))
{'intro': '测试'}