minimind
minimind copied to clipboard
关于自训tokenizer的问题
想问下tokenizer_train的jsonl文件里为什么不用中文呢,这样不会导致中文编码效率过低的问题嘛?