Xie Huaibing
Xie Huaibing
想问下tokenizer_train的jsonl文件里为什么不用中文呢,这样不会导致中文编码效率过低的问题嘛?
长文本能力问题
非常精彩的项目,我有些问题想请教下 跳转链接如下: https://github.com/jingyaogong/minimind/blob/master/README.md#:~:text=%E5%9C%A8%E8%AE%AD%E7%BB%83%E6%97%B6,%E6%95%B0%E4%B8%BA6%E3%80%82 想问下代码中是否有改变RoPE线形插值的部分? 后续会有长文本方面的教学吗?
### Reminder - [x] I have read the above rules and searched the existing issues. ### System Info 使用unsloth报错: `[rank5]: Traceback (most recent call last): [rank5]: File "/disks/sdb/user_space/yujingsong/jiangxinyu/anaconda3/envs/huaibing_2/lib/python3.11/site-packages/unsloth_zoo/compiler.py", line 259,...