Linly
Linly copied to clipboard
请问通过运行preprocess.py 发现 tokenizer 用的是bert 这个是对的嘛?
请问通过运行preprocess.py 发现 tokenizer 用的是bert 这个是对的嘛?
tencentpretrain/utils/tokenizers.py 从里面看应该是没问题,当有spm_model_path时会用sentencepiece来加载,符合llama用的方式。