MiniCPM
MiniCPM copied to clipboard
[Bad Case]: 使用tokenizer编码<用户> <AI> 出的tk与finetune脚本对不上
Description / 描述
user_tokens=[1786, 4194, 95388] 这是sft脚本内提供的 这是我tk化出来的:[95396, 4194, 95388]
代码仓库llama_factory 复现方式:
CUDA_VISIBLE_DEVICES=0 deepspeed ../../src/train_bash.py
--deepspeed ../deepspeed/ds_z3_config.json
--stage sft
--do_train
--model_name_or_path /mnt/h/models/MiniCPM-2B-dpo-llama-format
--dataset xx
--dataset_dir ../../data
--template cpm
Case Explaination / 案例解释
No response