MiniCPM icon indicating copy to clipboard operation
MiniCPM copied to clipboard

[Bad Case]: 使用tokenizer编码<用户> <AI> 出的tk与finetune脚本对不上

Open zlh1992 opened this issue 1 year ago • 0 comments

Description / 描述

user_tokens=[1786, 4194, 95388] 这是sft脚本内提供的 这是我tk化出来的:[95396, 4194, 95388]

代码仓库llama_factory 复现方式:

CUDA_VISIBLE_DEVICES=0 deepspeed ../../src/train_bash.py
--deepspeed ../deepspeed/ds_z3_config.json
--stage sft
--do_train
--model_name_or_path /mnt/h/models/MiniCPM-2B-dpo-llama-format
--dataset xx
--dataset_dir ../../data
--template cpm

Case Explaination / 案例解释

No response

zlh1992 avatar Apr 06 '24 06:04 zlh1992