加载不了训练后模型

Open 141forever opened this issue 7 months ago • 0 comments

Reminder

[x] I have read the above rules and searched the existing issues.

System Info

DPO训完Qwen2.5-7B后我的存储路径下 -rw-rw-rw- 1 root root 605 5月 14 23:35 added_tokens.json -rw-rw-rw- 1 root root 964 5月 14 23:35 config.json -rw-rw-rw- 1 root root 243 5月 14 23:35 generation_config.json drwxrwxrwx 2 root root 4096 5月 14 23:35 global_step30 -rw-rw-rw- 1 root root 13 5月 14 23:36 latest -rw-rw-rw- 1 root root 1671853 5月 14 23:35 merges.txt -rw-rw-rw- 1 root root 4877660776 5月 14 23:35 model-00001-of-00004.safetensors -rw-rw-rw- 1 root root 4932751008 5月 14 23:35 model-00002-of-00004.safetensors -rw-rw-rw- 1 root root 4330865200 5月 14 23:35 model-00003-of-00004.safetensors -rw-rw-rw- 1 root root 1089994880 5月 14 23:35 model-00004-of-00004.safetensors -rw-rw-rw- 1 root root 27752 5月 14 23:35 model.safetensors.index.json -rw-rw-rw- 1 root root 15984 5月 14 23:36 rng_state_0.pth -rw-rw-rw- 1 root root 15984 5月 14 23:36 rng_state_1.pth -rw-rw-rw- 1 root root 15984 5月 14 23:36 rng_state_2.pth -rw-rw-rw- 1 root root 15984 5月 14 23:36 rng_state_3.pth -rw-rw-rw- 1 root root 15984 5月 14 23:36 rng_state_4.pth -rw-rw-rw- 1 root root 15984 5月 14 23:36 rng_state_5.pth -rw-rw-rw- 1 root root 15984 5月 14 23:36 rng_state_6.pth -rw-rw-rw- 1 root root 15984 5月 14 23:36 rng_state_7.pth -rw-rw-rw- 1 root root 1064 5月 14 23:36 scheduler.pt -rw-rw-rw- 1 root root 613 5月 14 23:35 special_tokens_map.json -rw-rw-rw- 1 root root 7333 5月 14 23:35 tokenizer_config.json -rw-rw-rw- 1 root root 11421896 5月 14 23:35 tokenizer.json -rw-rw-rw- 1 root root 15807 5月 14 23:36 trainer_state.json -rw-rw-rw- 1 root root 7288 5月 14 23:35 training_args.bin -rw-rw-rw- 1 root root 2776833 5月 14 23:35 vocab.json -rwxrw-rw- 1 root root 25314 5月 14 23:36 zero_to_fp32.py

然后我试图hugging face加载这个模型

为啥会Traceback (most recent call last): File "/root/sglang-0.3.4.post1/python/sglang/srt/managers/detokenizer_manager.py", line 214, in run_detokenizer_process manager = DetokenizerManager(server_args, port_args) File "/root/sglang-0.3.4.post1/python/sglang/srt/managers/detokenizer_manager.py", line 70, in init self.tokenizer = get_tokenizer( File "/root/sglang-0.3.4.post1/python/sglang/srt/hf_transformers_utils.py", line 128, in get_tokenizer tokenizer = AutoTokenizer.from_pretrained( File "/root/miniconda3/lib/python3.10/site-packages/transformers/models/auto/tokenization_auto.py", line 844, in from_pretrained tokenizer_config = get_tokenizer_config(pretrained_model_name_or_path, **kwargs) File "/root/miniconda3/lib/python3.10/site-packages/transformers/models/auto/tokenization_auto.py", line 676, in get_tokenizer_config resolved_config_file = cached_file( File "/root/miniconda3/lib/python3.10/site-packages/transformers/utils/hub.py", line 469, in cached_file raise EnvironmentError( OSError: Incorrect path_or_model_id: '/cpfs01/shared/llm_ddd/guoxu/data/chenkedi/qwen2_5_7B_DPO/checkpoint-30'. Please provide either the path to a local folder or the repo_id of a model on the Hub.

Reproduction

Put your message here.

Others

No response

May 14 '25 17:05 141forever