Zengjie Hu(胡增杰)

Results 16 comments of Zengjie Hu(胡增杰)

> 这种问题一般都是多模态部分的tokens太长了,超过了你设置的cutoff,根据报错信息调整cutoff即可。例如:Image features and image tokens do not match: tokens: 4022, features 4974,则把cutoff从当前的4096再调高一等为8192即可。 哈喽你好,我想问一下,我的也是出现这个问题,具体报错是: `ValueError: Image features and image tokens do not match: tokens: 5022, features 5152` 我之前听从你的建议修改了cutoff_len, 能解决过这个问题,但是现在我已经设置`--cutoff_len 24576`,但是还会会出现这个问题啊?请问这是什么情况呢?这个数字远超显示的tokens数量。期待和感谢解答~

In fact, the problem occurs when I run the first data in my dataset. My dataset is a JSON file containing 223,000 data entries. Below are the commands I executed:...

But I previously ran a dataset with 2,000 entries in the same format, and it trained successfully without any issues.

GPU的利用率如下: ![Image](https://github.com/user-attachments/assets/f6b68391-38cd-44ed-b35c-fbf632cd2dba) 而且GPU的memory利用情况如下: ![Image](https://github.com/user-attachments/assets/9e338fe8-4cfa-44cf-84c8-0cf6388c7f93) 还有一个问题就是,我开的另外一个sft,模型是Qwen2.5VL-7B-Instruct, 其他设置和数据是一样的,但是那个久没有训这么久,那个大约显示时间为六七天,而且我有个疑问就是那个的GPU memory的使用情况如下: 它为什么是一直呈现增长的趋势? ![Image](https://github.com/user-attachments/assets/bb382878-00ce-4b9f-b5eb-75d7a24dbf8c)

并且,我执行`ps aux | grep llamafactory` 结果显示出现了22个名称是我执行的llamafactory命令的进程,这是正常的吗? 就是类似这样的指令 `my_local_path/miniconda3/envs/hzj_llama_factory/bin/python -u my_local_path/LLaMA-Factory/src/llamafactory/launcher.py --stage sft --do_train True --model_name_or_path my_local_path/model/llava-v1.6-vicuna-7b-hf --preprocessing_num_workers 64 --finetuning_type lora --template llava_next --flash_attn auto --dataset_dir my_local_path/vts/train/sft/LLaMA-Factory/data --dataset remained_dataset_verision_2 --cutoff_len 79990...

而且我发现,我把我训练的进程ctrl+C结束掉之后,这22个进程,还剩下12个,GPU的利用率还有100%,memory倒是下降了,变成了下面的这样,是不是llamafactory启动的时候会多启动什么进程没办法结束?

是的,我在启用前确保了GPU上没有任何进程, 而且我刚才试了,如果我训练的时候,把那些进程关掉,训练也会结束

而且我发现,重新启动训练脚本之后,在执行`ps aux | grep llamafactory`会出现的进程只有10个了,也就是刚才我第一次启动的时候执行出现的22个与停止训练进程之后的12个之间的差值,所以我怀疑是tokenizing过程泄露了12个进程?因为重新启动不需要tokenizing,并且我在第一遍tokenizing是时候花费了半个小时的时间。 或者是第一次启动脚本是泄露了什么别的进程,而那些进程在训练的时候占用了我的GPU利用率。现在我重新启动之后仍然需要花费很多时间,需要400多个小时。请问您能回答一下这个问题吗? @hiyouga

使用的启动指令,是执行llamafactory-cli webui 之后调整参数之后生成的指令,具体如下: ``` export WANDB_API_KEY=my_wandb_api_key llamafactory-cli train \ --stage sft \ --do_train True \ --model_name_or_path my_local_path/model/llava-v1.6-vicuna-7b-hf \ --preprocessing_num_workers 64 \ --finetuning_type lora \ --template llava_next \ --flash_attn fa2 \...