Kingsley
Kingsley
使用vllm推理InternVL3-8B-hf时返回ValueError: `limit_mm_per_prompt` is only supported for multimodal models.
这里应该是没问题的,你可以用check_model_conversion()检查一下
使用vllm推理InternVL3-8B-hf时返回ValueError: `limit_mm_per_prompt` is only supported for multimodal models.
> 我现在`git clone https://huggingface.co/OpenGVLab/InternVL3-8B/tree/main ` 而不是 `https://huggingface.co/OpenGVLab/InternVL3-8B-hf/tree/main` > > 之前 > > ``` > RuntimeError: Error(s) in loading state_dict for Embedding: > size mismatch for weight: copying a param with...
使用vllm推理InternVL3-8B-hf时返回ValueError: `limit_mm_per_prompt` is only supported for multimodal models.
> > > 我现在`git clone https://huggingface.co/OpenGVLab/InternVL3-8B/tree/main ` 而不是 `https://huggingface.co/OpenGVLab/InternVL3-8B-hf/tree/main` > > > 之前 > > > ``` > > > RuntimeError: Error(s) in loading state_dict for Embedding: > > >...
failed (exitcode: -7) 看一下是不是CPU内存不够了
> How to train qwen omni with other languages? > > Regarding issues such as speech tokenzie, ... is it necessary to extend vocab? and how to supplement discrete units...
> 我也遇到了同样的问题: 使用音频+文本混合数据训练,采用 deepspeed zero3,在训练开始时卡住不动,GPU利用率是100%。 但采用 deepspeed zero2 能正常训练。 目前试了很多 deepspeed版本,均无法正常使用 zero3。 dpo吗
你发下配置看看,full sft zero3我记得我是测试过的,没有hanging的问题,已知的是lora zero3会hang
晚点我复现一下
我复现了一下这个问题,发现会在`_conv_forward (torch/nn/modules/conv.py)`这里hang住,不知道你们情况是否一致,我是image+audio dpo data的mixup @wwfnb @aleien95 @wulaoshi
1. 这个问题可能不是[LLaMA-Factory](https://github.com/hiyouga/LLaMA-Factory)涉及到的问题 2. 当前主流多模态大模型的处理逻辑都是在forward时根据特殊模态的token数量位置通过`input_embeds`等额替换特殊span token embedding完成的 所以在进入decoder之前要确认n_**_tokens和获得模态embedding的维度相同