InternVL
InternVL copied to clipboard
[CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型
目前有1.2版本的LoRA微调,但是我用到1.5版本的模型上显示了一些权重匹配上的问题,即某些权重层的key不一样。想问一下有什么解决方案,我现在的算力不支持我用full llm。1.5版本的LoRA微调什么时候可以release?
新手想问一下动态分patch的代码在什么地方啊?找不到555
windows 下使用demo程序,本地加载模型库,运行一直报错: raise ImportError('flash_attn is not installed.') ImportError: flash_attn is not installed. 通过 pip install flash_attn 一直无法安装成功 请问如何解决?
非常厉害的模型,我这边主要有两个问题想要请教下: 1.第一个问题就是标题中的问题,1.2版本是否支持多图输入的微调呢?具体而言,在第一轮对话中给出多张图像及问答对的微调形式是否可行呢?大概是这个意思: { "id": 0, "image": "images/5.png","images/6.png","images/7.png", "conversations": [ { "from": "human", "value": "\n第一轮对话的问题" }, { "from": "gpt", "value": "第一轮对话的回答" }, { "from": "human", "value": "第二轮对话的问题" }, { "from": "gpt",...
背景:internvl-1.5-int8,使用两张A10卡做batch_inf,设置bitch_size=4。 问题: 1. gpu利用率平均在20%,太低 2. 两张A10卡,受限于显存,不支持大bitch_size 3. 已经采用异步预处理和推理 请问在这种情况下,如何进一步提高gpu利用率,预期60%以上 。备注:可参考附件的截图,批次推理,每两个GPU利用率高峰间,总存在约45s的利用率低谷,请问这里有什么办法减小吗? 感谢!
请问一下,我在使用megatron对InternViT进行TP拆分时,发现num_attention_heads=25,这个数值无法被2的倍数整除,这个数值当初在设计时是怎么考虑的呢?是否可以替换成其他数值,比如24?
例如:提取《食品运营许可证》字段 “经营者名称”,预期提取: 西安群晟餐饮管理有限责任公司丰隆路分公司 ; 实际提取: 西安群晟餐饮管理有限责任公司丰隆  ![Uploading screenshot-20240523-093438.png…]()
我用了 Hugging Face 中提供的代码实例 ``` # single-round single-image conversation question = "请详细描述图片" # Please describe the picture in detail response = model.chat(tokenizer, pixel_values, question, generation_config) print(question, response) ``` 并且尝试把其中的 `pixel_values...