InternVL InternVL-Chat-V1.2-Plus 能提供量化模型吗

InternVL-Chat-V1.2-Plus 根据您们提供的demo，这是我测试过所有的开源的（甚至仅提供demo的）最好的模型！！！能提供量化的模型吗？因为这个模型文件共计80G，普通卡跑不起来；

如果量化为4bit，或者2bit的gguf格式的文件，可以普通显卡就可以跑。而且越大大模型量化，精度损失越小。希望能转化下，更加以飨读者。

Apr 01 '24 13:04 sunjunlishi

1712047441545 大模型的量化模型用来训练更有性价比

Apr 02 '24 08:04 sunjunlishi

感谢您的建议。我最近会转换一下量化模型并上传到hugging face。

Apr 07 '24 02:04 czczup

咱们的(原来是v1-2plus已基本够用,版本3输出位置是按照1000*1000)，很强。还有咱们这应该没有专门针对测试数据，因为我实测身份证和营业执照等关键信息提取，都非常好，star应该上万，其他人没有发现此处是宝。

Apr 10 '24 02:04 sunjunlishi

咱们的(原来是v1-2plus已基本够用,版本3输出位置是按照1000*1000)，很强。还有咱们这应该没有专门针对测试数据，因为我实测身份证和营业执照等关键信息提取，都非常好，star应该上万，其他人没有发现此处是宝。

感谢反馈！目前已经训好了支持到2K-4K分辨率的模型，刷点性能和实际体验都有大幅提升，预计下周会放出来，可能这两天会更新一个预览的demo。

Apr 11 '24 08:04 czczup

@czczup 哇塞效果这么好。普通消费者只能下载 15G左右的模型；我先尝试下 OpenGVLab/InternViT-6B-448px-V1-5。 thanks thanks

Apr 19 '24 10:04 sunjunlishi

@czczup 哇塞效果这么好。普通消费者只能下载 10G左右的模型；

有试试V1.5的demo吗

Apr 19 '24 10:04 czczup

@czczup 对的，手写，关键信息提取，都非常棒。我只能先跑下特征提取那部分了。量化的需要合作？

Apr 19 '24 10:04 sunjunlishi

https://huggingface.co/failspy/InternVL-Chat-V1-5-4bit 这里提供了一个量化的模型，就是不知道怎么调用

Apr 23 '24 05:04 sunjunlishi

@czczup 老师，给转换一下呗，需要测试数据进行压缩是吗？我们同事都喜欢这个demo效果，搞个量化的嘛。

Apr 23 '24 09:04 sunjunlishi

https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5-Int8/tree/main 哇塞 int8 已经放出

Apr 24 '24 10:04 sunjunlishi

https://github.com/OpenGVLab/InternVL/issues/102 此为样例调用代码。继续跟踪调用代码。本工程代码 python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path xxxxx 验证中。。。。。。

Apr 28 '24 10:04 sunjunlishi

@czczup 老师呀，那个int8量化的还是不中呀，我们两张24G的卡。单张显存不够，两张说，1张加载，一张跑，张量不匹配的错误。

Apr 29 '24 04:04 sunjunlishi

请问4bit量化后的模型InternVL-Chat-V1-5-4bit，大约最少需要多少显存？

Apr 29 '24 12:04 leeaction

@czczup 老师呀，那个int8量化的还是不中呀，我们两张24G的卡。单张显存不够，两张说，1张加载，一张跑，张量不匹配的错误。

应该要设置device_map=“auto”吧，4090x2测试可用

May 22 '24 01:05 Single430

@czczup 你好，internVL-V1.5目前也是用过最好的图像理解模型，但是开源的资料比较少，在llama.cpp中也发现还没有支持转gguf，而且也未看到stream_chat的相应代码，不知道你们是否有做相应工作？

May 22 '24 01:05 Single430

from lmdeploy import pipeline from lmdeploy.vl import load_image pipe = pipeline('../Mini-InternVL-Chat-2B-V1-5') image = load_image('fapiao.jpg')

import time

start = time.time() response = pipe(('请提取购买方的名称、纳税人识别号、地址、电话、开户行及账号；以及销售方的名称、纳税人识别号、地址、电话、开户行及账号信息', image)) end = time.time() print(f"耗时: {end - start}秒")

print(response) 验证可以

May 29 '24 03:05 sunjunlishi

总结 ../Mini-InternVL-Chat-2B-V1-5 4.5G 显存占用13G，推理发票2.8s；推理结果稳定，但是字符有错误。是同等里面我感觉还是最好的。优化：结合ocr识别作为其上下文，结果非常完美。再次总结：ocr识别作为上下文+Mini-InternVL-Chat-2B-V1-5 效果比大的多模态效果还好(前提你的ocr识别要好)；效果也比ocr+大语言模型效果好。整体来说，我比较喜欢这个小的多模态。

May 29 '24 03:05 sunjunlishi

ocr训练可控。加上小的多模态，效果还是非常震感，非常感谢作者老师们的工作。只能感谢。

May 29 '24 03:05 sunjunlishi