InternVL-Chat-V1.2-Plus 能提供量化模型吗
InternVL-Chat-V1.2-Plus 根据您们提供的demo,这是我测试过所有的开源的(甚至仅提供demo的)最好的模型!!! 能提供量化的模型吗?因为这个模型文件共计80G,普通卡跑不起来;
如果量化为4bit,或者2bit的gguf格式的文件,可以普通显卡就可以跑。 而且越大大模型量化,精度损失越小。 希望能转化下,更加以飨读者。
大模型的量化模型用来训练更有性价比
感谢您的建议。我最近会转换一下量化模型并上传到hugging face。
咱们的(原来是v1-2plus已基本够用,版本3输出位置是按照1000*1000),很强。 还有咱们这应该没有专门针对测试数据,因为我实测身份证和营业执照等关键信息提取,都非常好,star应该上万,其他人没有发现此处是宝。
咱们的(原来是v1-2plus已基本够用,版本3输出位置是按照1000*1000),很强。 还有咱们这应该没有专门针对测试数据,因为我实测身份证和营业执照等关键信息提取,都非常好,star应该上万,其他人没有发现此处是宝。
感谢反馈!目前已经训好了支持到2K-4K分辨率的模型,刷点性能和实际体验都有大幅提升,预计下周会放出来,可能这两天会更新一个预览的demo。
@czczup 哇塞效果这么好。普通消费者只能下载 15G左右的模型;我先尝试下 OpenGVLab/InternViT-6B-448px-V1-5。 thanks thanks
@czczup 哇塞效果这么好。普通消费者只能下载 10G左右的模型;
有试试V1.5的demo吗
@czczup 对的,手写,关键信息提取,都非常棒。我只能先跑下特征提取那部分了。量化的需要合作?
https://huggingface.co/failspy/InternVL-Chat-V1-5-4bit 这里提供了一个量化的模型,就是不知道怎么调用
@czczup 老师,给转换一下呗,需要测试数据进行压缩是吗? 我们同事都喜欢这个demo效果,搞个量化的嘛。
https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5-Int8/tree/main 哇塞 int8 已经放出
https://github.com/OpenGVLab/InternVL/issues/102 此为样例调用代码。继续跟踪调用代码。 本工程代码 python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path xxxxx 验证中。。。。。。
@czczup 老师呀,那个int8量化的还是不中呀,我们两张24G的卡。单张显存不够,两张说,1张加载,一张跑,张量不匹配的错误。
请问4bit量化后的模型InternVL-Chat-V1-5-4bit,大约最少需要多少显存?
@czczup 老师呀,那个int8量化的还是不中呀,我们两张24G的卡。单张显存不够,两张说,1张加载,一张跑,张量不匹配的错误。
应该要设置device_map=“auto”吧,4090x2测试可用
@czczup 你好,internVL-V1.5目前也是用过最好的图像理解模型,但是开源的资料比较少,在llama.cpp中也发现还没有支持转gguf,而且也未看到stream_chat的相应代码,不知道你们是否有做相应工作?
from lmdeploy import pipeline from lmdeploy.vl import load_image pipe = pipeline('../Mini-InternVL-Chat-2B-V1-5') image = load_image('fapiao.jpg')
import time
start = time.time() response = pipe(('请提取购买方的名称、纳税人识别号、地址、电话、开户行及账号;以及销售方的名称、纳税人识别号、地址、电话、开户行及账号信息', image)) end = time.time() print(f"耗时: {end - start}秒")
print(response) 验证可以
总结 ../Mini-InternVL-Chat-2B-V1-5 4.5G 显存占用13G,推理发票2.8s;推理结果稳定,但是字符有错误。是同等里面我感觉还是最好的。 优化:结合ocr识别作为其上下文,结果非常完美。 再次总结:ocr识别作为上下文+Mini-InternVL-Chat-2B-V1-5 效果比大的多模态效果还好(前提你的ocr识别要好); 效果也比ocr+大语言模型效果好。 整体来说,我比较喜欢这个小的多模态。
ocr训练可控。加上小的多模态,效果还是非常震感,非常感谢作者老师们的工作。只能感谢。