sunjunlishi

Results 124 comments of sunjunlishi

https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5-Int8/tree/main 哇塞 int8 已经放出

https://github.com/OpenGVLab/InternVL/issues/102 此为样例调用代码。继续跟踪调用代码。 本工程代码 python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path xxxxx 验证中。。。。。。

@czczup 老师呀,那个int8量化的还是不中呀,我们两张24G的卡。单张显存不够,两张说,1张加载,一张跑,张量不匹配的错误。

from lmdeploy import pipeline from lmdeploy.vl import load_image pipe = pipeline('../Mini-InternVL-Chat-2B-V1-5') image = load_image('fapiao.jpg') import time start = time.time() response = pipe(('请提取购买方的名称、纳税人识别号、地址、电话、开户行及账号;以及销售方的名称、纳税人识别号、地址、电话、开户行及账号信息', image)) end = time.time() print(f"耗时: {end - start}秒")...

总结 ../Mini-InternVL-Chat-2B-V1-5 4.5G 显存占用13G,推理发票2.8s;推理结果稳定,但是字符有错误。是同等里面我感觉还是最好的。 优化:结合ocr识别作为其上下文,结果非常完美。 再次总结:ocr识别作为上下文+Mini-InternVL-Chat-2B-V1-5 效果比大的多模态效果还好(前提你的ocr识别要好); 效果也比ocr+大语言模型效果好。 整体来说,我比较喜欢这个小的多模态。

ocr训练可控。加上小的多模态,效果还是非常震感,非常感谢作者老师们的工作。只能感谢。

加油最好能有量化一半或者四分之一的。

File "/usr/local/lib/python3.8/dist-packages/pyrender/platforms/osmesa.py", line 19, in init_context from OpenGL.osmesa import (

有对应caffe模型吗,我转换不成功呀