Sailfish
Sailfish
另外,模型没有这么大吧,也就12G左右。
经测试,单卡非量化模式运行也是一样的问题。
硬件环境:Tesla T4 16G * 4
> > 不管改成多少,都只输出很短一节内容,如图所示。 > > 使用4卡部署,启动参数为:python run_demo.py --model-path "/home/dl/data/codegeex2-6b-model" --n-gpus 4 > >  > > Tesla T4不支持BF16,是否启用了.half()? 查看源代码,未启用.half():  刚刚使用int4权重文件,似乎可以正常输出。启动参数如下: python gyzq_demo.py --model-path "THUDM/codegeex2-6b-int4" --n-gpus 4 难道是权重文件的问题?用git ssh方式下载的,不应该有损坏才对。加载过程也无报错。
确认使用int4量化后的权重文件可以正确输出: 
tp=2的情况下,双4090卡仍然无法运行int8版本的InternVL(25G权重文件),显存占用会爆掉。 求赐教。 (internvl) yushen@YuShen-Work:~/ai/InternVL$ python gradio_InternVL.py Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained. Special tokens have been added in...
> @ysyx2008 > > 我们不支持加载bnb形式的[int8模型](https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5-Int8)。请用我们的量化工具进行量化。[这个工具](https://github.com/InternLM/lmdeploy/pull/1553)应该在0.4.2中可以使用 > > 这个是针对 LLM 的[量化文档](https://github.com/InternLM/lmdeploy/blob/main/docs/zh_cn/quantization/w4a16.md),VLM 也是通用的,把DEMO中的模型换成VLM模型就好。 > > 近期也会有一篇针对 VLM量化 的文章发布,可以关注一下。 非常感谢,之前自行量化报错,刚发现pip默认安装的是0.4.1版本,我再去研究更新到0.4.2再试一次。再次感谢。
是gradio的版本问题吗?使用的最新的4.31.5
测试了gradio 4.0、3.50版本,都不能启动
i used the follow code, no exif: `var directories = ImageMetadataReader.ReadMetadata(imagePath);` But another heic image just work fine, looks like taked by one device(xiaomi 10 pro, smart phone).