Evshiron Magicka
Evshiron Magicka
I just upgraded from Blender 3.5 and KKBP V6.5.0 to Blender 3.6 and KKBP V6.6.2 and encountered this issue. The body colors are all `00FFFF` including the nail color. There...
I am on notched Sonoma 14.0 and using the brew version. The vertical bar does show up after right clicking on the arrow, and the app works just fine.
日志里说`/home/3090-server/personal/bsc/ChatGLM/ChatGLM-6B/models`目录下没有`config.json`。 可以尝试把[Hugging Face的仓库](https://huggingface.co/THUDM/chatglm-6b)clone下来,并在代码中指向仓库所在的目录,确保目录下有`config.json`。
可以自行修改`web_demo.py`以达到在colab中运行的效果。 这是一个可以正常使用的colab链接: https://colab.research.google.com/drive/1S8w0pbOsUHU1JqJzoWQKNgvG6HBwbI6c#scrollTo=rASYNo8CxFlK 在我的使用过程中,回复速度在30-40s以上,内存占用在7.7G,显存占用维持在12.7G,超过20条消息后达到13.8G,属于一个能用的状态。`quantize()`和`cuda()`因为报错已经移除。 至于如何进一步优化占用或榨取性能,请调整`device_map`中的值,`0`代表在GPU上运行,`cpu`代表在CPU上运行,`disk`将offload到本地存储中。 参考文档: * https://huggingface.co/docs/accelerate/usage_guides/big_modeling * https://github.com/THUDM/ChatGLM-6B#%E6%A8%A1%E5%9E%8B%E9%87%8F%E5%8C%96 PS: 感觉傻乎乎的。
我没在本地跑过,爱莫能助。
@younggggger 修好了,之前被我改坏了。现在换成了量化后的模型,不会炸内存,显存也充裕了,回复速度在10s左右。原版模型在注释里,感兴趣也可以拿出来玩玩。
https://github.com/THUDM/ChatGLM-6B/issues/69#issuecomment-1472427924
> Loading checkpoint shards: 62% 5/8 [00:45
改改`deivce_map`,参考 https://github.com/THUDM/ChatGLM-6B/issues/69#issuecomment-1472427924 。
@oushu1zhangxiangxuan1 这个24G指的是使用`AutoModel.from_pretrained()`加载的时候占用的内存,而13G指的是`ChatGLM-6B`使用fp16加载进显卡需要的显存。 不知您有没有试过使用`with init_empty_weights()`的方式进行加载,可以大幅降低加载时的内存占用。我没有双显卡,因此无法对此进行测试。 现在维护者发布了量化后的`chatglm-6b-int4`模型,部署需要的显存大幅降低。如果我的前述内容对您没有帮助,可以尝试使用该模型。 如需相关代码的参考,可以参阅我的colab链接,注释掉的内容也值得一看。