ChatGLM-6B
ChatGLM-6B copied to clipboard
Fasttransformer in GLM-130b
Is your feature request related to a problem? Please describe.
No response
Solutions
我看GLM-130b提供了 faster transformer inference 的方法 如果chatGlm和那个模型一致 是不是可以用一样的工具转换一下提升推理速度?
Additional context
No response
同问,请问有人跑通chatglm-6B基于FasterTransformers的推理加速吗?看起来这个130B的模型结构好像和6B的不太一样
同问,请问有人跑通chatglm-6B基于FasterTransformers的推理加速吗?看起来这个130B的模型结构好像和6B的不太一样
是的,目前看只能自己写模型。这个不知道官方是否会提供
同问, chatglm-6b FasterTransformers的推理加速
同问,这个模型结构和fastertransformer支持的GPT 有区别吗
同问,希望官方朋友能解惑下
同问,希望有chatglm-6b版本
同问,THUDM的fastertransformer支持6b模型吗?
看chatglm的serving代码,结构适合glm130b的,可以试一下用130b的FT直接加载。
同问
同问,chatglm-6B版本模型的qkv多头顺序和标准glm模型不同,是否有适配版本
腾讯的这个项目就是faster transformer版的chatglm: lyraChatGLM: 对 ChatGLM-6B 进行推理加速,最高可以实现 9000+ tokens/s 的推理速度
量化版(int8)相比量化前推理时间增加了一倍 https://huggingface.co/THUDM/chatglm-6b-int8/discussions/1
同问,希望有chatglm-6b版本
大佬们都没人愿意出手吗