ChatGLM-6B icon indicating copy to clipboard operation
ChatGLM-6B copied to clipboard

Fasttransformer in GLM-130b

Open iRonaldo opened this issue 1 year ago • 10 comments

Is your feature request related to a problem? Please describe.

No response

Solutions

我看GLM-130b提供了 faster transformer inference 的方法 如果chatGlm和那个模型一致 是不是可以用一样的工具转换一下提升推理速度?

Additional context

No response

iRonaldo avatar Mar 17 '23 00:03 iRonaldo

同问,请问有人跑通chatglm-6B基于FasterTransformers的推理加速吗?看起来这个130B的模型结构好像和6B的不太一样

Hap-Zhang avatar Mar 27 '23 09:03 Hap-Zhang

同问,请问有人跑通chatglm-6B基于FasterTransformers的推理加速吗?看起来这个130B的模型结构好像和6B的不太一样

是的,目前看只能自己写模型。这个不知道官方是否会提供

lvcaiping avatar Apr 04 '23 08:04 lvcaiping

同问, chatglm-6b FasterTransformers的推理加速

Roysky avatar Apr 13 '23 06:04 Roysky

同问,这个模型结构和fastertransformer支持的GPT 有区别吗

niuzheng168 avatar Apr 18 '23 13:04 niuzheng168

同问,希望官方朋友能解惑下

sc-lj avatar May 08 '23 02:05 sc-lj

同问,希望有chatglm-6b版本

lchustc avatar May 08 '23 03:05 lchustc

同问,THUDM的fastertransformer支持6b模型吗?

camel007 avatar May 09 '23 02:05 camel007

看chatglm的serving代码,结构适合glm130b的,可以试一下用130b的FT直接加载。

lvcaiping avatar May 10 '23 02:05 lvcaiping

同问

rayle01 avatar May 15 '23 01:05 rayle01

同问,chatglm-6B版本模型的qkv多头顺序和标准glm模型不同,是否有适配版本

SidaZh avatar May 30 '23 08:05 SidaZh

腾讯的这个项目就是faster transformer版的chatglm: lyraChatGLM: 对 ChatGLM-6B 进行推理加速,最高可以实现 9000+ tokens/s 的推理速度

dalong2hongmei avatar Jun 08 '23 09:06 dalong2hongmei

量化版(int8)相比量化前推理时间增加了一倍 https://huggingface.co/THUDM/chatglm-6b-int8/discussions/1

luobotaxinghu avatar Jun 09 '23 03:06 luobotaxinghu

同问,希望有chatglm-6b版本

datalee avatar Jul 24 '23 03:07 datalee

大佬们都没人愿意出手吗

datalee avatar Sep 04 '23 01:09 datalee