ChatGLM-6B 请问chatglm6b，glm10b和glm130b模型到底有哪里不同的

Is there an existing issue for this?

[X] I have searched the existing issues

Current Behavior

通过查看glm相关论文，我总结出了glm和glm130b的区别：

模型名	PE	归一化
chatglm	2D Positional Encoding	调整了顺序
glm130b	PoRE	DeepNorm

我主要还有以下两个问题： 1.请问是否还有我们有注意到的区别 2.chatglm论文中并没有提到如何调整残差和归一化的顺序，通过查看glm源码，我发现每次在注意力处理前后都会进行归一化，顺序是归一化 ---> 注意力处理 ---> 归一化 ---> 注意力处理 ---> 归一化。通常的Transformer模型中，好像没有第一个归一化操作，请问我理解的顺序是否正确呢？

Expected Behavior

No response

Steps To Reproduce

1

Environment

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

Anything else?

No response

May 29 '23 12:05 ppppppppig

130B一般人就玩不动了，至少双A100

May 30 '23 03:05 liaoweiguo

130B一般人就玩不动了，至少双A100

是啊，我这边主要想调研下，是否能够根据THUDM/FasterTransformer改进一份fastertransformer的代码，让fastertransformer能够支持跑GLM10B这些模型。所以前期得关注下GLM10B和GLM130B模型差别在哪里，差别大不大。

May 30 '23 03:05 ppppppppig

6B,10B,130B是参数量为60亿、100亿、1300亿，一般来说参数量越多脑容量越大。是否+chat我理解是代表有没有经过中文QA和对话数据集的训练。

May 30 '23 05:05 runzhi214

6B,10B,130B是参数量为60亿、100亿、1300亿，一般来说参数量越多脑容量越大。是否+chat我理解是代表有没有经过中文QA和对话数据集的训练。

是的，但是他们的模型结构也有调整，必须弄清楚调整了哪里，才能在FasterTransformer进行对应的调整。

May 30 '23 06:05 ppppppppig

其他都没有放出来吧

May 30 '23 11:05 liaoweiguo

6B,10B,130B是参数量为60亿、100亿、1300亿，一般来说参数量越多脑容量越大。是否+chat我理解是代表有没有经过中文QA和对话数据集的训练。

是的，但是他们的模型结构也有调整，必须弄清楚调整了哪里，才能在FasterTransformer进行对应的调整。

准备跟你做一样的事情；请问有一些进展了吗？

Jul 14 '23 14:07 yudian0504

ChatGLM-6B ChatGLM-6B copied to clipboard

请问chatglm6b，glm10b和glm130b模型到底有哪里不同的

Is there an existing issue for this?

Current Behavior

Expected Behavior

Steps To Reproduce

Environment

Anything else?

ChatGLM-6B
ChatGLM-6B copied to clipboard