ChatGLM-6B
ChatGLM-6B copied to clipboard
请问chatglm6b,glm10b和glm130b模型到底有哪里不同的
Is there an existing issue for this?
- [X] I have searched the existing issues
Current Behavior
通过查看glm相关论文,我总结出了glm和glm130b的区别:
模型名 | PE | 归一化 |
---|---|---|
chatglm | 2D Positional Encoding | 调整了顺序 |
glm130b | PoRE | DeepNorm |
我主要还有以下两个问题: 1.请问是否还有我们有注意到的区别 2.chatglm论文中并没有提到如何调整残差和归一化的顺序,通过查看glm源码,我发现每次在注意力处理前后都会进行归一化,顺序是 归一化 ---> 注意力处理 ---> 归一化 ---> 注意力处理 ---> 归一化。通常的Transformer模型中,好像没有第一个归一化操作,请问我理解的顺序是否正确呢?
Expected Behavior
No response
Steps To Reproduce
1
Environment
- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :
Anything else?
No response
130B一般人就玩不动了,至少双A100
130B一般人就玩不动了,至少双A100
是啊,我这边主要想调研下,是否能够根据THUDM/FasterTransformer改进一份fastertransformer的代码,让fastertransformer能够支持跑GLM10B这些模型。 所以前期得关注下GLM10B和GLM130B模型差别在哪里,差别大不大。
6B,10B,130B是参数量为60亿、100亿、1300亿,一般来说参数量越多脑容量越大。 是否+chat我理解是代表有没有经过中文QA和对话数据集的训练。
6B,10B,130B是参数量为60亿、100亿、1300亿,一般来说参数量越多脑容量越大。 是否+chat我理解是代表有没有经过中文QA和对话数据集的训练。
是的,但是他们的模型结构也有调整,必须弄清楚调整了哪里,才能在FasterTransformer进行对应的调整。
其他都没有放出来吧
6B,10B,130B是参数量为60亿、100亿、1300亿,一般来说参数量越多脑容量越大。 是否+chat我理解是代表有没有经过中文QA和对话数据集的训练。
是的,但是他们的模型结构也有调整,必须弄清楚调整了哪里,才能在FasterTransformer进行对应的调整。
准备跟你做一样的事情;请问有一些进展了吗?