GLM-4
GLM-4 copied to clipboard
GLM-4使用的是Deepnorm吗?
Feature request / 功能建议
GLM-4使用的是Pre-Norm还是Deepnorm(Post-Norm)?
Motivation / 动机
Techinical Report中的说法,应该是沿用了GLM-130b的Deepnorm。
但是huggingface给出的配置文件中apply_residual_connection_post_layernorm=False
,应该是没有使用Post-Norm;但是这个文件中还有一个post_layer_norm=True
,这个参数只在decoder最后使用layernorm。
所以到底哪个是对的啊,应不应该用啊?
Your contribution / 您的贡献
见上