GLM-4 icon indicating copy to clipboard operation
GLM-4 copied to clipboard

GLM-4使用的是Deepnorm吗?

Open XuRuihan opened this issue 4 months ago • 0 comments

Feature request / 功能建议

GLM-4使用的是Pre-Norm还是Deepnorm(Post-Norm)?

Motivation / 动机

Techinical Report中的说法,应该是沿用了GLM-130b的Deepnorm。 但是huggingface给出的配置文件中apply_residual_connection_post_layernorm=False,应该是没有使用Post-Norm;但是这个文件中还有一个post_layer_norm=True,这个参数只在decoder最后使用layernorm。 所以到底哪个是对的啊,应不应该用啊?

Your contribution / 您的贡献

见上

XuRuihan avatar Oct 08 '24 12:10 XuRuihan