NLP-Interview-Notes
NLP-Interview-Notes copied to clipboard
NLP百面百搭 中 【关于 BatchNorm vs LayerNorm】部分的最后一个公式疑似错误
梯度计算应该是对变量求偏导,故应该将
替换为

嗯嗯,好的,已改