Pretrained-Language-Model
Pretrained-Language-Model copied to clipboard
DynaBERT: 怎么保存不同比例的模型?
DynaBERT 的效果非常的好,请问该怎么保存不同比例的模型呢?
DynaBERT 的效果非常的好,请问该怎么保存不同比例的模型呢?
训练后只保存一个最大的模型,应用的时候可以按不同比例选择所需要的模型大小。
DynaBERT 的效果非常的好,请问该怎么保存不同比例的模型呢?
训练后只保存一个最大的模型,应用的时候可以按不同比例选择所需要的模型大小。 我的理解如下:
对这个模型 还是有点疑惑。 宽度自适应的时候,假设设了三种比例0.4, 0.6, 0.8。 它的训练方式是 将多头和feed forward的神经元先缩放到比例为0.4,然后进行反向传播,但是这里没进行梯度更新, 接着再缩放到比例0.6, 进行反向传播,这里也不进行梯度更新,接着缩放到比例0.8, 反向传播,此时,才进行梯度更新(是将这三次计算的梯度累加)。 这样每一轮就会有部分不重要的神经元没有梯度。 最后保存的是整个模型。