Pretrained-Language-Model icon indicating copy to clipboard operation
Pretrained-Language-Model copied to clipboard

DynaBERT: 怎么保存不同比例的模型?

Open siyewy opened this issue 3 years ago • 2 comments

DynaBERT 的效果非常的好,请问该怎么保存不同比例的模型呢?

siyewy avatar Sep 18 '20 04:09 siyewy

DynaBERT 的效果非常的好,请问该怎么保存不同比例的模型呢?

训练后只保存一个最大的模型,应用的时候可以按不同比例选择所需要的模型大小。

mazicwong avatar Sep 19 '20 03:09 mazicwong

DynaBERT 的效果非常的好,请问该怎么保存不同比例的模型呢?

训练后只保存一个最大的模型,应用的时候可以按不同比例选择所需要的模型大小。 我的理解如下:

对这个模型 还是有点疑惑。 宽度自适应的时候,假设设了三种比例0.4, 0.6, 0.8。 它的训练方式是 将多头和feed forward的神经元先缩放到比例为0.4,然后进行反向传播,但是这里没进行梯度更新, 接着再缩放到比例0.6, 进行反向传播,这里也不进行梯度更新,接着缩放到比例0.8, 反向传播,此时,才进行梯度更新(是将这三次计算的梯度累加)。 这样每一轮就会有部分不重要的神经元没有梯度。 最后保存的是整个模型。

shawroad avatar Oct 17 '20 09:10 shawroad