FastBERT issues

Results 31 FastBERT issues

Sort by recently updated

train students 的时候是否需要固定teacher的参数？

看代码，好像没有固定呢？ https://github.com/BitVoyage/FastBERT 这个实现里面是固定的。

你好，我在复现论文效果时遇到两个问题，请教一下。 1. 当我训练子分类器时，得到的效果没有直接用true label训练效果好； 2. 最终推理时，我在CPU上得到了11x的速度提升，但是GPU上只有2x。下面是我分享复现时的细节，并非全部与所问问题相关： - 我用的是中文二分类数据集，40w作为训练集，3w作为测试集，后面的效果都是在测试集上得出的； - teacher分类器和student分类器都是按照论文中的设置，包括降维后的维度128； - 我用的loss是hinton蒸馏论文中的经典公式，temperature设置为1； ps: 我有试过在较浅的层使用较大的temperature来保证论文中Uncertainty是递减的，但是训练效果不太理想就放弃了； - 按照论文，真个训练过程分为2步： 1. 训练主干网络和teacher分类器的参数，使用交叉熵作loss； 2. 固定主干网络和teacher分类器上的参数，训练子分类器的参数； - 训练结果主干网络和原来的模型效果一致（acc 96%）；第一层子分类器下降4%的acc（92%）；每一层的acc从前到后，整体呈现上升趋势； - 推理时我将12层分别切成一个小模型，将上一层的输出当作下一层的输入；以此来保证整体的计算量没有上升；表一为具体切分规则。 - 推理时，speed选择为0.2，模型效果几乎没有下降（acc 0.1个百分点）；speed=0.5的时候效果下降明显，（acc...

dawson-chen

I'm curious why you set segment_embedding's first dimension to 3.

First of all, thanks for your kind offer. Why did you set segment_embedding's first dimension to 3 ?? This is on path [FastBERT/uer/layers/embeddings.py] (line 18) Is this part flexible depending...

wonbeeny

I'm curious about the reason for making self-attention for each classifier layer.

First of all, thanks for your kind offer. What do you think is the reason for self-attention for each classifier layer? The paper also says that it does self-attention in...

wonbeeny

关于inference的效率问题

https://github.com/autoliuweijie/FastBERT/blob/5f9e98bc87b577487771f9dffceb386b5c0107d3/run_fastbert.py#L132 我觉得推理性能慢不是因为nozero。看代码实现，实际上相当于每过一层transformer encoder，就在当前这个batch剔除掉过于简单的样本 ,也就是batchsize变得更小，然而只要有一个样本到达最后一层，耗时都会比原来bert要多。有没有办法能够更灵活的调度需要计算的样本，比如建立一个pool，进入到第10层之后的都放到一个池子里，一起调度，让每一层计算的batchsize固定，这样充分利用显卡资源的话推理起来应该会快很多。

Youarerare