FastBERT icon indicating copy to clipboard operation
FastBERT copied to clipboard

The score code of FastBERT (ACL2020)

Results 31 FastBERT issues
Sort by recently updated
recently updated
newest added

请问安装了fastbert,改如何进行Batch预测?

看代码,好像没有固定呢? https://github.com/BitVoyage/FastBERT 这个实现里面是固定的。

请问一下有没有tf的版本?

你好,我在复现论文效果时遇到两个问题,请教一下。 1. 当我训练子分类器时,得到的效果没有直接用true label训练效果好; 2. 最终推理时,我在CPU上得到了11x的速度提升,但是GPU上只有2x。 下面是我分享复现时的细节,并非全部与所问问题相关: - 我用的是中文二分类数据集,40w作为训练集,3w作为测试集,后面的效果都是在测试集上得出的; - teacher分类器和student分类器都是按照论文中的设置,包括降维后的维度128; - 我用的loss是hinton蒸馏论文中的经典公式,temperature设置为1; ps: 我有试过在较浅的层使用较大的temperature来保证论文中Uncertainty是递减的,但是训练效果不太理想就放弃了; - 按照论文,真个训练过程分为2步: 1. 训练主干网络和teacher分类器的参数,使用交叉熵作loss; 2. 固定主干网络和teacher分类器上的参数,训练子分类器的参数; - 训练结果主干网络和原来的模型效果一致(acc 96%);第一层子分类器下降4%的acc(92%);每一层的acc从前到后,整体呈现上升趋势; - 推理时我将12层分别切成一个小模型,将上一层的输出当作下一层的输入; 以此来保证整体的计算量没有上升;表一为具体切分规则。 - 推理时,speed选择为0.2,模型效果几乎没有下降(acc 0.1个百分点);speed=0.5的时候效果下降明显,(acc...

First of all, thanks for your kind offer. Why did you set segment_embedding's first dimension to 3 ?? This is on path [FastBERT/uer/layers/embeddings.py] (line 18) Is this part flexible depending...

First of all, thanks for your kind offer. What do you think is the reason for self-attention for each classifier layer? The paper also says that it does self-attention in...

https://github.com/autoliuweijie/FastBERT/blob/5f9e98bc87b577487771f9dffceb386b5c0107d3/run_fastbert.py#L132 我觉得推理性能慢不是因为nozero。 看代码实现,实际上相当于每过一层transformer encoder,就在当前这个batch剔除掉过于简单的样本 ,也就是batchsize变得更小,然而只要有一个样本到达最后一层,耗时都会比原来bert要多。 有没有办法能够更灵活的调度需要计算的样本,比如建立一个pool,进入到第10层之后的都放到一个池子里,一起调度,让每一层计算的batchsize固定,这样充分利用显卡资源的话推理起来应该会快很多。

Hi, it looks like this cloud does not work now https://fastbert-model-file-1257235592.cos.ap-beijing.myqcloud.com/

请问论文中 BERT baseline的FLOPs为什么是21785M? 按照表一列的内容,BERT的FLOPs不应该是1809.9 * 12 + 46.1 = 21765M吗?