FastBERT
FastBERT copied to clipboard
The score code of FastBERT (ACL2020)
batch预测
请问安装了fastbert,改如何进行Batch预测?
看代码,好像没有固定呢? https://github.com/BitVoyage/FastBERT 这个实现里面是固定的。
请问一下有没有tf的版本?
你好,我在复现论文效果时遇到两个问题,请教一下。 1. 当我训练子分类器时,得到的效果没有直接用true label训练效果好; 2. 最终推理时,我在CPU上得到了11x的速度提升,但是GPU上只有2x。 下面是我分享复现时的细节,并非全部与所问问题相关: - 我用的是中文二分类数据集,40w作为训练集,3w作为测试集,后面的效果都是在测试集上得出的; - teacher分类器和student分类器都是按照论文中的设置,包括降维后的维度128; - 我用的loss是hinton蒸馏论文中的经典公式,temperature设置为1; ps: 我有试过在较浅的层使用较大的temperature来保证论文中Uncertainty是递减的,但是训练效果不太理想就放弃了; - 按照论文,真个训练过程分为2步: 1. 训练主干网络和teacher分类器的参数,使用交叉熵作loss; 2. 固定主干网络和teacher分类器上的参数,训练子分类器的参数; - 训练结果主干网络和原来的模型效果一致(acc 96%);第一层子分类器下降4%的acc(92%);每一层的acc从前到后,整体呈现上升趋势; - 推理时我将12层分别切成一个小模型,将上一层的输出当作下一层的输入; 以此来保证整体的计算量没有上升;表一为具体切分规则。 - 推理时,speed选择为0.2,模型效果几乎没有下降(acc 0.1个百分点);speed=0.5的时候效果下降明显,(acc...
First of all, thanks for your kind offer. Why did you set segment_embedding's first dimension to 3 ?? This is on path [FastBERT/uer/layers/embeddings.py] (line 18) Is this part flexible depending...
First of all, thanks for your kind offer. What do you think is the reason for self-attention for each classifier layer? The paper also says that it does self-attention in...
https://github.com/autoliuweijie/FastBERT/blob/5f9e98bc87b577487771f9dffceb386b5c0107d3/run_fastbert.py#L132 我觉得推理性能慢不是因为nozero。 看代码实现,实际上相当于每过一层transformer encoder,就在当前这个batch剔除掉过于简单的样本 ,也就是batchsize变得更小,然而只要有一个样本到达最后一层,耗时都会比原来bert要多。 有没有办法能够更灵活的调度需要计算的样本,比如建立一个pool,进入到第10层之后的都放到一个池子里,一起调度,让每一层计算的batchsize固定,这样充分利用显卡资源的话推理起来应该会快很多。
Any one know where to get them? Thank you and thank you.
Hi, it looks like this cloud does not work now https://fastbert-model-file-1257235592.cos.ap-beijing.myqcloud.com/
请问论文中 BERT baseline的FLOPs为什么是21785M? 按照表一列的内容,BERT的FLOPs不应该是1809.9 * 12 + 46.1 = 21765M吗?