FastBERT icon indicating copy to clipboard operation
FastBERT copied to clipboard

对ACL2020 FastBERT论文的复现,论文地址:https://arxiv.org/pdf/2004.02178.pdf

Results 7 FastBERT issues
Sort by recently updated
recently updated
newest added

您好,分类层forward里面没有使用attention mask,会导致padding影响结果。您可以验证一下。

大佬你好,我在你的代码基础上做了NER任务的实验,然后对KL散度那一块对序列中每一个token都求,另外uncertain 我求的是整个序列的均值。请问这样修改的话,会有理论问题么?因为我做完实验发现,学生模块求出的结果一直只预测成其中一个标签

![image](https://user-images.githubusercontent.com/18675161/108296000-b1cd6c00-71d3-11eb-99eb-6f4b1aca603e.png) 你好,我统计bert以及不同speed下,准确率、cpu推理和Gpu推理的耗时。现在有一点疑惑,只有当speed为0.8时,总耗时才能小于原来的bert耗时。 请问下我是哪里出错了吗。 统计bert耗时是执行script_eval.sh脚本。参数配置如下: ![image](https://user-images.githubusercontent.com/18675161/108296445-89923d00-71d4-11eb-8aa1-e0d60989d695.png)

我在本地机器上跑了下,发现和你的实验结果相差较大,请教下可能的原因是什么? ![image](https://user-images.githubusercontent.com/12437751/84742353-e5bc1600-afe2-11ea-843d-b33775a4dc26.png)

README中写到 蒸馏阶段使用无监督数据,可以增强模型的鲁棒性 请问一下这里的无监督数据指的是什么?有具体的例子吗?我看script_train_stage1.sh中使用的数据还是有标签的数据。 希望能帮忙解答一下,谢谢

infer.py测试阶段GPU使用率可以达到90%以上;但是,使用predict.py进行线上压测时,并发量很小,GPU使用率只有20~30%。请问,这是什么原因导致的呢?

请问一下,我自己训练了了一个bert+RCNN的模型能加进去吗?如果可以改那个位置就行?感谢大佬!