Weijie Liu

Results 63 comments of Weijie Liu

> > > 你好,我在复现您的实验(没有进行任何修改)的时候在主干网络的训练时准确率是逐渐提高的,在蒸馏阶段验证集和测试集的acc每一个epoch都和主干网络的最后一个epoch相同,请问是我哪里出错了吗? > > > > > > 你蒸馏时的speed设为多少,这么看上去像是speed=0.0, 导致所有样本都走到主干的最后一层。 > > speed 为0.5 用的就是你提供的脚本 麻烦把执行的命令和print到终端的结果贴出来看一看哈。

从self-distilation的效果来看,确实是FLOPs下降,而Acc不变。 但是这个Acc在Book review数据集上差了很多,请确保./models/chinese_bert_base.bin是正确的?以及使用的是python3吗

> > 从self-distilation的效果来看,确实是FLOPs下降,而Acc不变。 > > 但是这个Acc在Book review数据集上差了很多,请确保./models/chinese_bert_base.bin是正确的?以及使用的是python3吗 > > > 从self-distilation的效果来看,确实是FLOPs下降,而Acc不变。 > > 但是这个Acc在Book review数据集上差了很多,请确保./models/chinese_bert_base.bin是正确的?以及使用的是python3吗 > > 确认没错的 都是按你的链接下载的 可以试试Pypi版本的:https://github.com/autoliuweijie/FastBERT/tree/master/pypi

还没有,tf是静态图,目前还没有好的实现方式

> 请问如果我是多标签任务,在每个维度独立做二分类 > 1.可以直接用KL散度做蒸馏loss吗 > 2.可以用类别维度的熵表示不确定性吗 我们还没有做个多标签分类的尝试,在多标签分类里,不同的标签的uncertainty会不一样。 1. FastBERT自蒸馏的时候就是直接用Teacher和Student至今的KL散度做loss的。 2. 可能需要重新定义一个uncertainty, 比如所有标签的uncertainty取平均。

> 层主,你的实验有效果么?我在此模型基础上修改做NER的相关实验,实验结果并不理想,请问一下,你的结果如何?可否讨论一下? FastBERT目前不适合NER任务,因为NER中需要对每个字进行一次分类,一个句子中不同的字分类可能有不同的uncertainty, 那么一个句子究竟该走几层就不确定了。请问您是如何处理这个问题的?

There is no a general code that can test the FLOPs of all models, because different models are implemented differently. If you want to get the FLOPs of a model,...

We have provided all the datasets used in our paper. For Weibo dataset, you could download it from https://share.weiyun.com/ZctQJP8h datasets/Chinese/weibo.zip

> 这344行是个空行,有啥问题吗 没问题,这个可以忽略

你可以随机抽样一部分样本,离线将矩阵和偏项计算好,在线推理的时候直接使用计算好的矩阵和偏项。