Tough-Stone

Results 14 comments of Tough-Stone

Have you found which paper the structure of this code refers to?Thanks

> 请问有替换为中文的fnlp/bart-large-chinese 模型 成功吗,成功的话 是否可以发一份代码给我,[[email protected]](mailto:[email protected]) 我这边替换后但一直报错 同求

竖着一列代表通道,那么横着的一行呢?或者是这上面每一小方块代表什么,有些没搞懂

感谢。不过还是想请教一下,输出矩阵裁剪一列是何如推导出输入矩阵裁剪一行的,这个过程没有理清

理解了。感谢 还有一个地方,图5使用以及不使用分组的学习策略分别对应图4的b和c策略,这里是否写反了?以及这个图表达的是,使用分组的直方图上sparse和original相距更远吗,这可以说明什么呢?还望指教

这个图的纵坐标表示参数量,横坐标表示参数的norm值吗。也就是上图可以理解为:分布在同一norm值的参数更加聚集了吗

还想补充一个问题:表二的消融实验里1.5× 3.0× 6.0× 12×指的是加速比吗,是怎么设置的,可以设置压缩的预算吗

没有异常,就是点击了以后什么反应也没有

谢谢。 这个incorrecet命名没看懂含义...也就是分别对应论文里的X,Y,Ym吗? 我看到代码里的样例数据,Dev.txt有10条文本,但是生成的incorrect_input_ids_list, label_ids_list, target_ids_list都有50条,因为获取的时候用了“for i in range(5):”,这是为什么呢?

还想补充个问题:keywork.txt里的数据参与训练吗,里面的ground-truth有什么作用?这个任务的ground-truth可以理解为从原句自中抽取一部分单词,再恢复到原句子吗?