AI炼丹师

https://resume.github.io/?shawroad [email protected]

Beijing China 微信公众号: AI炼丹师

Results 32 comments of


AI炼丹师

请问CoSENT解决的是回归问题吗？

不是呀。它优化的是让正例之间的得分大于负例之间的得分。如果你是二分类，也行呀。标签1大于标签0的相关性。

结果展示中sentencebert使用哪个encoder_type

cls

Text_rank数据集

一个文本字符串就行。

DynaBERT: 怎么保存不同比例的模型？

> > DynaBERT 的效果非常的好，请问该怎么保存不同比例的模型呢？ > > 训练后只保存一个最大的模型，应用的时候可以按不同比例选择所需要的模型大小。我的理解如下: 对这个模型还是有点疑惑。宽度自适应的时候，假设设了三种比例0.4, 0.6, 0.8。它的训练方式是将多头和feed forward的神经元先缩放到比例为0.4，然后进行反向传播，但是这里没进行梯度更新，接着再缩放到比例0.6, 进行反向传播，这里也不进行梯度更新，接着缩放到比例0.8，反向传播，此时，才进行梯度更新(是将这三次计算的梯度累加)。这样每一轮就会有部分不重要的神经元没有梯度。最后保存的是整个模型。

关于预测的问题

我想用bert进行编码　解码器用GRU 但是对于解码的输入我有些懵，因为解码也需要词嵌入　但是, 如果也用bert编码的话，加进去的起始和结束标志　bert不能进行编码。如果用Embedding进行边的话　那岂不是又得学习一个词向量　这种感觉对不上。。谢谢你的回答

关于预测的问题

恩恩，谢谢了、　　我前两天写了个bert+GRU 但是模型训练起来太大了。　　因为我把输入和输出的词嵌入没有共享　相当于两个bert模型微调。　batch=32的时候，占10G显存。　但是直接就终止了。。　我试着共享　　看看效果。

第一步的数据预处理主要作用？

是不是将篇章中的每句与问题进行相似度比对，然后将重要的句子提取出来。相当于把文章的长度缩短了，去除了部分冗余的部分。？？？

第一步的数据预处理主要作用？

谢谢了。

代码中的CoSENT是无监督训练吗

不是

torchcrf 是大佬自己写的吗

我安装了pytorch-crf，导入还是有问题。咋回事呢？？