AI炼丹师

Results 32 comments of AI炼丹师

不是呀。 它优化的是让正例之间的得分大于负例之间的得分。 如果你是二分类,也行呀。 标签1大于标签0的相关性。

一个文本字符串就行。

> > DynaBERT 的效果非常的好,请问该怎么保存不同比例的模型呢? > > 训练后只保存一个最大的模型,应用的时候可以按不同比例选择所需要的模型大小。 我的理解如下: 对这个模型 还是有点疑惑。 宽度自适应的时候,假设设了三种比例0.4, 0.6, 0.8。 它的训练方式是 将多头和feed forward的神经元先缩放到比例为0.4,然后进行反向传播,但是这里没进行梯度更新, 接着再缩放到比例0.6, 进行反向传播,这里也不进行梯度更新,接着缩放到比例0.8, 反向传播,此时,才进行梯度更新(是将这三次计算的梯度累加)。 这样每一轮就会有部分不重要的神经元没有梯度。 最后保存的是整个模型。

我想用bert进行编码 解码器用GRU 但是对于解码的输入我有些懵,因为解码也需要词嵌入 但是, 如果也用bert编码的话,加进去的起始和结束标志 bert不能进行编码。如果用Embedding进行边的话 那岂不是又得学习一个词向量 这种感觉对不上。。谢谢你的回答

恩恩,谢谢了、  我前两天写了个bert+GRU 但是模型训练起来太大了。  因为我把输入和输出的词嵌入没有共享 相当于两个bert模型微调。 batch=32的时候,占10G显存。 但是直接就终止了。。 我试着共享  看看效果。

是不是将篇章中的每句与问题进行相似度比对,然后将重要的句子提取出来。相当于把文章的长度缩短了,去除了部分冗余的部分。???

我安装了pytorch-crf, 导入还是有问题。 咋回事呢??