Xiaonan Li

Results 113 comments of Xiaonan Li

> > 吃的显存应该和训练数据中的最长句子的长度相关,对10g显存来说,一般支持长度200的句子 > > > > 这么吃显存吗? 8万条训练数据16g就跑不动了 > > > > > > 是的,max_len=100, batch_size=32; 大约占9G, 6层6 * 100 dim的Transformer和BERT一样大:) > > 请问您如何在源码中设置batch_size,为什么无论我怎样缩减batch_size,都是爆显存 请问你的数据中的原句最大长度是多少?

我1080ti,长度200,batch可以10

预训练的embedding不需要重新训练

请问您是指lattice的结构不同嘛?我论文中的“重庆人和药店”这个例子,只是为了做一个说明,具体构建出的lattice是会根据词典产生变化的,就我们用的yj这个词典而言,lattice lstm那篇的”南京市长江大桥“中有一个”长江大桥“节点,我之前好像也在那个词典找过,没有”长江大桥“这个词。总的来说,论文里的图只是为了更好地说明我们的motivation,以及为了画图方便,我们加的词结点就比较少。

要加进去的。目前为止包括lattice lstm,FLAT,LR-CNN等工作好像都没考虑过你说的“过滤词汇”这个问题

可以看看论文里的表2,有试过另一个词典资源ls,相比yj,在四个数据集上有上升也有下降。

代码里的默认参数就是我实验中的超参数了

你是用啥命令运行的呀,跑完所有epoch了嘛

> msra直接用test的数据集用作dev来选模型是不是不太合理? Lattice LSTM中是这么做的,为了公平比较,我们没有变更实验设定