rtmaww

Results 38 comments of rtmaww

你好, 感谢你关注我们的论文。关于你提出的问题,我们使用的label word确实是"John" (discrete)或者['Michael', 'John', 'David', 'Thomas', 'Martin', 'Paul'] (virtual)这样的形式,其中virtual实际上是由多个词一起构建得到label word的。 在代码train_transformer.py中的第912行的add_label_token_bert中,我们 (1)先向tokenizer的词表中插入一些新token作为label word,这些label word在词表中的key为其对应的标签(比如"I-PER") (2)然后我们为这些词表中的新token初始化embedding,这里的embedding就是使用"John" 或者['Michael', 'John', 'David', 'Thomas', 'Martin', 'Paul'] 对应的词的embedding进行初始化。 比如,'I-PER':['Michael', 'John', 'David', 'Thomas', 'Martin', 'Paul']时,词表里实际插入了一个名称为"I-PER"的新token,它初始化的embedding为['Michael', 'John',...

Hello. For all methods, we simply take the model of the last epoch for testing. This is based on our empirical finding that the test results generally keep raising in...

Hello. The original experiments in the NNShot paper are source->target setting, which means they first train the model on source domain training data and then test the model on the...

你好,方便留下邮箱吗?我邮件发给你

你好,prompt的做法把下游任务转化为MLM任务,一般会构造少数几个[MASK]让模型去预测,不会屏蔽给定句子中特定百分比的单词。我们的方法和prompt思路类似,但做法是不Mask输入,而是让模型在实体位置预测对应的label word。具体细节可以参考我们的论文https://arxiv.org/pdf/2109.13532.pdf ,论文中Figure 2也有比较直观的说明。

你好,MSRA上我们和LatticeLSTM的实验设置一样,没有使用dev集,直接报告最高的测试集结果。train_dev.char.bmes这个文件是我们使用的训练集。

你好,我们是将BERT后得到的向量和原来的词向量(并非随机初始化,是预训练词向量+我们提出的方法得到的词典向量)拼接。

您好,GPU使用率低或许是因为batch size开得比较小。transformers和LSTM的batch size可能也设置得不同。论文中计算的Computational Efficiency是decode时候的时间,也就是截图中的test speed(instance/s)

你好,我们没有分词,是直接字符串匹配词典的

你好,有使用bert的,在model/gazlstm.py中使用了bert的输出作为embedding.