rtmaww

Results 38 comments of rtmaww

Hello. The glove vectors can be downloaded from https://nlp.stanford.edu/projects/glove/.

Hello. Thank you for reminding me this problem. Please get the files by: wget https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/pretrain/glove/glove.6B.50d_mat.npy wget https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/pretrain/glove/glove.6B.50d_word2id.json

Hello. You can edit and run the first part of sh scripts/count_freq.sh to build label_frac.json. To build distant_data, you can refer to the BOND repo https://github.com/cliang1453/BOND .

> Hello, I want to ask that: the distant dataset is directly **copy** the BOND dataset and **transfer tag_id to tag**, right? Is there any filtering operation? Yes. We directly...

> 您好,在生成label_frac.json的时候,有一个参数是label_list_path,但dataset文件夹下没有这个参数指定的label_list.json文件,请问这个文件可以发一下吗? 你好,该文件已经上传啦

你好,dataset/conll/distant_data下的就是远监督得到的数据呀。远监督数据的数据量和全量数据一样,但标注不同,因为是远程监督标注,存在噪音。你可以和全量数据的标注比对一下:)

你好,我们的方法从原理上来说是支持中文NER的。但我们暂时没有在中文NER上实验过。

> 是这样,我后来补充了一些实验,并且注意到作者代码中有IO标注替代BIO标注的函数,我也觉得IO标注可能更适合论文中EntityLM,于是我自己复现的实现中也尝试了这样的转换。目前的结果表明在CoNLL2003的Full Data和Few Shot上这种Prompt方法都显著优于我实验所用的其他模型(BiLSTM-Linear, BiLSTM-Linear-CRF, BERT-BiLSTM-Linear, BERT-BiLSTM-Linear-CRF, BERT-Linear)。但是在中文数据集上表现还是差一些,不如BERT-Linear、BERT-Linear-CRF。 详细实验设置、结果见https://github.com/sxysxy/NERTasks/blob/main/README.md 你好,感谢你对我们论文的复现。我看了一下你的实验设置,在超参设置上给你一些参考:1.我们实验中跑基于BERT的模型(BERT-tagger和EntLM)full set一般设置batchsize=16, lr=5e-5; few-shot一般设置batchsize=4, lr=1e-4。few-shot实验对这个超参还比较敏感,这个超参也是我们参考[https://arxiv.org/abs/2012.14978 这篇论文的。2.我们的EntLM方法在非常少样本的情况下比较有优势,数据数量增加优势就不明显了。在full set上一般和BERT-tagger表现差不多。另外在长实体的情况下,我们这种方法的表现我还没有测试过。如果按照我们的超参设置,在中文数据集上表现还是不好,可能是我们方法在长实体下表现不够好的问题。

> 提一个问题,这个方法能解决Nest实体吗?(我看到论文中,提到,对于多span时,采用相同的label,所以,我想这在Nest情况下,并不成立,比如,北京大学位于....,其中北京是loc,北京大学是org),不知道我理解的对不对? 你好,我们的方法目前确实无法解决嵌套实体的问题,这也是未来可能改进的一个方向。

可以的,但我们报告的结果是基于batch size=1跑的。