Xiaonan Li
Xiaonan Li
这个数据集比较小,可能需要多跑几遍。我是在dev集上选择最优模型的
你邮箱多少啊,我私发你吧,我之前的代码每个数据集都固定了随机数种子来提升能复现论文报道结果的可能,如果直接在这上面更新,种子就没用了。最近没多余的卡来找另外的随机数种子了
你好,代码刚刚发布,请查收
thank you !! I'll fix it in next arxiv version
这个路径是输出路径,没事
BERT生成的Embedding代替了原本的普通的字embedding,然后词的embedding和之前一样。
> 请问后续会上传融合bert模型的代码吗? > 还有想问下bert的baseline的代码会上传吗? 之后弄一下吧,本来没觉得那个有多重要,因为字用bert embedding单词用的是普通的,感觉挺挫的,但好像很多人关注这个东西,我尽快搞一下
> 您好,非常期待看到您bert+flat的代码,我自己实现起来遇到不少问题,想学习下您的方法,谢谢! 最近复旦服务器搬迁,我在校外没法用到其中的一些功能,整理代码有点慢,如果你们对实现有疑问,可以通过手机号18158037912加我微信
1.关于compatible问题,如果直接是字用字的embedding,词用词的embedding,我猜是会出现预训embedding空间没对齐的问题的,我在实现时是给其中一个加了可学习的线性映射,应该能够减缓这个问题的影响。 2.关于随机初始化这个问题,可以把词信息看作两部分,词的边界信息和词的语义信息,如果是随机初始化,那么在词的语义信息方面,词embedding可能就不能提供很多了。 3.我说一下自己的看法,不一定对,分词的error propagation可能有两层意思,第一层是,分词可能会把实体给切割开或者使实体粘连,比如说“南京市长/江大桥“的分词结果如果是”南京市长/江大桥“,那么就需要在南京市长和江大桥这两个词上做序列标注,那么无论如何南京市这个实体,都不会被正确地识别出来,因为南京市长已经被当作一个整体了。第二层就是分词可能会出错,但词汇匹配的方法不会出错。
没有。可能是由于两个是社交媒体和简历domain的,可能比较口语化,与对应的lexicon不怎么match。实际实验中,由于这俩数据集比较小,效果也挺不稳定的,建议还是参考大数据集的表现