InterGCN-ABSA icon indicating copy to clipboard operation
InterGCN-ABSA copied to clipboard

你好,使用BERT模型时,关于adjacency matrix的一些问题

Open z1ouhan opened this issue 2 years ago • 2 comments

adjacency matrix是没有tokenize之前获得的,但由于bert使用的分词算法文本tokenize之后token可能和之前原本text位置对应不上,adjacency matrix不需额外处理一下吗,我在代码中好像没有看到相关操作,希望解答!谢谢!

z1ouhan avatar Mar 22 '22 07:03 z1ouhan

adjacency matrix是没有tokenize之前获得的,但由于bert使用的分词算法文本tokenize之后token可能和之前原本text位置对应不上,adjacency matrix不需额外处理一下吗,我在代码中好像没有看到相关操作,希望解答!谢谢!

您好! 非常感谢您提出的问题,这是一个非常好的问题。 我们在后续的实验中也确实遇到了因token不对应导致的图信息不匹配问题。但是针对这个工作,因为我们主要是通过图网络描绘词语和aspect,以及aspect和aspect之间的联系,所以这个token不对应的情况对图中边的权重影响较少,对最终性能影响也不大。 针对token不对应问题,因为主要原因是BERT会将原本的完整的一个词语分成多个token,我建议可以通过两个方法来解决这个问题:1、针对多出来的token,可以采用按顺序连接,形成一个小型的对角矩阵,跟原来的图矩阵进行对应结合。也就是扩充了原来图的节点和边;2、可以修改tokenizer,针对多出来的token,可以将它们再重新合并成一个词语,这样可以保留原本的图信息。 如有其他问题,请随时联系我。 谢谢!!!

BinLiang-NLP avatar Mar 22 '22 08:03 BinLiang-NLP

非常感谢这么详细的解答!

z1ouhan avatar Mar 22 '22 09:03 z1ouhan