bert4keras
bert4keras copied to clipboard
关于BERT的PositionEmbedding
苏神中午好! 最近clone了您的代码, 准备从零开始感受一下BERT和 如今如此众多基于BERT变化或改进的模型 之间千丝万缕般的联系和惊为天人的设计思想。 然而进行的并不顺利,所以才来向您请教!
关于BERT的输入问题,BERT论文中提及应该是 token,segment,position。 token 是词句映射输入 segment 标记不同句子,是做nsp任务所需要 position 应该是解决做selfattention时没有词句位置信息的问题
但是在bert4keras中只有前两者输入,并没有position的信息,后来看了源码才知道是在内部做了处理,所以不需要。 关于 PositionEmbedding 的实现部分没有看的很懂,以及 merge_mode 的参数,还希望苏神能解惑一下,谢谢苏神!!!
哪里不懂?