letmeheard
letmeheard
请问有人在这基础上做汉字语料生成吗~可以分享一下吗谢谢
@wyxcc hello你好,请问用真实的语料集作训练数据怎么进行,能不能指导一下呢,谢谢!
好的!谢谢谢谢
应该是这样的,由于样本长度不一,做了padding=0,但对于这部分填充的来说,是不能做positional encoding的,因为正常是用词向量+positional encoding,词向量为填充的0时,positional encoding应该也为0。key_mask就是用来解决这个的,让padding=0的地方最后加上positional encoding仍然为0。 query_mask就是正常的,Transformer decoder里,为了不让模型看到未来信息所做的mask
是啊,那个query mask不就是future的上三角对齐,只用key mask肯定不收敛啊 ---原始邮件--- 发件人: "Gang He"
同求,有人能解答一下吗谢谢~