hanggun

Results 1 comments of hanggun

仔细思考之后,我发现Unilm是不能用attention cache的方式进行加速的,对于Encoder Decoder模型来说,K和V是由Encoder获得的,因为输入不变,所以 K和V在每次运算中都是固定的,只有Q在每次增加pred y的时候会改变,因此可以固定K和V,减少计算量,但是对于Unilm来说,由于采用的是单一Encoder,self-attention结构,每次输入的是X+y的拼接,因此,Q,K,V都在改变,无法固定Q和K来进行加速计算,但是在这个问题中[https://github.com/bojone/bert4keras/issues/298](https://github.com/bojone/bert4keras/issues/298),苏神说可以引入cache机制加速beam search的推理,那这里的cache机制应该加在哪里呢?从我的理解来看,cache机制只能加在seq2seq结构中,不知道有没有错