hanggun comments

Repositories
Issues
Comments

Results 1 comments of


                                            hanggun

bert4keras的attention_cache是否有传入方式的demo

仔细思考之后，我发现Unilm是不能用attention cache的方式进行加速的，对于Encoder Decoder模型来说，K和V是由Encoder获得的，因为输入不变，所以 K和V在每次运算中都是固定的，只有Q在每次增加pred y的时候会改变，因此可以固定K和V，减少计算量，但是对于Unilm来说，由于采用的是单一Encoder，self-attention结构，每次输入的是X+y的拼接，因此，Q，K，V都在改变，无法固定Q和K来进行加速计算，但是在这个问题中[https://github.com/bojone/bert4keras/issues/298](https://github.com/bojone/bert4keras/issues/298)，苏神说可以引入cache机制加速beam search的推理，那这里的cache机制应该加在哪里呢？从我的理解来看，cache机制只能加在seq2seq结构中，不知道有没有错