Wu Yulong
Results
2
comments of
Wu Yulong
是的,如果feature是MS的话,c_out在代码中会设置为1,也就是单变量预测
你好,我的理解是作者提出了一个最大均值测量来替代直接计算所有QK的KL散度,然后这个最大均值测量的M只需要采样log(K)个键就可以了,好像是作者在附录中进行了理论证明,然后这一部分代码如果不太理解的话,可以看一下附录E中的伪代码框。