Vim
Vim copied to clipboard
bimamba version
阅读您的代码时发现bimamba有v1和v2版本分别对应BimambaInnerFn和MambaInnerFnNoOutProj;v1对同一个序列分别进行正向forward和反向forward但是采用了相同的proj模块计算B和C,而v2则是定义了两次proj模块(x_proj于x_proj_b)分别计算不同的B,C,请问为什么要这样做呢?以及这两者哪个效果会更好一点?最后mamba中step()这个函数是不是不管训练还是推理时都不会执行,因为step中并没有指明两次计算的过程?非常感谢。😦