bltcn

Results 26 comments of bltcn

谢谢,基本解决问题,还是有个疑问,它这个东西有没有类似tensorrt的缓存机制,否则每次重启应用之后都要先预热一遍,这个太麻烦了

这是准备做还是已经实现了?

同上,无论openvino还是paddle都不行

其实我没有太理解,turbomind attention这么强,为什么在做internvl3时候还要调用flash attention,都统一使用turbomind attention好了,还可以提高速度

我看到您这里说在支持npu,请问可以支持ascend的cann8.0版本嘛?

该pr什么时候能合并啊