bltcn
bltcn
谢谢,基本解决问题,还是有个疑问,它这个东西有没有类似tensorrt的缓存机制,否则每次重启应用之后都要先预热一遍,这个太麻烦了
这是准备做还是已经实现了?
同上,无论openvino还是paddle都不行
其实我没有太理解,turbomind attention这么强,为什么在做internvl3时候还要调用flash attention,都统一使用turbomind attention好了,还可以提高速度
我看到您这里说在支持npu,请问可以支持ascend的cann8.0版本嘛?
该pr什么时候能合并啊