mllm
mllm copied to clipboard
为什么预填充和解码不能都在 NPU 上运行?
我看了下代码,我的理解是prefill做的是预处理部分的工作,主要的推理是在decode部分完成,为什么代码里面是把prefill放在了npu上去执行,而重要的decode阶段要放在CPU上去执行?