Decoding阶段的Backend问题

Open virus188 opened this issue 1 month ago • 0 comments

测试发现demo_qwen_npu.cpp中 decoding_model.generate(decoding_input, decoding_opt, [&](unsigned int out_token) -> bool { decoding_model还是使用的QNNBackend进行推理，请问这是特意设计的嘛。按说应该切换到CPUBackend才对，因为decoding阶段是用CPU推理。

Nov 09 '25 08:11 virus188