mllm
mllm copied to clipboard
Decoding阶段的Backend问题
测试发现demo_qwen_npu.cpp中
decoding_model.generate(decoding_input, decoding_opt, [&](unsigned int out_token) -> bool {
decoding_model还是使用的QNNBackend进行推理,请问这是特意设计的嘛。按说应该切换到CPUBackend才对,因为decoding阶段是用CPU推理。