fastllm
fastllm copied to clipboard
qwen3-next测试中,对于相同的问题,重新生成会重新进行prefill
在cherrystudio中简单测试多次都是如此。对于一个回答,点重新生成按钮,它就会重新Long prefill,这样就很慢。为什么不能使用之前prefill过的呢?
我的系统提示词为2k多
在聊天中继续对话是不会重新prefill的,只有点重新生成按钮,它才会重新prefill. 理论上重新生成用的都是老的内容啊
另外,这个不是对于每个聊天都是这样, 在有的聊天中,点重新生成,它就能直接继续而不用重新prefill. 难道和上下文长度是有关的?