hediyuan

Results 2 issues of hediyuan

请问通过pyfastllm加载模型的方式(import pyfastllm, pyfastllm.create_llm(model_path)),有接口或者方法能释放GPU空余显存吗? torch.cuda.empty_cache()经测试是无效的

使用qwen模型加速推理回复经常会有缺字的现象 例如模型正常回复应该是:1.异常处理 2.单元测试 实际上回复是:1. 常处理 2. 元测试 一个词缺的字变成了用一个空格代替,请问这是什么原因?是分词没做好还是什么编码问题呢?