hediyuan issues

Results 2 issues of


                                            hediyuan

请问通过pyfastllm加载模型的方式（import pyfastllm, pyfastllm.create_llm(model_path)），有接口或者方法能释放GPU空余显存吗？ torch.cuda.empty_cache()经测试是无效的

使用qwen模型加速推理回复经常会有缺字的现象例如模型正常回复应该是：1.异常处理 2.单元测试实际上回复是：1. 常处理 2. 元测试一个词缺的字变成了用一个空格代替，请问这是什么原因？是分词没做好还是什么编码问题呢？