wanshichenguang

Results 3 issues of wanshichenguang

I need to raise an issue regarding using llama.cpp for inference with qwen1.5. When using the official weights provided by qwen, the inference works fine: (llama.cpp) root@8411db7a5b9f:~/llama.cpp-master# ./main -m /root/model/qwen/Qwen1.5-0.5B-Chat-GGUF/qwen1_5-0_5b-chat-q2_k.gguf...

bug-unconfirmed

How to release an old loaded model file using Python. python如何释放掉一个加载好的模型。 I tried using the method `torch.cuda.empty_cache()`, but it doesn't release the GPU memory allocated by C++ calls. 我使用torch.cuda.empty_cache()的方法,但并不能释放掉c++调用的显存

能否出个只访问各种模型api的版本。 版本本身不去使用各种模型,主要就是调用各种框架或者模型的api:向量模型、llm模型、多模态模型等。 主打轻量化部署应用。 类似dify

enhancement