LightCompress icon indicating copy to clipboard operation
LightCompress copied to clipboard

lightllm部署推理问题

Open lzd19981105 opened this issue 1 year ago • 1 comments

我用awq_w4a16.yml量化后使用save_lightllm保存模型,然后利用lightllm对保存的模型部署API,使用如下命令 python -m lightllm.server.api_server --model_dir /path/llama-7B \ --host 0.0.0.0 \ --port 8080 \ --tp 1 \ --max_total_token_num 120000

可以正常加载,但是使用如下命令进行调用测试 curl http://127.0.0.1:8080/generate \ -X POST \ -d '{"inputs":"What is AI?","parameters":{"max_new_tokens":17, "frequency_penalty":1}}' \ -H 'Content-Type: application/json'

出现以下错误 image 请问是什么原因,以及能不能给出一个具体的使用llmc+lightllm的部署教程,谢谢!

lzd19981105 avatar Sep 03 '24 07:09 lzd19981105

lightllm版本更新有点快,目前llmc和最新的lightllm还在适配中,应该很快会搞好,目前可以先用vllm来部署一下,文档在这里:https://llmc-zhcn.readthedocs.io/en/latest/backend/vllm.html

llmc-reviewer avatar Sep 09 '24 07:09 llmc-reviewer