lightllm部署推理问题
我用awq_w4a16.yml量化后使用save_lightllm保存模型,然后利用lightllm对保存的模型部署API,使用如下命令
python -m lightllm.server.api_server --model_dir /path/llama-7B \ --host 0.0.0.0 \ --port 8080 \ --tp 1 \ --max_total_token_num 120000
可以正常加载,但是使用如下命令进行调用测试
curl http://127.0.0.1:8080/generate \ -X POST \ -d '{"inputs":"What is AI?","parameters":{"max_new_tokens":17, "frequency_penalty":1}}' \ -H 'Content-Type: application/json'
出现以下错误
请问是什么原因,以及能不能给出一个具体的使用llmc+lightllm的部署教程,谢谢!
lightllm版本更新有点快,目前llmc和最新的lightllm还在适配中,应该很快会搞好,目前可以先用vllm来部署一下,文档在这里:https://llmc-zhcn.readthedocs.io/en/latest/backend/vllm.html