lightllm部署推理问题

Open lzd19981105 opened this issue 1 year ago • 1 comments

我用awq_w4a16.yml量化后使用save_lightllm保存模型，然后利用lightllm对保存的模型部署API，使用如下命令 python -m lightllm.server.api_server --model_dir /path/llama-7B \ --host 0.0.0.0 \ --port 8080 \ --tp 1 \ --max_total_token_num 120000

可以正常加载，但是使用如下命令进行调用测试 curl http://127.0.0.1:8080/generate \ -X POST \ -d '{"inputs":"What is AI?","parameters":{"max_new_tokens":17, "frequency_penalty":1}}' \ -H 'Content-Type: application/json'

出现以下错误请问是什么原因，以及能不能给出一个具体的使用llmc+lightllm的部署教程，谢谢！

Sep 03 '24 07:09 lzd19981105

lightllm版本更新有点快，目前llmc和最新的lightllm还在适配中，应该很快会搞好，目前可以先用vllm来部署一下，文档在这里：https://llmc-zhcn.readthedocs.io/en/latest/backend/vllm.html

Sep 09 '24 07:09 llmc-reviewer