Chinese-Llama-2-7b 使用项目中的api.py启动模型，没做4bit量化，使用v100的卡，推理特别慢，经常卡住

使用项目中的api.py启动模型，没做4bit量化，使用v100的卡，推理特别慢，经常卡住

Open jcxian opened this issue 1 year ago • 2 comments

gpu占用

请求参数 {"prompt":"请判断以下表述是否全部正确，回答“对”或“错”：多喝奶茶代替饮水，“是健康的生活方式”","history":[],"max_length":2000}

单个请求，就可以将gpu显存使用率打满，一个简单问题，就需要20s的时间，这是模型的问题吗？

Aug 09 '23 06:08 jcxian

+1慢得一批，一开始我是用a卡跑的还以为是a卡问题，转n卡跑一样慢得要命。

Aug 15 '23 02:08 NaMoCv

+1 请问这个问题有解决吗

Oct 20 '23 09:10 zozoteacher