Chinese-Llama-2-7b
Chinese-Llama-2-7b copied to clipboard
使用项目中的api.py启动模型,没做4bit量化,使用v100的卡,推理特别慢,经常卡住
gpu占用
请求参数 {"prompt":"请判断以下表述是否全部正确,回答“对”或“错”:多喝奶茶代替饮水,“是健康的生活方式”","history":[],"max_length":2000}
单个请求,就可以将gpu显存使用率打满,一个简单问题,就需要20s的时间,这是模型的问题吗?
+1慢得一批,一开始我是用a卡跑的还以为是a卡问题,转n卡跑一样慢得要命。
+1 请问这个问题有解决吗