inference
inference copied to clipboard
请问跑minicpm-llama3-v-2_5(int4)支持并发调用接口么?2个及以上并发调用就报错了
请问跑minicpm-llama3-v-2_5(int4)支持并发调用接口么?2个及以上并发调用就报错了,单个没有问题。。。。
需要怎么样才能并发呢?目前是一台物理机 24G 显卡,虽然资源不多,但希望能够实现起码2个并发吧~~
这个看起来是模型量化导致的问题。
This issue is stale because it has been open for 7 days with no activity.
minicpm-2b-sft-bf16推理时遇到了类似的问题,单线程请求正常,并发请求失败,且推理服务不再可用