inference icon indicating copy to clipboard operation
inference copied to clipboard

请问跑minicpm-llama3-v-2_5(int4)支持并发调用接口么?2个及以上并发调用就报错了

Open geminizyz opened this issue 1 year ago • 3 comments

请问跑minicpm-llama3-v-2_5(int4)支持并发调用接口么?2个及以上并发调用就报错了,单个没有问题。。。。 微信截图_20240619180246 微信截图_20240619180359

需要怎么样才能并发呢?目前是一台物理机 24G 显卡,虽然资源不多,但希望能够实现起码2个并发吧~~

geminizyz avatar Jun 19 '24 10:06 geminizyz

这个看起来是模型量化导致的问题。

qinxuye avatar Jun 20 '24 02:06 qinxuye

This issue is stale because it has been open for 7 days with no activity.

github-actions[bot] avatar Aug 06 '24 06:08 github-actions[bot]

minicpm-2b-sft-bf16推理时遇到了类似的问题,单线程请求正常,并发请求失败,且推理服务不再可用

bao21987 avatar Aug 12 '24 09:08 bao21987