fastllm icon indicating copy to clipboard operation
fastllm copied to clipboard

python batch推理接口是不是还没实现

Open wqh17101 opened this issue 1 year ago • 4 comments

wqh17101 avatar Jul 06 '23 06:07 wqh17101

嗯,之后会和generationConfig一起更新下 现在可以多线程调用stream_response或者stream_chat,内部会自动拼batch (目前只有fp16拼batch有收益)

ztxz16 avatar Jul 06 '23 06:07 ztxz16

内部会自动拼batch

@ztxz16 这个实现逻辑是怎么样的呢,可以讲解下不

wqh17101 avatar Jul 06 '23 09:07 wqh17101

内部会自动拼batch

@ztxz16 这个实现逻辑是怎么样的呢,可以讲解下不

具体要看代码了,大概的思路是底下维护了一个任务队列,每次把还活着的请求拼在一起做,结束的请求扔掉

ztxz16 avatar Jul 06 '23 09:07 ztxz16

嗯,之后会和generationConfig一起更新下 现在可以多线程调用stream_response或者stream_chat,内部会自动拼batch (目前只有fp16拼batch有收益)

@ztxz16 你好,现在更新了吗?是batch推理在pyfastllm里面了吗?谢谢~

1787648106 avatar Nov 26 '23 07:11 1787648106