fastllm python batch推理接口是不是还没实现

python batch推理接口是不是还没实现

Open wqh17101 opened this issue 1 year ago • 4 comments

Jul 06 '23 06:07 wqh17101

嗯，之后会和generationConfig一起更新下现在可以多线程调用stream_response或者stream_chat，内部会自动拼batch （目前只有fp16拼batch有收益）

Jul 06 '23 06:07 ztxz16

内部会自动拼batch

@ztxz16 这个实现逻辑是怎么样的呢，可以讲解下不

Jul 06 '23 09:07 wqh17101

内部会自动拼batch

@ztxz16 这个实现逻辑是怎么样的呢，可以讲解下不

具体要看代码了，大概的思路是底下维护了一个任务队列，每次把还活着的请求拼在一起做，结束的请求扔掉

Jul 06 '23 09:07 ztxz16

嗯，之后会和generationConfig一起更新下现在可以多线程调用stream_response或者stream_chat，内部会自动拼batch （目前只有fp16拼batch有收益）

@ztxz16 你好，现在更新了吗？是batch推理在pyfastllm里面了吗？谢谢～

Nov 26 '23 07:11 1787648106