fastllm
fastllm copied to clipboard
python batch推理接口是不是还没实现
嗯,之后会和generationConfig一起更新下 现在可以多线程调用stream_response或者stream_chat,内部会自动拼batch (目前只有fp16拼batch有收益)
内部会自动拼batch
@ztxz16 这个实现逻辑是怎么样的呢,可以讲解下不
内部会自动拼batch
@ztxz16 这个实现逻辑是怎么样的呢,可以讲解下不
具体要看代码了,大概的思路是底下维护了一个任务队列,每次把还活着的请求拼在一起做,结束的请求扔掉
嗯,之后会和generationConfig一起更新下 现在可以多线程调用stream_response或者stream_chat,内部会自动拼batch (目前只有fp16拼batch有收益)
@ztxz16 你好,现在更新了吗?是batch推理在pyfastllm里面了吗?谢谢~