fastllm 请教一下，并行计算动态batch这一块在哪里有实现，python有调用的示例吗？

请教一下，并行计算动态batch这一块在哪里有实现，python有调用的示例吗？

Open White-Friday opened this issue 1 year ago • 14 comments

Jul 10 '23 01:07 White-Friday

这个是底层特性，不用显示调用的

你就用多线程调用stream_reponse或者stream_chat就可以了，底下会自动拼batch的

目前仅对float16有提升，线程数不多的情况下每路的延迟应该和单路差不多

Jul 10 '23 01:07 ztxz16

可以问下c++ 动态拼batch的实现是在哪里吗？

Jul 10 '23 02:07 Qz243

这个是底层特性，不用显示调用的

你就用多线程调用stream_reponse或者stream_chat就可以了，底下会自动拼batch的

目前仅对float16有提升，线程数不多的情况下每路的延迟应该和单路差不多

请问线程数的多少是自动分配的，还是说需要修改重新编译

Jul 10 '23 02:07 White-Friday

可以问下c++ 动态拼batch的实现是在哪里吗？

webui里有调用示例

Jul 10 '23 07:07 ztxz16

这个是底层特性，不用显示调用的

你就用多线程调用stream_reponse或者stream_chat就可以了，底下会自动拼batch的

目前仅对float16有提升，线程数不多的情况下每路的延迟应该和单路差不多

@ztxz16 我测试了一下这个，10个prompt用10个线程同时发请求，返回的结果看起来是多个结果混合了，看了一下web_api的代码，似乎对于多线程的请求，似乎是存储在同一个queue中导致的？

Jul 11 '23 07:07 Lzhang-hub

是的，这点确实需要改进，web_api的"/api/chat_stream"接口在多线程请求时确实有这个问题。"/api/batch_chat"接口因为不是流式传输，没有这个问题。

Jul 11 '23 07:07 kiranosora

是的，这点确实需要改进，web_api的"/api/chat_stream"接口在多线程请求时确实有这个问题。"/api/batch_chat"接口因为不是流式传输，没有这个问题。

@kiranosora 有啥可以改进的方案嘛？求一个

Jul 12 '23 02:07 Lzhang-hub

预计通过handle_id区分不同的会话。非流式对话的话，可以先用“api/batch_chat"。

Jul 12 '23 03:07 kiranosora

@Lzhang-hub 新版本已修复此问题

Jul 29 '23 03:07 kiranosora

@Lzhang-hub 新版本已修复此问题

棒！👍🏻

Aug 01 '23 02:08 Lzhang-hub

@Lzhang-hub 新版本已修复此问题

请问pyfastllm支持codegeex2.0吗？

Aug 01 '23 07:08 q497629642

预计通过handle_id区分不同的会话。非流式对话的话，可以先用“api/batch_chat"。

请问一下，batch_chat的报文改如何设置呀

Aug 12 '23 09:08 HL0718

预计通过handle_id区分不同的会话。非流式对话的话，可以先用“api/batch_chat"。

@q497629642 你好，最近又batch推理的需求，我测试了一下apt/batch_chat的接口，发现请求的耗时和prompt的list长度呈线性关系，似乎没有batch的效果，请问是还有额外的参数嘛？

Sep 27 '23 06:09 Lzhang-hub

@Lzhang-hub 新版本已修复此问题

请问pyfastllm支持codegeex2.0吗？

支持的,我用的codegeex2-6b-int4, 把模型转换后正常使用即可

Mar 16 '24 15:03 MophstoL