演示 vllm 对中文大语言模型的神奇效果
我看源码好像vllm还是一条一条的推理的,并不是一次计算所有的输入的。也没有看到文档说能否支持stream的batching推理。
yungangwu
wang-benqiang
pen-ho
请问如何支持百川13B,怎么修改代码呢
nuigdpgf
大佬按照代码流程安装完了依赖,进行baichuan模型推理时进程直接死掉了。
Alone749-i
gameofdimension
Back