刘源 comments

Repositories
Issues
Comments

Results 1 comments of


                                            刘源

如何能达到论文里说的吞吐量50000多tokens

> 你好，vllm是否能够跑起来呢? 是否有做量化呢? 另外PCIE的带宽比较低，做tensor parallel的话，可能会比较慢; 论文里面的H100多半是nvlink连接的8卡主机 > > > 硬件：H800 PCIE * 8 我使用vllm推理最多只能达到1500tokens/s，batch_size为1024，请问怎样才能达到论文里说的50000多tokens？就是使用vllm跑的，还要专门做量化嘛？如果需要量化的话，可以开源量化后的模型嘛？或者提供一下量化方式，是AWQ还是GPTQ？对于并行方式，推理是选择张量并行还是流水线并行？另外我在8卡SXM（nvlink）的A800跑也是1500tokens/s，一样用得vllm，每个卡之间的网络带宽是400GB。