刘源
Results
1
comments of
刘源
> 你好,vllm是否能够跑起来呢? 是否有做量化呢? 另外PCIE的带宽比较低,做tensor parallel的话,可能会比较慢; 论文里面的H100多半是nvlink连接的8卡主机 > > > 硬件:H800 PCIE * 8 我使用vllm推理最多只能达到1500tokens/s,batch_size为1024,请问怎样才能达到论文里说的50000多tokens? 就是使用vllm跑的,还要专门做量化嘛? 如果需要量化的话,可以开源量化后的模型嘛?或者提供一下量化方式,是AWQ还是GPTQ? 对于并行方式,推理是选择张量并行还是流水线并行? 另外我在8卡SXM(nvlink)的A800跑也是1500tokens/s,一样用得vllm,每个卡之间的网络带宽是400GB。