su400
Results
4
comments of
su400
这个问题我也遇到了,一个文档,三国演义的前几章,几万字左右就会有。
我用的是两台L40S推理,出现同样的错误,而且必须关闭MLA,否则会超出显卡的物理共享内存。
用VLLM是正常的,按模型内的说明选择量化参数就好。