coderchem
coderchem
我理解,数据应该是越多越好。为什么啥只是选择10呢?
me too,did you solve it?
我们使用FT/triton已经加速了2-3倍。但是性能还是不够, @tpoisonooo 现在tensorrt结果错误的问题又最新的进展吗?
TGI does not support it now ,updates are so slow
添加了--disable-flashinfer-sampling ,解决了输出随机的问题,但是在跑一致率的时候,发现和vllm差距较大。效果也很差,。