zeyu
zeyu
> 对于4090 的推理速度我存在质疑。不可能会少于10t/s(注意这是CPU推理的速度) 基于llama.cpp拉出的是只适配cpu的,你可以拉出最新的llama.cpp 已经适配了这个问题。 再次对比下速度。 建议您按照我们的论文复现一下相关实验,对比powerinfer和llama.cpp在Falcon的性能。 如果发现任何问题,欢迎带着您的数据和我们讨论,谢谢。