zeyu comments

Results 1 comments of


                                            zeyu

请问和llama.cpp 相比有什么优化的地方吗？因为我看大部分代码都是和他重合的

> 对于4090 的推理速度我存在质疑。不可能会少于10t/s（注意这是CPU推理的速度） ![image](https://private-user-images.githubusercontent.com/45991092/292800197-649cb0db-e1ee-422d-982b-902749190518.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTEiLCJleHAiOjE3MDM1OTIxOTIsIm5iZiI6MTcwMzU5MTg5MiwicGF0aCI6Ii80NTk5MTA5Mi8yOTI4MDAxOTctNjQ5Y2IwZGItZTFlZS00MjJkLTk4MmItOTAyNzQ5MTkwNTE4LnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFJV05KWUFYNENTVkVINTNBJTJGMjAyMzEyMjYlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjMxMjI2VDExNTgxMlomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTZjYjY2MDM0MWQyYmUzYmE2MDY4ZWYwNDAzYTUwNGZmZjJkM2ZlODExZDNjZjZjM2UxOGQ5NWJhNDhhOGUxZGYmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.-JvkzUFrT9_9mlIoapJIlxR2kMQH5acJlJLNHMmG3Mc)基于llama.cpp拉出的是只适配cpu的，你可以拉出最新的llama.cpp 已经适配了这个问题。再次对比下速度。建议您按照我们的论文复现一下相关实验，对比powerinfer和llama.cpp在Falcon的性能。如果发现任何问题，欢迎带着您的数据和我们讨论，谢谢。