eval-scope
eval-scope copied to clipboard
性能参数设置
前提条件:利用evalscope进行模型性能测试,查询模型在最大支持token情况下的并发数, 已知:模型最大token是131072 问题:如何设置max_tokens、min_tokens、min_prompt_length和max_prompt_length参数
最大token是131072 ,保证 max_prompt_length + max_tokens < 131072 即可,具体的并发数可以从低到高(1到200)多设置几个看看模型的推理性能,观察什么参数配置下吞吐和时延表现较好。具体方法参考 https://evalscope.readthedocs.io/zh-cn/latest/user_guides/stress_test/quick_start.html#id3