Serving
Serving copied to clipboard
pipline性能调优
pipline如何根据机器性能调优,比如配置文件中 的worker_num和concurrency
worker_num是GRPC的线程数,这个主要占用CPU资源。
concurrency是你实际模型起的实例数,如果使用GPU的话,这个主要占用显存。
你可以根据你的请求最大并发数和CPU核数来确定worker_num。
根据请求最大并发数和显存来确定concurrency
预测结束后,内存占用很大,有么有哪里可以配置内存的优化
这个目前没有,估计是你预测过程中,并发数很高导致的缓存队列过大导致的,只能结束服务重新启动。
并发数很高导致的缓存队列过大导致的,只能结束服务重新启
我也遇到 这个问题了