mad bunny
mad bunny
> 小建议: 如果只是定时器,可以不依赖timer_fd,可以在每个poller里面管理一个自定义时间事件的优先队列,于是: 1、每次epoll_wait的时候,如果有时间事件,计算距离当前时间最近的时间事件的时长,作为epoll_wait的时间参数; 2、当epoll_wait返回的时候,如果有时间事件到期了,就处理一下时间事件。 redis就是采用的这种方法。
It seems that if turn down the --max_model_len ,it'll start。 for example: stat with the command like: python -m vllm.entrypoints.api_server --model /workspace/model/ --tensor-parallel-size 4 --max-model-len 6000
> I run `bash scripts/streaming/eval.sh full` and `bash scripts/streaming/eval.sh h2o` on one A100 80G GPU, while full cost 489s, h2o cost 7200s. I tried on A30 and have the same...