zc317414
zc317414
请教如何使用docker进行本地部署fastllm,并启动Qwen3-rerank模型API服务? 是否可以指导下如何操作? 比如构建好fastllm镜像后,启动Qwen3-rerank模型API服务的命令应该怎么写? @ztxz16
ftllm server F:\local-reranker\Qwen3-Reranker-0.6B --dtype int4g256 --device cuda --port 8081 --model_name Qwen3-Reranker-0.6B 部署后 http://[localhost:8081/v1/models 显示如下: { "data": [ { "id": "Qwen3-Reranker-0.6B", "object": "model", "owned_by": "fastllm", "permission": [] } ], "object": "list"...
### System Info docker run -it --gpus all -v E:\infinity:/models -p 8081:8081 michaelf34/infinity:latest v2 --model-id "/models/jinaai/jina-reranker-v2-base-multilingual" --port 8081 INFO: Started server process [1] INFO: Waiting for application startup. INFO 2025-05-21...