firefly
firefly
> > onnx我们已经不用了,现在用的是vllm框架部署(现在已经支持bge的reranker模型了),实测效果比onnx要好不少,显存占用更少更稳定 > > 请问可以支持多卡部署 `bge-reranker` 吗?有部署的代码能参考一下嘛。我想试试能不能启动~ [@EvanSong77](https://github.com/EvanSong77) 这是我一个项目的docker-compose.yaml文件作为参考 ```yaml services: QwQ-32B: container_name: Qwen-QwQ-32B-int4 image: vllm/vllm-openai runtime: nvidia # ports: # - 8000:8000 network_mode: "host" volumes: - "/workspace/Qwen-QwQ-32B-int4:/root/.cache/huggingface/Qwen-QwQ-32B-int4/:ro" environment:...
mcp相关工作已经基本完成,暂时未编撰wiki文档
添加不同种类的database会导致需要进行额外适配,开发进度可能不会那么快
暂时可以考虑使用oenapi将千问转化为openai格式的api进行调用。
有一点点问题,两个分支代码混淆了等待我弄好再说
话说需不需要将所有adapter的api调用方法改为异步的httpx?
lgtm