caizhenghao

Results 13 comments of caizhenghao

我看新版本有个阿里百炼渠道了,对请求直接转发,可能可以解决这个问题,下周我再试下

> 我看新版本有个阿里百炼渠道了,对请求直接转发,可能可以解决这个问题,下周我再试下 验证ok了,用最新版本的oneapi使用百炼渠道可以正常跑

@warlockedward 请问你说的prompt是什么功能,我最近也遇到了r1-32b无法读取文件的问题,fastgpt更新太快了,实在不想自己去大范围修改现有代码。能基于现有功能或新增适配器实现就最好了。

1、是部署专属实例 3、如下,有,但状态是失败 ``` kubectl -n spaces get ksvc NAME URL LATESTCREATED LATESTREADY READY REASON f4ragh1harr4 http://f4ragh1harr4.spaces.app.internal f4ragh1harr4-00001 False RevisionMissing ``` 4、如下 ``` $ kubectl -n spaces get po No resources...

> 1. 检查一下remote runner安装时,logcollector组件是否正常安装运行。 > 2. 在portal上通过启动和停止按钮,重启一下服务,同时观察pod的状态及logs. > 3. loki这个服务报了一个permission denied,像是个安装配置的目录没有权限。 > > [@MasonXon](https://github.com/MasonXon) 看一下loki的部署权限问题。 1、之前没有开启logcollector csghub的docker-compose增加了 - '3100:3100' # Loki ,放开端口后更新 runner服务增加如下配置并升级 ``` logcollector: enabled: true loki: address: "http://10.1.110.47:3100/-/loki"...

@MasonXon 1、loki的问题,因为我是用docker-compose部署的csgub 0.12.0-ce 版本,你更新的是同一个镜像版本么,我将本地的镜像删除再重新拉取再重新部署即可? > 你这边的部署我理解主要问题可能在以下两个方面: > > 1. runner 构建镜像时无法正常连接到容器镜像仓库,(bug导致,已做修复,存在概率registry存储桶创建失败) > 2. 部署ksvc时拉取镜像失败,因为csghub registry是insecure的,当k3s尝试从这个镜像仓库拉取镜像时会有HTTPS信任问题,这个问题可以参考下quick_install.sh的脚本,这里面用的k3s实现的快速部署,看下里面配置的k3s的insecure registry的部分。我记得是生成了一个yaml文件,让k3s加载 2、这里第2点我用的是我公司的镜像库,insecure: "false" ,它的域名是支持https的,是否还需要按你说的处理步骤做处理。 3、部署模型时应该需要从公网拉取基础镜像再将模型传入镜像打包好,再发布到本地镜像仓库,再部署到k8s中吧。这个操作,是否需要csghub服务或runner服务访问外网?我们公司默认是锁网络的,需要知道哪块服务需要连接外网做对应处理。

> 1. 从server中的这行error发现task_id=0,需要检查ksvc在创建后,是否在annotation中有task_id的值。 > 2025-11-21_10:14:15.45441 {"time":"2025-11-21T10:14:15.454313401Z","level":"ERROR","msg":"webhook dispatch a single msg with 3 retries","subject":"webhook.event.runner","msg.data":"{"event_type":"runner.service.stop","event_time":1763720052,"cluster_id":"f90e1c6c-799d-4c24-a342-ee900e0b4950","runner_name":"","data_type":"object","data":{"service_name":"f4s4smpr56o0","status":26,"endpoint":"","message":"","reason":"","task_id":0}}","error":"failed to process webhook event by *executors.kserviceExecutorImpl error: failed to update deploy status in webhook error: failed to...

> 1. 镜像可以直接替换成v1.12.1-ce > 2. 如果是受信任的 registry,需要 `insecure: false` > 3. 模型部署时,会拉取部署模型的框架的镜像,例如 llama.cpp 的镜像,这个需要访问外网 ok,前两项理解,第3点,从外网拉取 llama.cpp 的镜像 这个行为发生在 csghub服务还是runner服务

@HaiHui886 @MasonXon 升级docker-compose镜像版本并配置runner服务外网访问权限后,loki能正常运行不报错了,检查runner内部可以访问外网了,但仍然无法正常部署大模型实例(svc有但ready是false,pod没有),部署页面的日志 tab页也没有任何内容。问题可能出在哪里?是否需要清理掉0.12.0-ce版本的历史文件再重新部署才能跑? $ kubectl -n spaces get ksvc NAME URL LATESTCREATED LATESTREADY READY REASON f565cny9iio0 http://f565cny9iio0.spaces.app.internal f565cny9iio0-00001 False RevisionMissing $ kubectl -n spaces get pods No resources found...

> 1. 从runner的这个行日志可以看出,knative service已经创建成功。 > {"time":"2025-11-25T08:10:31.77125013Z","level":"INFO","msg":"service created successfully","svc_name":"f565cny9iio0","deploy_id":7} > 2. 接下来就要看kubectl -n spaces get ksvc -o yaml看一下ksvc的log. 看看这里的log有没有error. > 3. 正常情况下ksvc创建后,kubectl -n spaces get po就应该能看到pod正在创建。 > 4. 检查一下kantive组件的所有pod是否都是正常运行。kubectl get po...