澄潭

Results 466 comments of 澄潭

Yes, currently higress only supports version 1.0.0 of the Gateway API, and we are working on supporting the latest version of the API.

CPU 到 100%,是配置线程跑满了,服务数太多的时候,CDS 的计算会比较消耗 CPU,不过计算成功后就不会重复计算了;配置线程跑满会导致用于处理 prometheus 的 admin 接口 pending,健康检查会依赖这个接口,建议将readinessProbe的超时时间调高。

另外看日志,应该是配置推送期间跟controller之间的连接一直在断,可以看下controller是不是oom了,可以先加高一些内存。 controller侧的profiler可以通过下面方式采集一下: ```bash ## 端口映射到本地 k port-forward pod/higress-controller-xxxxxx-xxxxx -n higress-system 15014:15014 ## cpu profile: go tool pprof http://localhost:15014/debug/pprof/profile?seconds=20 ## mem profile: go tool pprof http://localhost:15014/debug/pprof/heap?seconds=20 ``` ![image](https://github.com/user-attachments/assets/4dc5ca6f-1b07-4546-8972-37eda629548e) cpu和mem会分别生成这样一个文件,可以把这个文件发一下

跟这个PR似乎有重合的部分?https://github.com/alibaba/higress/pull/1248 如这个PR里评论的,embeding和vector部分逻辑比较通用,建议放到独立的 ai-utils 目录下

@Suchun-sv 没有考虑多轮对话的场景吗?如果有多轮上下文,应该支持用户配置针对多轮不开启缓存,或者将多轮对话合并用于文本相似对比

@Suchun-sv 可以增加一个多轮对话的缓存策略配置项,提供几种选项: 1. 关闭缓存 2. 使用最后一个问题作为缓存key 3. 配置合并的对话数量,将合并后的对话作为缓存key

这个可能短期不会支持,一方面 Ingress API/Gateway API 都没有对与非匹配这种路由条件的定义; 另一方面,在主流的 CPP 正则库如 RE2,以及 HyperScan 中都没有对 zero width asserts 的支持。