Alsace-lee
Alsace-lee
自问自答 发现问题之后,使用了11月8日checkout的最新源码进行编译部署 commitID:8a1ddee587bb7db56e0087ad7d322cf2af8caef7 发现该问题已经被解决,并且delete_by_query接口的返回值也有所区别,返回了删除的id列表与数量
附:all in one角色实例,1 shard 1replica
> Replicas 字典中的 key 是 PS 节点的 ID. server 里面的 p_ids 表示在这个PS server上的分片ID列表,根据这个可以得出分片副本的分布情况。 change_member 接口的使用请见文档。 > […](#) > On Tue, Jun 15, 2021 at 3:54 PM Alsace-lee ***@***.***> wrote: 背景:...
经过今天的代码review并结合etcd中的数据来看 在顺序启动多个PS时,PS会按照启动顺序在etcd的server中写入PS的元信息,各个PS启动时会去读server节点的信息并感知同集群的PS 造成集群主从选举失败的现象在于: 后启动的PS可以读到先启动的PS在server节点上留下的信息,而先启动的没有感知到后启动的PS。 可能是对etcd上server节点的监听没有生效?
[ROUTER.ERROR.log](https://github.com/vearch/vearch/files/7536671/ROUTER.ERROR.log) 附router的error日志
> > 因需要使用最近修复的功能,我们根据编译文档中的方法,使用3.2.7的基础环境镜像编译了vearch镜像 目前在使用过程中发现如下问题: 1、顺序启动master、router、ps ×2之后,通过_cluster/stats接口观察ps节点状态,两个节点均显示runtime error: invalid memory address or nil pointer dereference,更换为3.2.7版本官方镜像后则能正常注册。 2、router节点能够正常启动,启动后发送若干次请求之后则会退出。附error日志 > > 个人怀疑可能与多线程相关配置有关,router节点在设置了容器的memset与cpuset之后环节了崩溃的问题,但依旧存在。 请问是否有相似的问题经验,从容器与docker本身的日志里来看,并没有直接预告shutdown的日志 > > 确认几个问题哈 > > 1. 若干次请求是什么请求,有没有并发,是什么请求导致的崩溃? > 2. 批量插入时每次插入数据量是多少? >...
> 在容器内执行`dmesg`命令看一下router容器是否出现过OOM,还有看一下ps日志里是否出现超时日志,类似 `This request processing timed out[9999ms]` 在容器内得到的dmesg似乎与宿主机相同,不知道是否有帮助 在ps日志中也没有请求超时的日志 在刚刚单线程的搜索测试中,使用_bulk_search接口执行了20次搜索之后(平均响应时间120ms),router容器也意外崩溃了。 附dmesg信息与router容器的inspect信息 [inspect.txt](https://github.com/vearch/vearch/files/7544219/inspect.txt) [dmesg.txt](https://github.com/vearch/vearch/files/7544220/dmesg.txt)
> 使用`docker logs` 命令看一下router崩溃容器的输出 [dockerLogs.txt](https://github.com/vearch/vearch/files/7544544/dockerLogs.txt) 此处是配置了restart=always之后,两次崩溃重启之间的docker logs
> 找到router崩溃的问题了,是并发修改了一个map导致的,稍后我会将这个修改提交一下。 好的,感谢,辛苦。提交合并后我们测试一下
> 找到router崩溃的问题了,是并发修改了一个map导致的,稍后我会将这个修改提交一下。 你好,这个修改本周有提交计划吗,我们希望能尽快得到一个版本用于测试。