vincent

Results 31 comments of vincent

聚类接口的开放暂时还没有开发计划。A和B是同一个模型提取的相同维度的向量吗?

> 看到你们ps的副本是通过raft同步的,如果我们的查询请求量很大,你们的vearch 可以通过增加 replica 数量来提高查询并发性能? 假如有10000+的qps,可能要100+的副本才能支撑,感觉raft可能不太合适, 你们有考虑过类似问题如何解决吗? 1、vearch支持ps多副本查询,可以通过增加replica数量来提高查询并发性能 2、vearch单副本在cpu下,通过设置合适的参数,亿级别也能做到qps1000以上,实际具体看场景和数据量以及向量维度。有条件情况下,用gpu,我们测试过能到QPS5-7000;实际情况下,不太建议副本数设置过大。

> > > 看到你们ps的副本是通过raft同步的,如果我们的查询请求量很大,你们的vearch 可以通过增加 replica 数量来提高查询并发性能? 假如有10000+的qps,可能要100+的副本才能支撑,感觉raft可能不太合适, 你们有考虑过类似问题如何解决吗? > > > > > > 1、vearch支持ps多副本查询,可以通过增加replica数量来提高查询并发性能 2、vearch单副本在cpu下,通过设置合适的参数,亿级别也能做到qps1000以上,实际具体看场景和数据量以及向量维度。有条件情况下,用gpu,我们测试过能到QPS5-7000;实际情况下,不太建议副本数设置过大。 > > 好的, 你们单机就可以达到qps:1000,很厉害了!我们这边要慢的多,我们需要用IVF_FLAT 索引,单机qps 用cpu只有200多。 这么算下来也需要20-30个副本才行,感觉这样用raft 写入的延迟就有点大了 具体还是看数据量和场景,ivf flat能保证召回,但在大数据量下,暴力搜索搜索性能是比较难提高,除非用gpu了

欢迎提issue啊!

由于一群已满,可以加二群 ![1206967684](https://user-images.githubusercontent.com/15918167/158996327-bc4b538e-ad32-4207-86d2-6651b9ae142a.jpg)

> 向量512维度,nprbe 100、200、800都试过,变化不大。搜索设置的"quick": false 总共有2亿数据,请问暴力检索的结果是怎么得到的呢?

> @ljeagle 你好,和is_brute_search=1对比没问题吧?召回率低可能是什么影响的呢?index_size、ncentroids设置的不合理吗?或分片数据量太大的原因? 猜测很可能是数据量过大,模型设置参数不太合理,导致召回不理想。 如果在2亿数据里暴力搜索,耗时很慢吧?多长时间返回? 然后如果数据量换成1kw,用同样的模型召回怎么样呢?

我们之前推荐的hnsw以及ivf参数,都是在2000w左右数据情况下测得的,记得召回95%以上。2亿数据量翻了近10倍,用同样的模型参数,训练可能都不充分。

@gyd-a 看下这个问题 日志我们最近清一清,只保留建表、搜索、插入/更新/删除相关的日志

![E572105C-ED6C-4096-AC92-20160B6DA97C](https://user-images.githubusercontent.com/15918167/180377802-69cb0330-1474-43a8-88cd-e1369f96dee9.png)