vincent

Results 31 comments of vincent

多少维的呢?我们做过的亿级测试,因为环境问题,都是用的小内存docker,所以采用的分布式ps节点部署,一般一个ps 2kw左右。

我们先查查之前的测试数据,稍后回复!

查了下,我们之前一般都是top100 top2,300之类,没有召回这么多。目前我们正在做一些评测, @zcdb 对于sift128维,可以测试下top1000的耗时

@kuailelijuan 有时间看看呢

> 用同一个向量提取模型,提取图像向量,写入两个数据集,A和B,A+B数量级在3000W左右,A先写入,检索效果很好,召回率在94%左右,但是后写入的数据B竟然连原图都检索不到,第一次反馈开发人员说是图库太大了,第二次说不能用ivfpq+hnsw,第三次说是参数配置问题,第四次说聚类问题,但是我把表空间重建后,使用单纯的ivfpq修改参数后发现还是会出现这个问题,关键是没有一个合理靠谱的原因 确认一下问题哈,是一批图片,比如3000w张图片,分成两大数据集,A是2000W张,B是另外的1000W张图片,两部分图片都用同一个深度学习模型提取出来的向量?

这确实能节省一半资源,但对于召回率和准确率有一定的影响,不同业务有不同要求,尤其像一些向量相似度比较集中的场景,可能有较大偏差。

avx512主要是向量寄存器带宽较avx256大了一倍,因此在向量指令计算时,数据存储这块尽量利用好比较大的寄存器缓存,避免因数据频繁从内存导入到寄存器,频繁打断计算流水线,从而影响性能。 sse2没有做过相关评测对比;avx512比avx256性能上有一定的提升,还没有专门针对两者详细评测对比过,具体也与向量指令的计算实现有关系。

@efriis I have added and changed the notes about relevance scores. please check, thanks!

> @ljeagle looks like the formatter/lint check failed - could you update that and I can merge it in? ok, thanks