vincent comments

Results 31 comments of


                                            vincent

亿级数据top1000检索时延

多少维的呢？我们做过的亿级测试，因为环境问题，都是用的小内存docker，所以采用的分布式ps节点部署，一般一个ps 2kw左右。

亿级数据top1000检索时延

查了下，我们之前一般都是top100 top2,300之类，没有召回这么多。目前我们正在做一些评测， @zcdb 对于sift128维，可以测试下top1000的耗时

> 用同一个向量提取模型，提取图像向量，写入两个数据集，A和B，A+B数量级在3000W左右，A先写入，检索效果很好，召回率在94%左右，但是后写入的数据B竟然连原图都检索不到，第一次反馈开发人员说是图库太大了，第二次说不能用ivfpq+hnsw，第三次说是参数配置问题，第四次说聚类问题，但是我把表空间重建后，使用单纯的ivfpq修改参数后发现还是会出现这个问题，关键是没有一个合理靠谱的原因确认一下问题哈，是一批图片，比如3000w张图片，分成两大数据集，A是2000W张，B是另外的1000W张图片，两部分图片都用同一个深度学习模型提取出来的向量？

有考虑过向量fp16量化后创建索引吗？

这确实能节省一半资源，但对于召回率和准确率有一定的影响，不同业务有不同要求，尤其像一些向量相似度比较集中的场景，可能有较大偏差。

想问一下指令集是怎么选取的？

avx512主要是向量寄存器带宽较avx256大了一倍，因此在向量指令计算时，数据存储这块尽量利用好比较大的寄存器缓存，避免因数据频繁从内存导入到寄存器，频繁打断计算流水线，从而影响性能。 sse2没有做过相关评测对比；avx512比avx256性能上有一定的提升，还没有专门针对两者详细评测对比过，具体也与向量指令的计算实现有关系。

Please split big pull request to some smaller commits

Good suggestion!

Upgrade the AwaDB from 0.3.5 to 0.3.6

@efriis I have added and changed the notes about relevance scores. please check, thanks!

Upgrade the AwaDB from 0.3.5 to 0.3.6

> @ljeagle looks like the formatter/lint check failed - could you update that and I can merge it in? ok, thanks

vincent

亿级数据top1000检索时延

亿级数据top1000检索时延

亿级数据top1000检索时延

集群重启后的问题

关于召回率问题，提过多次issue了，怀疑是严重bug

有考虑过向量fp16量化后创建索引吗？

想问一下指令集是怎么选取的？

Please split big pull request to some smaller commits

Upgrade the AwaDB from 0.3.5 to 0.3.6

Upgrade the AwaDB from 0.3.5 to 0.3.6