wenda icon indicating copy to clipboard operation
wenda copied to clipboard

可否恢复embedding向量搜索的模式?

Open ljdavns opened this issue 1 year ago • 6 comments

如图,据我了解fess使用的是非LLM的传统方式,python服务会在搜索前先用jieba分词再把所有词穿过去 这样的效果我感受下来,其实对于自然语言不是很友好,说白了就是无法理解语义 image

image

image

image

ljdavns avatar Apr 17 '23 05:04 ljdavns

备注:移除s(用fess可以替代)和x模式(用fess无法替代)的相关commit是: https://github.com/l15y/wenda/commit/87ba476540f32645f161fbcbd790bb4a305b919a https://github.com/l15y/wenda/commit/de15c74c846cd45f82e20461e73b11881421891f https://github.com/l15y/wenda/commit/d4523194ea31a070d31965c336ffa007cf9455404

个人觉得既然是插件结构了就没必要移除,外加仅为传统分词搜索就上一套JDK也太重了 而且既然是知识库项目,没有embedding索引是不行的,比起删除,不妨大力加强这块

TheReluctantHeroes avatar Apr 17 '23 05:04 TheReluctantHeroes

@TheReluctantHeroes 你说的很有道理,但是现在换了新的设置管理方式,原先代码已经不再可用。 如果你已经修复,不妨pr过来

l15y avatar Apr 17 '23 10:04 l15y

另外fess基于es,其支持使用句向量。可用研究下咋开

l15y avatar Apr 17 '23 10:04 l15y

可以考虑 facebook的 faiss,另外langchan里面还有其它的向量搜索,可以综合考虑一下

dwdcth avatar Apr 17 '23 12:04 dwdcth

还有这个 基于rust的向量搜索引擎,看issue列表应该是支持windows的,不过官方没有发布可执行文件 https://github.com/qdrant/qdrant

dwdcth avatar Apr 17 '23 12:04 dwdcth

还有这个 基于rust的向量搜索引擎,看issue列表应该是支持windows的,不过官方没有发布可执行文件 https://github.com/qdrant/qdrant

要是有人能调通,我就做兼容

l15y avatar Apr 17 '23 14:04 l15y

还有这个 基于rust的向量搜索引擎,看issue列表应该是支持windows的,不过官方没有发布可执行文件 https://github.com/qdrant/qdrant

要是有人能调通,我就做兼容

我已经调通了,我提个 pr 吧

tanghui315 avatar Apr 19 '23 01:04 tanghui315

还有这个 基于rust的向量搜索引擎,看issue列表应该是支持windows的,不过官方没有发布可执行文件 https://github.com/qdrant/qdrant

要是有人能调通,我就做兼容

我已经调通了,我提个 pr 吧

另外新的st模式可以看看,向量搜索

l15y avatar Apr 19 '23 02:04 l15y

还有这个 基于rust的向量搜索引擎,看issue列表应该是支持windows的,不过官方没有发布可执行文件 https://github.com/qdrant/qdrant

要是有人能调通,我就做兼容

我已经调通了,我提个 pr 吧

另外新的st模式可以看看,向量搜索

我认为 st 模式只针对文档少的情况,性能也不出众。海量文档还是得有专业的向量引擎服务。

tanghui315 avatar Apr 19 '23 02:04 tanghui315