Langchain-Chatchat icon indicating copy to clipboard operation
Langchain-Chatchat copied to clipboard

question :文档向量化这个可以自己手动实现么?

Open ucas010 opened this issue 1 year ago • 5 comments

现有公司级数据500G+,需要使用这个功能,请问如何手动实现这个向量化,然后并加载 感谢。

ucas010 avatar Jun 09 '23 11:06 ucas010

#生成向量库,有专门lib可以看下langchain支持的库,转换完后写入数据 我遇到这种问题 Q:XX软件官网在哪 A:XX软件官网的地址是hioffice. jd. com。 本地向量库 会把网站网址 .都加一了空格,这种大佬怎么调整;

net592 avatar Jun 10 '23 13:06 net592

现有公司级数据500G+,需要使用这个功能,请问如何手动实现这个向量化,然后并加载 感谢。

利用emebdding模块把数据向量化,修改vectorstores模块把向量存储到milvus中,向量检索直接从milvus中查询,最后把匹配出的文本作为上下文和问题一起添加到prompt中给LLM。这样应该能实现你的功能吧

YidaHu avatar Jun 10 '23 16:06 YidaHu

谢谢您的邮件。我会尽快回复您!                                          

net592 avatar Jun 10 '23 16:06 net592

@YidaHu 大佬,文本向量化这块咋修改的啊?

ucas010 avatar Jun 12 '23 01:06 ucas010

其实你只要额外写一个循环,不断调用local_doc_qa.py文件里,LocalDoCQA类的init_knowledge_vector_store方法就可以实现,

hzg0601 avatar Jun 13 '23 15:06 hzg0601

请问您是如何存储的呢,50G的数据生成的向量很大吧?

Leawnn avatar Jun 20 '23 09:06 Leawnn