Langchain-Chatchat question ：文档向量化这个可以自己手动实现么？

question ：文档向量化这个可以自己手动实现么？

Open ucas010 opened this issue 1 year ago • 5 comments

现有公司级数据500G+，需要使用这个功能，请问如何手动实现这个向量化，然后并加载感谢。

Jun 09 '23 11:06 ucas010

#生成向量库，有专门lib可以看下langchain支持的库，转换完后写入数据我遇到这种问题 Q：XX软件官网在哪 A：XX软件官网的地址是hioffice. jd. com。本地向量库会把网站网址 .都加一了空格，这种大佬怎么调整；

Jun 10 '23 13:06 net592

现有公司级数据500G+，需要使用这个功能，请问如何手动实现这个向量化，然后并加载感谢。

利用emebdding模块把数据向量化，修改vectorstores模块把向量存储到milvus中，向量检索直接从milvus中查询，最后把匹配出的文本作为上下文和问题一起添加到prompt中给LLM。这样应该能实现你的功能吧

Jun 10 '23 16:06 YidaHu

谢谢您的邮件。我会尽快回复您！

Jun 10 '23 16:06 net592

@YidaHu 大佬，文本向量化这块咋修改的啊？

Jun 12 '23 01:06 ucas010

其实你只要额外写一个循环，不断调用local_doc_qa.py文件里，LocalDoCQA类的init_knowledge_vector_store方法就可以实现，

Jun 13 '23 15:06 hzg0601

请问您是如何存储的呢，50G的数据生成的向量很大吧？

Jun 20 '23 09:06 Leawnn