Langchain-Chatchat 我配置好了环境，想要实现本地知识库的问答？可是它返回给我的

没有总结，只有相关度的回复，但是我看演示里面表现的，回复是可以实现总结的，我去查询代码这一部分负责显示输出，可是为什么没有总结？

Jun 15 '23 07:06 qiantubu

我的演示如下：控制输出的这部分代码

Jun 15 '23 07:06 qiantubu

这是让测试知识库匹配的，只是embedding的向量查询测试，不经过大模型处理的，你注意看对话框最上边的解释说明。。。。你说的应该去对话tab，选知识库问答

Jun 16 '23 05:06 zfanswer

非常感谢您的答复，昨天我在后续的运行中，发现了这个问题（太菜了，然后我一行一行代码去读懂的），对此（打扰到大家），深感抱歉（主要是我看仓库下面的md文件显示就是在测试知识库匹配实现了总结（第一个图）），我自己测试的效果（第二个图）。 6a20b4b464e256f4cb123a5059332c7 我又有了新的疑惑，我上传了两个txt文件，有一个大一点的和小一点的，大的这一个很容易就 84064aef275e0a6d81e298c66d1075f 只有当我将文本入库分句长度缩小到10，而且上传文本文件为小的txt时，才不会报上面这个错误，另外我测试，对相同的txt文件进行知识库提问，但是有的提问，就会出现上述这个报错。可是我采用的是量化int4模型和小的ernie-3.0-base-zh模型，还是不能满足要求嘛？有什么好的建议嘛？我看有建议说修改下面这个值，但是我测试效果好像不大。我本身的硬件设施是rtx3060ti，内存是16G的。

Jun 16 '23 05:06 qiantubu

一般是对话几轮会出现GPU OOM吧，因为逻辑上为了保持上下文，会把之前对话的问题和回答都放到下一次提问的request里，导致要处理的文本很长，消耗mem越来越大；同时减少从知识库匹配到的结果梳理即减少需要LLM处理的文本量；（我的理解）所以小显存尝试关闭 LLM_HISTORY_LEN=0, 和减少VECTOR_SEARCH_TOP_K = 3, 甚至可以减少知识库上下文 CHUNK_SIZE=100，总之就是减少LLM需要处理的文本长度。我本地3080 10GB测试，用的int8量化和text2vec，在CHUNK_SIZE=150，LLM_HISTORY_LEN=0，VECTOR_SEARCH_TOP_K=3的情况下，基本没有OOM了

不过注意的是这样等于关闭了上下文，每次都是独立提问，看你需求了，测试可以这么玩，实际需要上下文就得考虑加显存了。

Jun 16 '23 07:06 zfanswer

好的，非常感谢您，在没有出现总结之前，我一直以为是我的python版本或者环境配置有问题（明明看着配置步骤很简单的样子。。。）。所以一直在思考步骤哪里有问题，才导致CUDA OUT OF memory.至于做成商业化我应该目前是不需要的（还在读书）。

Jun 16 '23 07:06 qiantubu