我配置好了环境,想要实现本地知识库的问答?可是它返回给我的
没有总结,只有相关度的回复,但是我看演示里面表现的,回复是可以实现总结的,我去查询代码 这一部分负责显示输出,可是为什么没有总结?
我的演示如下:
控制输出的这部分代码
这是让测试知识库匹配的,只是embedding的向量查询测试,不经过大模型处理的,你注意看对话框最上边的解释说明。。。。 你说的应该去对话tab,选知识库问答
非常感谢您的答复,昨天我在后续的运行中,发现了这个问题(太菜了,然后我一行一行代码去读懂的),对此(打扰到大家),深感抱歉(主要是我看仓库下面的md文件显示就是在测试知识库匹配实现了总结(第一个图)),我自己测试的效果(第二个图)。
我又有了新的疑惑,我上传了两个txt文件,有一个大一点的和小一点的,大的这一个很容易就
只有当我将文本入库分句长度缩小到10,而且上传文本文件为小的txt时,才不会报上面这个错误,另外我测试,对相同的txt文件进行知识库提问,但是有的提问,就会出现上述这个报错。可是我采用的是量化int4模型和小的ernie-3.0-base-zh模型,还是不能满足要求嘛?有什么好的建议嘛?我看有建议说修改下面这个值,但是我测试效果好像不大。
我本身的硬件设施是rtx3060ti,内存是16G的。
一般是对话几轮会出现GPU OOM吧,因为逻辑上为了保持上下文,会把之前对话的问题和回答都放到下一次提问的request里,导致要处理的文本很长,消耗mem越来越大;同时减少从知识库匹配到的结果梳理即减少需要LLM处理的文本量;(我的理解) 所以小显存尝试关闭 LLM_HISTORY_LEN=0, 和减少VECTOR_SEARCH_TOP_K = 3, 甚至可以减少知识库上下文 CHUNK_SIZE=100,总之就是减少LLM需要处理的文本长度。 我本地3080 10GB测试,用的int8量化和text2vec,在CHUNK_SIZE=150,LLM_HISTORY_LEN=0,VECTOR_SEARCH_TOP_K=3的情况下,基本没有OOM了
不过注意的是这样等于关闭了上下文,每次都是独立提问,看你需求了,测试可以这么玩,实际需要上下文就得考虑加显存了。
好的,非常感谢您,在没有出现总结之前,我一直以为是我的python版本或者环境配置有问题(明明看着配置步骤很简单的样子。。。)。所以一直在思考步骤哪里有问题,才导致CUDA OUT OF memory.至于做成商业化我应该目前是不需要的(还在读书)。