Zhi-guo Huang

Results 40 comments of Zhi-guo Huang

生成向量是调用了HuggingFaceEmbeddings实现的,不支持多卡部署,只有LLM是支持多卡部署的

其实你只要额外写一个循环,不断调用local_doc_qa.py文件里,LocalDoCQA类的init_knowledge_vector_store方法就可以实现,

你给出的信息太抽象了,几乎没法回答,但是你这个问题八成应该是由于chinese_text_splitter.py文件里的ChineseTextSplitter类的split_text方法里的33-38行造成的,你可以在debug模式下定位一下,看看text在哪一步'\n'被完全替换了,作相应的修改就可以了

> 只需更新下git是吧,大佬 要等review&merge以后才行,你如果只想测试这个功能可以clone我fork下的dev分支,但我的分支跟owner的分支是有冲突的,最好还是等merge以后再测试吧

> 安排安排!感谢提交PR,这两天会尽快完成测试和merge。 你好,我看我的PR还没有指定reviewer,是不准备引入这些特性了吗?如果是的话,我就close这个PR,因为我还有新的PR想要提交,但是跟这些特性不适合一起提交。

> 不好意思哈,最近处理速度稍微有点慢,这个是我自己来做审核的所以没分配,这两天我会尽快完成处理。如果有新功能,建议新建分支提交,基于dev分支修改,并提交至dev分支,再次感谢🙏 明白,维护这样一个特性丰富的项目确实比较麻烦,加油!

> > > > 用你分支的代码问题依然存在: > 调用/stream_chat接口,不是一块一块实时返回,而是最后拿到全部答案一次返回的 > > ![image](https://github.com/imClumsyPanda/langchain-ChatGLM/assets/35419808/7b661f53-8422-409c-bd9c-be95054b7587) > 你应该可能恰恰说反了,http协议下,结果都是一块一块返回的,要一次返回要加额外的设置将进程阻塞才可以。至于这个时间,我觉得可能是insomnia的设置吧

> 为什么用streat_chat会出现某些情况下一直重复输出结果 如果是用cpu加载量化版本的模型,是会出现这样的问题,解决办法就是cpu和量化只选一个

> 在少数情况下,模型会出现推理失败的情况,但尝试不同的query或重新加载模型会解决。但如果无论重启模型还是更换prompt都是一直都重复,那就还是环境配错了,需要检查下载的包、系统、CUDA版本等是不是与标准配置一致