imClumsyPanda

Results 293 comments of imClumsyPanda
trafficstars

> https://github.com/imClumsyPanda/langchain-ChatGLM 这个项目有帮助吗 有专业知识的本地文档的话,是可以实现的

实测 llama-index 自定义模型过程相对麻烦,而且基本都是对 langchain 中的类进行二次封装,所以目前有基于 langchain 和 chatglm 的本地知识问答应用,可以参考项目 https://github.com/imClumsyPanda/langchain-ChatGLM

可以参考这个项目 https://github.com/imClumsyPanda/langchain-ChatGLM 能够利用 langchain 接入本地数据

主要是以下 3 方面可以优化: 1. 优化 text_split 算法,使匹配出的结果作为上下文时能够提供更合理的推理/回答依据; 2. 优化 embedding 模型,提升语义向量化的效果,使得语义匹配过程中能够匹配出最满足要求的文本段落作为上下文; 3. 优化 LLM 模型,使得给定提问相同情况下,得到更理想的推理/回答结果。

@tutuxxx 可以参考 ChatGLM-6B 模型项目本身的 README,其中有[关于 Tuning 的部分](https://github.com/THUDM/ChatGLM-6B#%E5%8F%8B%E6%83%85%E9%93%BE%E6%8E%A5)

@westlinkin 可以考虑让用户判断是不是基于文档进行对话,如果是已经上传文件之后的对话就基于文档,删除已上传文档之后就直接对话,可以通过调用不同函数对话的方式来区分,我在自己做api的过程中有使用这种方式

感谢建议🙏 目前已有计划增加,尽量在一周内完善上线。

目前都是加载文本的功能,暂时还没加入读图和ocr

可以参考 langchain 文档中关于 UnstructuredFileLoader 的介绍,我的理解是只有提取文奔。 better319 ***@***.***>于2023年4月12日 周三16:40写道: > 不读图和ocr。就是直接把word里面有的部分插图,作为内容的一部分显示出来。 > 因为我看您的说明里面说是支持word格式的 > > — > Reply to this email directly, view it on GitHub > , > or unsubscribe...

已添加至README的常见问题中