Langchain-Chatchat icon indicating copy to clipboard operation
Langchain-Chatchat copied to clipboard

[BUG] 在使用知识库问答的时候,上传文档,出现了错误,

Open lzh1998-jansen opened this issue 1 year ago • 7 comments

问题描述 / Problem Description 将文档上传到知识库的这一步骤出现了错误, image 文档是docx格式,

lzh1998-jansen avatar Mar 26 '24 09:03 lzh1998-jansen

嘿,@lzh1998-jansen!很高兴再次见到你。希望你一切都好!

根据您的描述,您在尝试将docx格式的文档上传到Langchain-Chatchat的知识库时遇到了问题。错误信息显示为 "压缩文件(存档)不包含名为'NULL'的文件",这可能是在处理docx文件过程中出现的问题。

在Langchain-Chatchat的问题跟踪器中,我找到了一些类似的问题,可能会对您有所帮助:

  1. [BUG] 添加知识库文件doc,docx文件失败:这个问题的建议解决方案是将.doc文件转换为.docx或PDF再试一次,或者在server/knowledge_base\utils.py第106行修复一个拼写错误,将"UnstructuredWordDocumentLoader": ['.docx', 'doc']更改为"UnstructuredWordDocumentLoader": ['.docx', '.doc']

  2. [BUG] 上传文件后,知识库文件加载失败:这个问题的建议解决方案是确保所有必要的模型和模块都已正确安装并可以被Langchain-Chatchat访问。这涉及到检查sentence-transformers模型和modelscope模块的存在,因为它们的缺失可能导致问题。

  3. 自定义知识库 上传、删除等报错:这个问题的建议解决方案是更新项目代码和依赖项(特别是langchain/fschat),然后再试一次。

关于您遇到的具体错误,可能是由于在处理docx文件的过程中,系统试图访问一个不存在或未正确引用的文件,或者是对docx文件的处理存在误解或配置错误。建议您检查KnowledgeFile类或相关文件处理代码中如何解压或访问docx文件,以及是否存在对docx文件内部应存在名为'NULL'的文件的特定要求或期望。

如果以上建议不能解决您的问题,或者您需要更多的帮助,欢迎您提供更多的信息,例如错误发生的具体位置、完整的堆栈跟踪信息,或者KnowledgeFile实现的更多细节。这将有助于我们更准确地定位问题并提供更具体的解决方案。

Sources

About Dosu

This response is meant to be useful and save you time. It is not meant to be a precise solution, but rather a starting point for your own research.

Help me be more useful! Please leave a 👍 if this is helpful and 👎 if it is irrelevant.

If you want to continue the conversation, start your reply with @dosu-bot.

dosubot[bot] avatar Mar 26 '24 09:03 dosubot[bot]

1.尝试将docx转doc尝试,报错,报错信息为, image 2.原始的docx文档报错信息如下, image 3.转pdf,是可以成功的

lzh1998-jansen avatar Mar 27 '24 01:03 lzh1998-jansen

4.报错全都定位到,这个函数, image

lzh1998-jansen avatar Mar 27 '24 01:03 lzh1998-jansen

定位到这里的代码报错,导致的异常, image 然后定位到docx包中的异常,但是这个函数我无法debug进入 image

lzh1998-jansen avatar Mar 27 '24 03:03 lzh1998-jansen

最后定位到这了,怎么修改呢 ==。 image

lzh1998-jansen avatar Mar 27 '24 03:03 lzh1998-jansen

问题描述 / Problem Description 将文档上传到知识库的这一步骤出现了错误, image 文档是docx格式,

没有解决问题 ==。

lzh1998-jansen avatar Mar 28 '24 01:03 lzh1998-jansen

这个问题已经被标记为 stale ,因为它已经超过 30 天没有任何活动。

github-actions[bot] avatar Apr 28 '24 21:04 github-actions[bot]

paddle ocr读取图片的bug,没发处理

zRzRzRzRzRzRzR avatar May 07 '24 02:05 zRzRzRzRzRzRzR