KAG icon indicating copy to clipboard operation
KAG copied to clipboard

感觉更新到0.7版本抽取的效果变差很多,有没有大佬也碰到这个问题呀

Open mmMm128 opened this issue 8 months ago • 27 comments

感觉更新到0.7版本抽取的效果变差很多,有没有大佬也碰到这个问题呀。抽取完只剩几个点了,不知道是不是哪里设置不对

mmMm128 avatar Apr 25 '25 02:04 mmMm128

方便共享下你的文档么?

leywar avatar Apr 25 '25 02:04 leywar

方便共享下你的文档么?

用的文档是在网上下载的国家安全法,跟之前用的是同一个模型,但是更新完后不知道为什么效果差了很多

mmMm128 avatar Apr 25 '25 02:04 mmMm128

https://wenku.so.com/tfd/6a874ccd21c5a727ab8386b840c85839?src=baiduss1&ocpc_id=125406&plan_id=620343394&group_id=10385893731&keyword=%B9%FA%BC%D2%B0%B2%C8%AB%B7%A8&bd_vid=11203805537150773473 是这个文档?

可以再给下:1)使用的抽取模型,2)评测问题集

leywar avatar Apr 25 '25 05:04 leywar

https://wenku.so.com/tfd/6a874ccd21c5a727ab8386b840c85839?src=baiduss1&ocpc_id=125406&plan_id=620343394&group_id=10385893731&keyword=%B9%FA%BC%D2%B0%B2%C8%AB%B7%A8&bd_vid=11203805537150773473 是这个文档?

可以再给下:1)使用的抽取模型,2)评测问题集

是的大佬,抽取模型选的是Qwen/Qwen2.5-72B-Instruct,出问题的不是问答,是抽取结果的东西只有4个点,之前0.6版本的时候有很多点

mmMm128 avatar Apr 25 '25 06:04 mmMm128

LLM用第三方在线接口,还是自己部署的模型?

thundax-lyp avatar Apr 25 '25 06:04 thundax-lyp

https://wenku.so.com/tfd/6a874ccd21c5a727ab8386b840c85839?src=baiduss1&ocpc_id=125406&plan_id=620343394&group_id=10385893731&keyword=%B9%FA%BC%D2%B0%B2%C8%AB%B7%A8&bd_vid=11203805537150773473 是这个文档? 可以再给下:1)使用的抽取模型,2)评测问题集

是的大佬,抽取模型选的是Qwen/Qwen2.5-72B-Instruct,出问题的不是问答,是抽取结果的东西只有4个点,之前0.6版本的时候有很多点

KAG uses the open-source pdfminer to parse the content of PDF documents, which requires high quality of the pdf file itself. If the performance is unsatisfactory in practice, you can alternatively use the services provided by doc2x or mineru to convert PDFs to MD format before performing knowledge extraction.

caszkgui avatar Apr 25 '25 06:04 caszkgui

@mmMm128 参考上面的的回复, KAG默认没做pdf抽取优化的,你可以使用doc2x or mineru 把 pdf转成md格式。 我们实测了下,用官网下载的 “国家安全法”pdf,默认的pdf读取器解析不出内容。

leywar avatar Apr 25 '25 09:04 leywar

LLM用第三方在线接口,还是自己部署的模型?

大佬我用的是第三方是在线接口

mmMm128 avatar Apr 27 '25 01:04 mmMm128

@mmMm128 参考上面的的回复, KAG默认没做pdf抽取优化的,你可以使用doc2x or mineru 把 pdf转成md格式。 我们实测了下,用官网下载的 “国家安全法”pdf,默认的pdf读取器解析不出内容。

大佬我用的就是把他变成docx文件,提取出了文字才去抽取的

mmMm128 avatar Apr 27 '25 01:04 mmMm128

LLM用第三方在线接口,还是自己部署的模型?

大佬我用的是第三方是在线接口

这篇文章充满了敏感词,在线接口大概会吃掉一些,换成本地模型试试

thundax-lyp avatar Apr 27 '25 01:04 thundax-lyp

KAG uses the open-source pdfminer to parse the content of PDF documents, which requires high quality of the pdf file itself. If the performance is unsatisfactory in practice, you can alternatively use the services provided by doc2x or mineru to convert PDFs to MD format before performing knowledge extraction.

But before the update, using the same file produced good results, but after the update, the results have worsened using the same file.

mmMm128 avatar Apr 27 '25 01:04 mmMm128

LLM用第三方在线接口,还是自己部署的模型?

大佬我用的是第三方是在线接口

这篇文章充满了敏感词,在线接口大概会吃掉一些,换成本地模型试试

好的大佬我试一下,谢谢您

mmMm128 avatar Apr 27 '25 01:04 mmMm128

我也遇到同样的问题。 @mmMm128 0.6的时候实体、关系看上去很靠谱;现在没啥关系了,都成实体,完全抽不出关系了。

sail0755 avatar Apr 27 '25 03:04 sail0755

我也遇到同样的问题。 @mmMm128 0.6的时候实体、关系看上去很靠谱;现在没啥关系了,都成实体,完全抽不出关系了。

是的!就是这样,不知道到底是为啥

mmMm128 avatar Apr 27 '25 03:04 mmMm128

我也遇到同样的问题。 @mmMm128 0.6的时候实体、关系看上去很靠谱;现在没啥关系了,都成实体,完全抽不出关系了。

是的!就是这样,不知道到底是为啥

Using the example document provided in the KAG quick start, the extraction model uses qwen2.5 7B, the vector model uses bge-m3, and the paragraph segmentation length is 500. After extraction, here is my knowledge exploration page:

Image

double click on the entity "周杰伦" to get one hop graph: Image

caszkgui avatar Apr 27 '25 04:04 caszkgui

我也遇到同样的问题。 @mmMm128 0.6的时候实体、关系看上去很靠谱;现在没啥关系了,都成实体,完全抽不出关系了。

是的!就是这样,不知道到底是为啥

Could you tell us how to reproduce your work, including your docs、llm conf、vector model conf、split_size ?

caszkgui avatar Apr 27 '25 04:04 caszkgui

LLM用第三方在线接口,还是自己部署的模型?

大佬我用的是第三方是在线接口

这篇文章充满了敏感词,在线接口大概会吃掉一些,换成本地模型试试

用了不敏感的文件效果还是不好

mmMm128 avatar Apr 27 '25 08:04 mmMm128

LLM用第三方在线接口,还是自己部署的模型?

大佬我用的是第三方是在线接口

这篇文章充满了敏感词,在线接口大概会吃掉一些,换成本地模型试试

用了不敏感的文件效果还是不好

上传数据和配置,来调试下

thundax-lyp avatar Apr 27 '25 08:04 thundax-lyp

Could you tell us how to reproduce your work, including your docs、llm conf、vector model conf、split_size ?

The tasks I created all use the default settings, because the results were very good with the default settings in version 0.6.

mmMm128 avatar Apr 27 '25 08:04 mmMm128

LLM用第三方在线接口,还是自己部署的模型?

大佬我用的是第三方是在线接口

这篇文章充满了敏感词,在线接口大概会吃掉一些,换成本地模型试试

用了不敏感的文件效果还是不好

上传数据和配置,来调试下

https://zhidao.baidu.com/question/358282865.html随便找了一篇文章,然后配置的参数都是默认的,用的模型是第三方api接入的Qwen/Qwen2.5-72B-Instruct

mmMm128 avatar Apr 27 '25 09:04 mmMm128

0.7产品模式自动抽取效果很差,我现在退回0.6在用

floydfay avatar May 19 '25 02:05 floydfay

我现在也是想回退到0.6,感觉0.7的效果与Ragflow这些差不多。对于多跳问题处理的还不如0.6

5terran avatar May 29 '25 08:05 5terran

0.7产品模式自动抽取效果很差,我现在退回0.6在用

大佬,这个退回怎么搞的呀,想试试0.6的

ice-yoghurt avatar Jun 04 '25 11:06 ice-yoghurt

Image

请问为什么我在知识探查后总是出现这样的报错unknown error Failed to invoke procedure db.index.fulltext.queryNodes: Caused by: org.apache.lucene.search.IndexSearcher$TooManyClauses: maxClauseCount is set to 1024

kuibawansui avatar Sep 16 '25 07:09 kuibawansui

unknown error PemjaUtils.invoke Exception:pemja.core.PythonException: <class 'RuntimeError'>: invalid vectorizer config: 'No configuration setting found for key name' 在产品模式下导入非结构化任务为什么也会报错

kuibawansui avatar Sep 16 '25 07:09 kuibawansui

开发者模式下创建好项目后在web页面为什么构建任务会报错

kuibawansui avatar Sep 16 '25 08:09 kuibawansui

openai.InternalServerError: Error code: 503 - {'code': 50603, 'message': 'System is too busy now. Please try again later.', 'data': None}有没有大佬指导为什么一直这样的报错,用的是deepseek-ai/DeepSeek-R1-0528-Qwen3-8B,是因为模型太小的原因吗

kuibawansui avatar Oct 09 '25 13:10 kuibawansui