感觉更新到0.7版本抽取的效果变差很多,有没有大佬也碰到这个问题呀
感觉更新到0.7版本抽取的效果变差很多,有没有大佬也碰到这个问题呀。抽取完只剩几个点了,不知道是不是哪里设置不对
方便共享下你的文档么?
方便共享下你的文档么?
用的文档是在网上下载的国家安全法,跟之前用的是同一个模型,但是更新完后不知道为什么效果差了很多
https://wenku.so.com/tfd/6a874ccd21c5a727ab8386b840c85839?src=baiduss1&ocpc_id=125406&plan_id=620343394&group_id=10385893731&keyword=%B9%FA%BC%D2%B0%B2%C8%AB%B7%A8&bd_vid=11203805537150773473 是这个文档?
可以再给下:1)使用的抽取模型,2)评测问题集
https://wenku.so.com/tfd/6a874ccd21c5a727ab8386b840c85839?src=baiduss1&ocpc_id=125406&plan_id=620343394&group_id=10385893731&keyword=%B9%FA%BC%D2%B0%B2%C8%AB%B7%A8&bd_vid=11203805537150773473 是这个文档?
可以再给下:1)使用的抽取模型,2)评测问题集
是的大佬,抽取模型选的是Qwen/Qwen2.5-72B-Instruct,出问题的不是问答,是抽取结果的东西只有4个点,之前0.6版本的时候有很多点
LLM用第三方在线接口,还是自己部署的模型?
https://wenku.so.com/tfd/6a874ccd21c5a727ab8386b840c85839?src=baiduss1&ocpc_id=125406&plan_id=620343394&group_id=10385893731&keyword=%B9%FA%BC%D2%B0%B2%C8%AB%B7%A8&bd_vid=11203805537150773473 是这个文档? 可以再给下:1)使用的抽取模型,2)评测问题集
是的大佬,抽取模型选的是Qwen/Qwen2.5-72B-Instruct,出问题的不是问答,是抽取结果的东西只有4个点,之前0.6版本的时候有很多点
KAG uses the open-source pdfminer to parse the content of PDF documents, which requires high quality of the pdf file itself. If the performance is unsatisfactory in practice, you can alternatively use the services provided by doc2x or mineru to convert PDFs to MD format before performing knowledge extraction.
@mmMm128 参考上面的的回复, KAG默认没做pdf抽取优化的,你可以使用doc2x or mineru 把 pdf转成md格式。 我们实测了下,用官网下载的 “国家安全法”pdf,默认的pdf读取器解析不出内容。
LLM用第三方在线接口,还是自己部署的模型?
大佬我用的是第三方是在线接口
@mmMm128 参考上面的的回复, KAG默认没做pdf抽取优化的,你可以使用doc2x or mineru 把 pdf转成md格式。 我们实测了下,用官网下载的 “国家安全法”pdf,默认的pdf读取器解析不出内容。
大佬我用的就是把他变成docx文件,提取出了文字才去抽取的
LLM用第三方在线接口,还是自己部署的模型?
大佬我用的是第三方是在线接口
这篇文章充满了敏感词,在线接口大概会吃掉一些,换成本地模型试试
KAG uses the open-source pdfminer to parse the content of PDF documents, which requires high quality of the pdf file itself. If the performance is unsatisfactory in practice, you can alternatively use the services provided by doc2x or mineru to convert PDFs to MD format before performing knowledge extraction.
But before the update, using the same file produced good results, but after the update, the results have worsened using the same file.
LLM用第三方在线接口,还是自己部署的模型?
大佬我用的是第三方是在线接口
这篇文章充满了敏感词,在线接口大概会吃掉一些,换成本地模型试试
好的大佬我试一下,谢谢您
我也遇到同样的问题。 @mmMm128 0.6的时候实体、关系看上去很靠谱;现在没啥关系了,都成实体,完全抽不出关系了。
我也遇到同样的问题。 @mmMm128 0.6的时候实体、关系看上去很靠谱;现在没啥关系了,都成实体,完全抽不出关系了。
是的!就是这样,不知道到底是为啥
Using the example document provided in the KAG quick start, the extraction model uses qwen2.5 7B, the vector model uses bge-m3, and the paragraph segmentation length is 500. After extraction, here is my knowledge exploration page:
double click on the entity "周杰伦" to get one hop graph:
我也遇到同样的问题。 @mmMm128 0.6的时候实体、关系看上去很靠谱;现在没啥关系了,都成实体,完全抽不出关系了。
是的!就是这样,不知道到底是为啥
Could you tell us how to reproduce your work, including your docs、llm conf、vector model conf、split_size ?
LLM用第三方在线接口,还是自己部署的模型?
大佬我用的是第三方是在线接口
这篇文章充满了敏感词,在线接口大概会吃掉一些,换成本地模型试试
用了不敏感的文件效果还是不好
LLM用第三方在线接口,还是自己部署的模型?
大佬我用的是第三方是在线接口
这篇文章充满了敏感词,在线接口大概会吃掉一些,换成本地模型试试
用了不敏感的文件效果还是不好
上传数据和配置,来调试下
Could you tell us how to reproduce your work, including your docs、llm conf、vector model conf、split_size ?
The tasks I created all use the default settings, because the results were very good with the default settings in version 0.6.
LLM用第三方在线接口,还是自己部署的模型?
大佬我用的是第三方是在线接口
这篇文章充满了敏感词,在线接口大概会吃掉一些,换成本地模型试试
用了不敏感的文件效果还是不好
上传数据和配置,来调试下
https://zhidao.baidu.com/question/358282865.html随便找了一篇文章,然后配置的参数都是默认的,用的模型是第三方api接入的Qwen/Qwen2.5-72B-Instruct
0.7产品模式自动抽取效果很差,我现在退回0.6在用
我现在也是想回退到0.6,感觉0.7的效果与Ragflow这些差不多。对于多跳问题处理的还不如0.6
0.7产品模式自动抽取效果很差,我现在退回0.6在用
大佬,这个退回怎么搞的呀,想试试0.6的
请问为什么我在知识探查后总是出现这样的报错unknown error
Failed to invoke procedure db.index.fulltext.queryNodes: Caused by: org.apache.lucene.search.IndexSearcher$TooManyClauses: maxClauseCount is set to 1024
unknown error PemjaUtils.invoke Exception:pemja.core.PythonException: <class 'RuntimeError'>: invalid vectorizer config: 'No configuration setting found for key name' 在产品模式下导入非结构化任务为什么也会报错
开发者模式下创建好项目后在web页面为什么构建任务会报错
openai.InternalServerError: Error code: 503 - {'code': 50603, 'message': 'System is too busy now. Please try again later.', 'data': None}有没有大佬指导为什么一直这样的报错,用的是deepseek-ai/DeepSeek-R1-0528-Qwen3-8B,是因为模型太小的原因吗