BettaFish icon indicating copy to clipboard operation
BettaFish copied to clipboard

幻觉严重,明明检索出来的不是讲 monkeycode 的内容,或者根本没有检索出内容,胡编乱造了一些 微博、知乎、抖音的内容,实际根本搜不到相应的网页

Open LydiaCai1203 opened this issue 2 months ago • 22 comments

Image

Image

LydiaCai1203 avatar Nov 05 '25 07:11 LydiaCai1203

可以接受分析的不准 不能接受胡编乱造莫须有的内容

LydiaCai1203 avatar Nov 05 '25 07:11 LydiaCai1203

Monkeycode 明明就很好用啊 不好用,你来写一个好不好呀,写不来就帮忙分析原因

AkiraTiger avatar Nov 05 '25 08:11 AkiraTiger

Monkeycode 明明就很好用啊 不好用,你来写一个好不好呀,写不来就帮忙分析原因

??????? 实话不让说了? 截图你自己看啊,根本没有搜到负面的东西,然后胡编乱造了一堆 微博 知乎 小红书 的内容。更离谱的是这么多的 Star 竟然没有一个人发现这个问题?

LydiaCai1203 avatar Nov 05 '25 08:11 LydiaCai1203

Monkeycode 明明就很好用啊 不好用,你来写一个好不好呀,写不来就帮忙分析原因

我可以选择用,可以选择不用,issue 存在的目的本来就是反馈 bug 的,给你提 issue 是给你仓库贡献热度,没有义务帮你们分析原因。最后,你怎么知道我写不来?我写不写得来关你屁事?你写的来你做的这么好?

LydiaCai1203 avatar Nov 05 '25 08:11 LydiaCai1203

我看到您的issue了,在一些特定情况下确实会存在这个问题,我最近也在想着怎么很好的解决,而不是纯看大模型的幻觉约束做的好不好。可以等等看,这是一个重要的优化方向。

------------------ 原始邮件 ------------------ 发件人: LydiaMuaCai @.> 发送时间: 2025年11月5日 16:46 收件人: 666ghj/BettaFish @.> 抄送: Subscribed @.***> 主题: Re: [666ghj/BettaFish] 幻觉严重,明明检索出来的不是讲 monkeycode 的内容,或者根本没有检索出内容,胡编乱造了一些 微博、知乎、抖音的内容,实际根本搜不到相应的网页 (Issue #132)

LydiaCai1203 left a comment (666ghj/BettaFish#132)

Monkeycode 明明就很好用啊 不好用,你来写一个好不好呀,写不来就帮忙分析原因

??????? 实话不让说了? 截图你自己看啊,根本没有搜到负面的东西,然后胡编乱造了一堆 微博 知乎 小红书 的内容。更离谱的是这么多的 Star 竟然没有一个人发现这个问题?

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>

666ghj avatar Nov 05 '25 08:11 666ghj

Monkeycode 明明就很好用啊 不好用,你来写一个好不好呀,写不来就帮忙分析原因

我可以选择用,可以选择不用,issue 存在的目的本来就是反馈 bug 的,给你提 issue 是给你仓库贡献热度,没有义务帮你们分析原因。最后,你怎么知道我写不来?我写不写得来关你屁事?你写的来你做的这么好?

兄弟们,别吵,咱解决问题,我一个人有点忙不过来,多担待

666ghj avatar Nov 05 '25 09:11 666ghj

我看到您的issue了,在一些特定情况下确实会存在这个问题,我最近也在想着怎么很好的解决,而不是纯看大模型的幻觉约束做的好不好。可以等等看,这是一个重要的优化方向。

当检索出来的舆情数据为空的时候,尝试用空舆情的 prompt 呢?

LydiaCai1203 avatar Nov 05 '25 09:11 LydiaCai1203

我看到您的issue了,在一些特定情况下确实会存在这个问题,我最近也在想着怎么很好的解决,而不是纯看大模型的幻觉约束做的好不好。可以等等看,这是一个重要的优化方向。

当检索出来的舆情数据为空的时候,尝试用空舆情的 prompt 呢?

我现在想的是用rerank模型把相关性低的过滤一下,能解决一些问题,但这个也是学术难题,需要多给我一点时间研究。

666ghj avatar Nov 05 '25 09:11 666ghj

我看到您的issue了,在一些特定情况下确实会存在这个问题,我最近也在想着怎么很好的解决,而不是纯看大模型的幻觉约束做的好不好。可以等等看,这是一个重要的优化方向。

当检索出来的舆情数据为空的时候,尝试用空舆情的 prompt 呢?

我现在想的是用rerank模型把相关性低的过滤一下,能解决一些问题,但这个也是学术难题,需要多给我一点时间研究。

Image

mysql 里都是空的,,,再 rerank 有用么

LydiaCai1203 avatar Nov 05 '25 09:11 LydiaCai1203

幻觉是大模型通病了,没有的东西设法就会凑出来

li7355608 avatar Nov 05 '25 09:11 li7355608

感觉中间外加一个复核会好一点,多方数据来源排除掉那些幻觉数据

li7355608 avatar Nov 05 '25 09:11 li7355608

我看到您的issue了,在一些特定情况下确实会存在这个问题,我最近也在想着怎么很好的解决,而不是纯看大模型的幻觉约束做的好不好。可以等等看,这是一个重要的优化方向。

当检索出来的舆情数据为空的时候,尝试用空舆情的 prompt 呢?

我现在想的是用rerank模型把相关性低的过滤一下,能解决一些问题,但这个也是学术难题,需要多给我一点时间研究。

Image mysql 里都是空的,,,再 rerank 有用么

因为数据库中没有数据,只能使用llm的自有知识,肯定会幻觉严重。我们本来设计的是这个东西是用来分析热点事件舆情的,ai爬虫肯定会关注到并且爬好。但现在看来确实会发生insight agent中完全sql拿不到数据的情况。那纯靠模型幻觉肯定嗖嗖的,但是按理来说论坛也会起到一些交换信息的作用,现在最简单的办法是在这个agent的prompt上做修改,当拿不到sql数据的时候就让他启用另一版我们调优过的提示词,我测试一下可不可行,老哥给我一些时间。

666ghj avatar Nov 05 '25 09:11 666ghj

感觉中间外加一个复核会好一点,多方数据来源排除掉那些幻觉数据

是嘞,论坛本来就是设计做这个的,看来现在力度还不够,需要优化

666ghj avatar Nov 05 '25 09:11 666ghj

我看到您的issue了,在一些特定情况下确实会存在这个问题,我最近也在想着怎么很好的解决,而不是纯看大模型的幻觉约束做的好不好。可以等等看,这是一个重要的优化方向。

当检索出来的舆情数据为空的时候,尝试用空舆情的 prompt 呢?

我现在想的是用rerank模型把相关性低的过滤一下,能解决一些问题,但这个也是学术难题,需要多给我一点时间研究。

Image mysql 里都是空的,,,再 rerank 有用么

因为数据库中没有数据,只能使用llm的自有知识,肯定会幻觉严重。我们本来设计的是这个东西是用来分析热点事件舆情的,ai爬虫肯定会关注到并且爬好。但现在看来确实会发生insight agent中完全sql拿不到数据的情况。那纯靠模型幻觉肯定嗖嗖的,但是按理来说论坛也会起到一些交换信息的作用,现在最简单的办法是在这个agent的prompt上做修改,当拿不到sql数据的时候就让他启用另一版我们调优过的提示词,我测试一下可不可行,老哥给我一些时间。

不催你哈哈哈 其实我也能改,改了给你提 pr

LydiaCai1203 avatar Nov 05 '25 09:11 LydiaCai1203

我也遇到了这个问题,期待后面的更新。

hailinll avatar Nov 05 '25 17:11 hailinll

我觉得是爬虫服务没有采集到知乎、小红书信息,没有原文导致AI产生的幻觉

xybye avatar Nov 06 '25 02:11 xybye

分享一篇博客:又一道 Vibe Coding 面试题:基于注意力的 LLM 幻觉检测器 https://01.me/2025/08/attention-based-hallucination-detection/

DDZD20 avatar Nov 06 '25 06:11 DDZD20

爬虫数据库应该是要单独运行的。

DoiiarX avatar Nov 06 '25 13:11 DoiiarX

我看有的issue帖子说需要先单独运行爬虫,是这样吗?我直接按照readme运行app.py, 结果出来的报告确实幻想非常严重,而且mysql db所有的表都是空的,这是不是说app.py并不运行爬虫?

yanmingcao avatar Nov 07 '25 10:11 yanmingcao

我看有的issue帖子说需要先单独运行爬虫,是这样吗?我直接按照readme运行app.py, 结果出来的报告确实幻想非常严重,而且mysql db所有的表都是空的,这是不是说app.py并不运行爬虫?

同样的问题,我也是一样的感受,我猜想这个BettaFish和MindSpider是两个需要单独运行的项目,但是共用一套数据库,且BettaFish依赖于MindSpider往db里写的数据?

ADguyCN990 avatar Nov 08 '25 07:11 ADguyCN990

是的,可以看一下问题汇总,你理解的很好

------------------ 原始邮件 ------------------ 发件人: 金晖 @.> 发送时间: 2025年11月8日 15:08 收件人: 666ghj/BettaFish @.> 抄送: BaiFu @.>, Comment @.> 主题: Re: [666ghj/BettaFish] 幻觉严重,明明检索出来的不是讲 monkeycode 的内容,或者根本没有检索出内容,胡编乱造了一些 微博、知乎、抖音的内容,实际根本搜不到相应的网页 (Issue #132)

ADguyCN990 left a comment (666ghj/BettaFish#132)

我看有的issue帖子说需要先单独运行爬虫,是这样吗?我直接按照readme运行app.py, 结果出来的报告确实幻想非常严重,而且mysql db所有的表都是空的,这是不是说app.py并不运行爬虫?

同样的问题,我也是一样的感受,我猜想这个BettaFish和MindSpider是两个需要单独运行的项目,但是共用一套数据库,且BettaFish依赖于MindSpider往db里写的数据?

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

666ghj avatar Nov 08 '25 08:11 666ghj

+1

zhuchenyu2008 avatar Nov 08 '25 12:11 zhuchenyu2008

是的,可以看一下问题汇总,你理解的很好

@666ghj BettaFish依赖于MindSpider往db里写的数据。但是,比如我有一个自己的数据库表,我想让BettaFish基于这个数据库表的数据写分析报告,那我把这个表导入数据库可以吗?BettaFish会怎么解析这个表的内容呢?

shellhuang1227 avatar Nov 14 '25 02:11 shellhuang1227

是的,可以看一下问题汇总,你理解的很好 ...

@666ghj BettaFish依赖于MindSpider往db里写的数据。但是,比如我有一个自己的数据库表,我想让BettaFish基于这个数据库表的数据写分析报告,那我把这个表导入数据库可以吗?BettaFish会怎么解析这个表的内容呢?

可以的, BettaFish 默认依赖 MindSpider 爬虫把原始内容写入 mindspider_tables.sql 定义的一组表(如 bilibili_video、xhs_note 等),这些表位于 MindSpider/schema/,也是 InsightEngine 预设查询的对象。

应用层通过 config.py/环境变量中的 DB_HOST/PORT/USER/PASSWORD/NAME 指向这套库(支持 MySQL 或 PostgreSQL),然后所有 Agent 共享这一连接去读写舆情素材。

所以你可以把你自己的表导入同一个数据库,有两个办法:

1、复用现有的MindSpider 表结构,把自建数据整理成现有表的字段格式(例如点赞列叫 liked_count、评论列叫 comment_count 等),InsightEngine 的 MediaCrawlerDB 查询就会“无感知”地工作,因为 SQL 和数据整形逻辑就是围绕这些列写的。 2、新增自定义表/库并扩展工具,如果你要导入的表字段或语义完全不同,就需要像 README 说的:新建一个数据访问工具(InsightEngine/tools/custom_db_tool.py)并在 Agent 中显式调用,以便按照你自己的表结构编写查询逻辑。

BettaFish 解析表内容的方法: InsightEngine 的 MediaCrawlerDB 封装了多种查询函数(热度榜、按话题全库检索、按时间段筛选、提取评论等)。这些函数内部写死了要扫的表名、列名和热度计算方式,并把查询结果标准化为 QueryResult,包含平台名、内容类型、时间戳、互动指标等字段供 LLM 使用。 _extract_engagement 会根据列名映射点赞、评论、转发、播放等互动指标;所以如果你的表字段名不同,需要调整映射或在自定义工具里把数据转换成统一格式再交给 Agent。

zhuchenyu2008 avatar Nov 14 '25 14:11 zhuchenyu2008