能否增强一下国外事件分析能力
我测试了一下国外的一些事件,输出的结果基本都是瞎编的,什么微博热搜,大V评测,都是不存在的。 能否增加一个选项可以选择国外和国内。
是的,我昨天的报关关于一个twitter的用户说的什么大事件也是幻觉,帐号也是幻觉。
项目的私有数据是基于 MindSpider 爬虫模块(基于MediaCrawler - 自媒体平台爬虫),可以从README爬虫结构中观察到只接入了中国国内的媒体平台。
MindSpider/
├── BroadTopicExtraction/ # 话题提取模块
│ ├── database_manager.py # 数据库管理器
│ ├── get_today_news.py # 新闻采集器
│ ├── main.py # 模块主入口
│ └── topic_extractor.py # AI话题提取器
│
├── DeepSentimentCrawling/ # 深度爬取模块
│ ├── keyword_manager.py # 关键词管理器
│ ├── main.py # 模块主入口
│ ├── platform_crawler.py # 平台爬虫管理器
│ └── MediaCrawler/ # 多平台爬虫核心
│ ├── base/ # 基础类
│ ├── cache/ # 缓存系统
│ ├── config/ # 配置文件
│ ├── media_platform/ # 各平台实现
│ │ ├── bilibili/ # B站爬虫
│ │ ├── douyin/ # 抖音爬虫
│ │ ├── kuaishou/ # 快手爬虫
│ │ ├── tieba/ # 贴吧爬虫
│ │ ├── weibo/ # 微博爬虫
│ │ ├── xhs/ # 小红书爬虫
│ │ └── zhihu/ # 知乎爬虫
如果需要其他信息源,可以自行在/MindSpider/DeepSentimentCrawling/MediaCrawler/media_plate 中实现 AbstractCrawler ,比如 TwitterCrawler
https://github.com/666ghj/BettaFish/tree/main/MindSpider#%E9%A1%B9%E7%9B%AE%E5%BC%80%E5%8F%91%E6%8C%87%E5%8D%97
关于幻觉问题,这是我在其他地方的回答,可以看一下:可以试一试先多爬一些数据再跑一下看看。最大的幻觉来源是Insight Agent,他只能从数据库来获取信息,并且报告的一些图表数据譬如大家的情绪发展曲线等等也主要是使用Insight Agent的数据,我们知道大模型做计算是容易出错的,所以这个Agent里内置了一些机器学习模型与计算器来算统计结果。如果数据库拉不出东西,但是prompt给的压力又要爆了,deepseek难以避免的开始瞎编了。论坛机制虽然有一定的纠正虚假言论的作用,但现在的prompt以及整个多agent框架设计还是没有去做强约束、以及专门拉一个工作流来干这个虚假言论检测的作用,所以幻觉小还可以抑制一下,一旦突破那个约束边界就没办法了,就开始彻底放飞自我了。这部分我这个月狂看了一些虚假言论检测的研究,后续也有一些迭代想法,可以持续关注一下。
系统是如何拥有预测能力的