BettaFish icon indicating copy to clipboard operation
BettaFish copied to clipboard

启动MindSearch总是失败,提示 main.py: error: unrecognized arguments: --date 2025-10-28

Open Mingxiangyu opened this issue 2 months ago • 24 comments

(bettafish) [root@nvidia2 MindSpider]# python main.py --complete --date 2024-01-20 MindSpider AI爬虫项目 项目路径: /workspace/BettaFish/MindSpider

开始完整的MindSpider工作流程 目标日期: 2024-01-20 平台列表: 所有支持的平台 测试模式: 否

=== 第一步:话题提取 ===

运行BroadTopicExtraction模块... 执行命令: /root/anaconda3/envs/bettafish/bin/python main.py --date 2024-01-20 --keywords 100 usage: main.py [-h] [--sources {weibo,zhihu,bilibili-hot-search,toutiao,douyin,github-trending-today,coolapk,tieba,wallstreetcn,thepaper,cls-hot,xueqiu,kuaishou} [{weibo,zhihu,bilibili-hot-search,toutiao,douyin,github-trending-today,coolapk,tieba,wallstreetcn,thepaper,cls-hot,xueqiu,kuaishou} ...]] [--keywords KEYWORDS] [--quiet] [--list-sources] main.py: error: unrecognized arguments: --date 2024-01-20 BroadTopicExtraction模块执行失败,返回码: 2 话题提取失败,终止流程 (bettafish) [root@nvidia2 MindSpider]# python main.py --date 2024-01-20 MindSpider AI爬虫项目 项目路径: /workspace/BettaFish/MindSpider 运行完整MindSpider工作流程...

开始完整的MindSpider工作流程 目标日期: 2024-01-20 平台列表: 所有支持的平台 测试模式: 否

=== 第一步:话题提取 ===

运行BroadTopicExtraction模块... 执行命令: /root/anaconda3/envs/bettafish/bin/python main.py --date 2024-01-20 --keywords 100 usage: main.py [-h] [--sources {weibo,zhihu,bilibili-hot-search,toutiao,douyin,github-trending-today,coolapk,tieba,wallstreetcn,thepaper,cls-hot,xueqiu,kuaishou} [{weibo,zhihu,bilibili-hot-search,toutiao,douyin,github-trending-today,coolapk,tieba,wallstreetcn,thepaper,cls-hot,xueqiu,kuaishou} ...]] [--keywords KEYWORDS] [--quiet] [--list-sources] main.py: error: unrecognized arguments: --date 2024-01-20 BroadTopicExtraction模块执行失败,返回码: 2 话题提取失败,终止流程 (bettafish) [root@nvidia2 MindSpider]# python main.py MindSpider AI爬虫项目 项目路径: /workspace/BettaFish/MindSpider 运行完整MindSpider工作流程...

开始完整的MindSpider工作流程 目标日期: 2025-10-28 平台列表: 所有支持的平台 测试模式: 否

=== 第一步:话题提取 ===

运行BroadTopicExtraction模块... 执行命令: /root/anaconda3/envs/bettafish/bin/python main.py --date 2025-10-28 --keywords 100 usage: main.py [-h] [--sources {weibo,zhihu,bilibili-hot-search,toutiao,douyin,github-trending-today,coolapk,tieba,wallstreetcn,thepaper,cls-hot,xueqiu,kuaishou} [{weibo,zhihu,bilibili-hot-search,toutiao,douyin,github-trending-today,coolapk,tieba,wallstreetcn,thepaper,cls-hot,xueqiu,kuaishou} ...]] [--keywords KEYWORDS] [--quiet] [--list-sources] main.py: error: unrecognized arguments: --date 2025-10-28 BroadTopicExtraction模块执行失败,返回码: 2 话题提取失败,终止流程 (bettafish) [root@nvidia2 MindSpider]#

Mingxiangyu avatar Oct 28 '25 03:10 Mingxiangyu

并且主程序启动后: (bettafish) [root@nvidia2 BettaFish]# python app.py ReportEngine接口已注册 ForumEngine: forum.log 已初始化 正在启动Streamlit应用... 停止ForumEngine监控器以避免文件冲突... ForumEngine: 停止论坛... ForumEngine: 论坛未运行 ForumEngine: 论坛已停止 检查文件: SingleEngineApp/insight_engine_streamlit_app.py 启动 insight... insight: insight 应用启动中... 等待 insight 启动完成... insight 启动检查: 启动成功 检查文件: SingleEngineApp/media_engine_streamlit_app.py 启动 media... media: media 应用启动中... 等待 media 启动完成... media 启动检查: 启动成功 检查文件: SingleEngineApp/query_engine_streamlit_app.py 启动 query... query: query 应用启动中... 等待 query 启动完成... query 启动检查: 启动成功 ForumEngine: 启动论坛... ForumEngine: 论坛创建中... ForumEngine: 论坛已启动 初始化ReportEngine... 已找到配置文件: config.py 已找到配置文件: config.py 文件数量基准已初始化: {'insight': 3, 'media': 3, 'query': 3} 2025-10-28 03:31:42,334 - ReportEngine - INFO - Report Agent已初始化 2025-10-28 03:31:42,334 - ReportEngine - INFO - 使用LLM: {'provider': 'daosmos', 'model': 'daosmos', 'api_base': 'http://10.220.0.9:12345/v1'} Report Engine初始化成功 ReportEngine初始化成功 ReportEngine文件基准已建立,开始监控文件变化 启动Flask服务器... 到这就停了,然后浏览器界面点击后没有效果:

Image

Mingxiangyu avatar Oct 28 '25 03:10 Mingxiangyu

AI爬虫的问题我可能周末找个时间来看看。

我们先解决你能分析程序运行起来的问题,首先确认一件事,app启动后,web界面的三个agent点击按钮后都能正常在左侧展示吧?insight、media、query

666ghj avatar Oct 28 '25 03:10 666ghj

AI爬虫的问题我可能周末找个时间来看看。

我们先解决你能分析程序运行起来的问题,首先确认一件事,app启动后,web界面的三个agent点击按钮后都能正常在左侧展示吧?insight、media、query

不可以,都是提示local host不能访问,因为我是服务器部署的,用局域网访问的

Mingxiangyu avatar Oct 28 '25 03:10 Mingxiangyu

好吧兄弟,那问题就明了了,你可以看一下这个论坛,也有人跟你是一样的问题,https://linux.do/t/topic/1009280/251

好像是要改一下前端的监控代码,因为现在的逻辑是前端左侧嵌入三个streamllit app,这样我们不仅可以在这个主页统一调用,也可以单独打开任何一个agent的web界面来单独使用,你先看一下单独的agent的web界面能不能打开,改成你服务器的公网ip或者网址+端口试一下,如果能单独的streamllit app的web界面打开,那就好解决了我觉得,直接改前端里的监控地址就行,改成你单独的三个agent的web界面的地址。

有问题随时交流,因为我暂时还没有收到一个明确的在服务器上部署完的,大家都是在本地部署。我也希望可以跟你一起积累一些经验,方便后续改进。

666ghj avatar Oct 28 '25 03:10 666ghj

感谢,我先看看L站, 单独的streamllit app的web界面打开都没问题

哈哈哈正好我也当先行者,测测服务器部署

Mingxiangyu avatar Oct 28 '25 03:10 Mingxiangyu

感谢,我先看看L站, 单独的streamllit app的web界面打开都没问题

哈哈哈正好我也当先行者,测测服务器部署

好的好的,我开发的时候没考虑过服务器这种场景,就想着大家都本地部署完了,有空好好更新一版修复一下

666ghj avatar Oct 28 '25 03:10 666ghj

感谢,我先看看L站, 单独的streamllit app的web界面打开都没问题 哈哈哈正好我也当先行者,测测服务器部署

好的好的,我开发的时候没考虑过服务器这种场景,就想着大家都本地部署完了,有空好好更新一版修复一下

ok,修改了 BettaFish/templates /index.html index.html的文件中localhost为服务器对应的IP就解决了,现在能够正常运行了

Image

数据库这块有点问题,我在看看怎么解决

Mingxiangyu avatar Oct 28 '25 06:10 Mingxiangyu

这不是显示没数据库吗,你按照readme初始化一个数据库然后给他填上去,切记要初始化,程序会自动创建表结构,没数据也可以,就不会报错了。

666ghj avatar Oct 28 '25 06:10 666ghj

这不是显示没数据库吗,你按照readme初始化一个数据库然后给他填上去,切记要初始化,程序会自动创建表结构,没数据也可以,就不会报错了。

嗯嗯执行了4.2 数据库初始化 中MindSpider那一步的初始化,但是 https://github.com/666ghj/BettaFish/tree/b1ec4762cbe456e1076f6bc45da0da0c161daf59?tab=readme-ov-file#41-%E9%85%8D%E7%BD%AEapi%E5%AF%86%E9%92%A5 4.1的config我配置的数据库是随便写的test,不是MindSpider,导致没找到

Mingxiangyu avatar Oct 28 '25 06:10 Mingxiangyu

Image同样的错误。。main.py: error: unrecognized arguments: --date 2025-10-28

scccy avatar Oct 28 '25 06:10 scccy

另外老哥你跨域的报错,没有解决,要加上 '--server.enableCORS', 'false', '--server.enableXsrfProtection', 'false'

scccy avatar Oct 28 '25 07:10 scccy

另外老哥你跨域的报错,没有解决,要加上 '--server.enableCORS', 'false', '--server.enableXsrfProtection', 'false'

没有尝试解决这个mindSpider了,直接用的python app.py,还行,能跑起来

Mingxiangyu avatar Oct 28 '25 07:10 Mingxiangyu

Image同样的错误。。main.py: error: unrecognized arguments: --date 2025-10-28

试试不加任何参数运行爬虫主程序呢?新闻接口对应的可能要自行部署一下。

666ghj avatar Oct 28 '25 07:10 666ghj

Image同样的错误。。main.py: error: unrecognized arguments: --date 2025-10-28

试试不加任何参数运行爬虫主程序呢?新闻接口对应的可能要自行部署一下。

不行,试了,代码会默认添加当天的,然后就报错

Mingxiangyu avatar Oct 28 '25 07:10 Mingxiangyu

我截图的那个cmd就是没有日期的,他自己添加的date

scccy avatar Oct 28 '25 07:10 scccy

另外

Image 已经用了api了,本地不需要使用nlp了把,为啥还提示No module named 'torch'

scccy avatar Oct 28 '25 07:10 scccy

另外

Image 已经用了api了,本地不需要使用nlp了把,为啥还提示No module named 'torch'

还是要装一个torch,我本来写了一个容错函数,没有起作用,还得再改改。

torch是用来做情感分析小模型的,从数据库拉到一大堆评论数据,直接用大模型不准确,也没办法随着网络黑话等等迭代,所以我们就插件式的接入了一些本地的小模型,执行下面这两条指令安装:

pip install torch --index-url https://download.pytorch.org/whl/cpu

pip install transformers

本来是可选项,没想到容错函数没工作,之后我再修吧,不需要gpu,模型占用很小,cpu上也可以很快。

666ghj avatar Oct 28 '25 08:10 666ghj

Image同样的错误。。main.py: error: unrecognized arguments: --date 2025-10-28

这个参数本来就没有。去掉就行。

DoiiarX avatar Nov 04 '25 02:11 DoiiarX

Image同样的错误。。main.py: error: unrecognized arguments: --date 2025-10-28

这个参数本来就没有。去掉就行。

是这样的,我得给readme里删掉

666ghj avatar Nov 04 '25 02:11 666ghj

Image新代码中有这个参数。目前似乎不需要修改readme。我直接同步的最新版MediaCrawler。

DoiiarX avatar Nov 04 '25 03:11 DoiiarX

👍🏻👍🏻

666ghj avatar Nov 04 '25 03:11 666ghj

Image新代码中有这个参数。目前似乎不需要修改readme。我直接同步的最新版MediaCrawler。

子模块里还是没有吧,现在的这个代理没法爬之前的话题啊,咋也造不出接口来

jspi-fu avatar Nov 04 '25 04:11 jspi-fu

Image新代码中有这个参数。目前似乎不需要修改readme。我直接同步的最新版MediaCrawler。

子模块里还是没有吧,现在的这个代理没法爬之前的话题啊,咋也造不出接口来

PR还没有合并 https://github.com/666ghj/BettaFish/pull/73

DoiiarX avatar Nov 04 '25 05:11 DoiiarX

Image新代码中有这个参数。目前似乎不需要修改readme。我直接同步的最新版MediaCrawler。

修改这个位置的参数,并没有效果,在代码中 使用了cmd 拼接了启动命令 在那个位置加入了date参数 main的parser.add_argument("--date", type=str, help="目标日期 (YYYY-MM-DD),默认为今天")并没有效果。

codesun8 avatar Nov 04 '25 08:11 codesun8

PR已经合并。请检查最新版本。仍然有问题可以重新打开issue。

DoiiarX avatar Nov 05 '25 03:11 DoiiarX