BettaFish icon indicating copy to clipboard operation
BettaFish copied to clipboard

Fix mindspider

Open DoiiarX opened this issue 2 months ago • 17 comments

  1. 同步MediaCrawler为最新版本
  2. 修复数据库not null错误
  3. 支持PG数据库
  4. 规范环境变量及配置使用
  5. 规范为uv安装
  6. 使用loggru

DoiiarX avatar Nov 03 '25 14:11 DoiiarX

等一下,我检查一下,文件似乎不太对。

DoiiarX avatar Nov 03 '25 14:11 DoiiarX

好的,不急老兄

666ghj avatar Nov 03 '25 14:11 666ghj

确实,数据库mindspider 完全无法使用目前。全都是bug😭

Looong01 avatar Nov 04 '25 01:11 Looong01

例如:

保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")

Looong01 avatar Nov 04 '25 01:11 Looong01

我查了一下,数据库模板里有好多field都和代码不匹配

Looong01 avatar Nov 04 '25 01:11 Looong01

还有

【步骤3】保存分析结果到数据库...
保存话题分析失败: (1054, "Unknown column 'summary' in 'field list'")

Looong01 avatar Nov 04 '25 01:11 Looong01

例如:

保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")

这些在我的提交版本似乎修复了。请检查。感谢。

DoiiarX avatar Nov 04 '25 02:11 DoiiarX

我查了一下,数据库模板里有好多field都和代码不匹配

数据库问题很严重。字段不匹配是一个问题,之前的底层库依赖mysql的自动类型修复又是另一个问题。底层库总是使用整数型和字符串类型比较,全靠自动类型修复运行。不过目前都有修复。但是希望有更多人测试。数据库bug是很严肃,需要检查。

DoiiarX avatar Nov 04 '25 02:11 DoiiarX

新的问题是:小红书爬取似乎永远无法正常运行。 我尝试了很多次headless无法成功,然后强制切换为CPD,成功登录,但出现了以下错误(账号异常): image 不知道作者是如何解决的

Looong01 avatar Nov 04 '25 02:11 Looong01

例如:

保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")

这些在我的提交版本似乎修复了。请检查。感谢。

看了您的代码,确实非常全面。我的push似乎没有必要了。期待合并

Looong01 avatar Nov 04 '25 02:11 Looong01

新的问题是:小红书爬取似乎永远无法正常运行。 我尝试了很多次headless无法成功,然后强制切换为CPD,成功登录,但出现了以下错误(账号异常): image 不知道作者是如何解决的

这个是底层库MediaCrawler的错误,应该在对应仓库修复。

但是基于我的爬虫经验可以得知,小红书问题是因为浏览器自动化标识是公开的,而被小红书识别从而风控导致的。另外,我希望直接粘贴原始报错,这样子其他人出现同样报错的时候可以直接用搜索引擎搜索出来参考,而使用图片的话,其他人则不好参考。感谢。

如果只是测试PR是否修复,可以在哔哩哔哩测试。

DoiiarX avatar Nov 04 '25 02:11 DoiiarX

已解决冲突

DoiiarX avatar Nov 04 '25 03:11 DoiiarX

Quality Gate Failed Quality Gate failed

Failed conditions
3 Security Hotspots

See analysis details on SonarQube Cloud

sonarqubecloud[bot] avatar Nov 04 '25 03:11 sonarqubecloud[bot]

新的问题是:小红书爬取似乎永远无法正常运行。 我尝试了很多次headless无法成功,然后强制切换为CPD,成功登录,但出现了以下错误(账号异常): image 不知道作者是如何解决的

这个是底层库MediaCrawler的错误,应该在对应仓库修复。

但是基于我的爬虫经验可以得知,小红书问题是因为浏览器自动化标识是公开的,而被小红书识别从而风控导致的。另外,我希望直接粘贴原始报错,这样子其他人出现同样报错的时候可以直接用搜索引擎搜索出来参考,而使用图片的话,其他人则不好参考。感谢。

如果只是测试PR是否修复,可以在哔哩哔哩测试。

好的,感谢

Looong01 avatar Nov 04 '25 03:11 Looong01

刚调整了数据库表中的某些字段, 就看到了这个PR 。。。

codesun8 avatar Nov 04 '25 08:11 codesun8

刚调整了数据库表中的某些字段, 就看到了这个PR 。。。

数据库问题很大,我是以参考最新依赖库为准的调整方式。

DoiiarX avatar Nov 04 '25 09:11 DoiiarX

刚调整了数据库表中的某些字段, 就看到了这个PR 。。。

我也是 然后剩下的我就不修复了 坐等

sz547073165 avatar Nov 04 '25 11:11 sz547073165