Fix mindspider
- 同步MediaCrawler为最新版本
- 修复数据库not null错误
- 支持PG数据库
- 规范环境变量及配置使用
- 规范为uv安装
- 使用loggru
等一下,我检查一下,文件似乎不太对。
好的,不急老兄
确实,数据库mindspider 完全无法使用目前。全都是bug😭
例如:
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
我查了一下,数据库模板里有好多field都和代码不匹配
还有
【步骤3】保存分析结果到数据库...
保存话题分析失败: (1054, "Unknown column 'summary' in 'field list'")
例如:
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")
这些在我的提交版本似乎修复了。请检查。感谢。
我查了一下,数据库模板里有好多field都和代码不匹配
数据库问题很严重。字段不匹配是一个问题,之前的底层库依赖mysql的自动类型修复又是另一个问题。底层库总是使用整数型和字符串类型比较,全靠自动类型修复运行。不过目前都有修复。但是希望有更多人测试。数据库bug是很严肃,需要检查。
新的问题是:小红书爬取似乎永远无法正常运行。
我尝试了很多次headless无法成功,然后强制切换为CPD,成功登录,但出现了以下错误(账号异常):
不知道作者是如何解决的
例如:
保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value") 保存单条新闻失败: (1364, "Field 'last_modify_ts' doesn't have a default value")这些在我的提交版本似乎修复了。请检查。感谢。
看了您的代码,确实非常全面。我的push似乎没有必要了。期待合并
新的问题是:小红书爬取似乎永远无法正常运行。 我尝试了很多次headless无法成功,然后强制切换为CPD,成功登录,但出现了以下错误(账号异常):
不知道作者是如何解决的
这个是底层库MediaCrawler的错误,应该在对应仓库修复。
但是基于我的爬虫经验可以得知,小红书问题是因为浏览器自动化标识是公开的,而被小红书识别从而风控导致的。另外,我希望直接粘贴原始报错,这样子其他人出现同样报错的时候可以直接用搜索引擎搜索出来参考,而使用图片的话,其他人则不好参考。感谢。
如果只是测试PR是否修复,可以在哔哩哔哩测试。
已解决冲突
新的问题是:小红书爬取似乎永远无法正常运行。 我尝试了很多次headless无法成功,然后强制切换为CPD,成功登录,但出现了以下错误(账号异常):
不知道作者是如何解决的
这个是底层库MediaCrawler的错误,应该在对应仓库修复。
但是基于我的爬虫经验可以得知,小红书问题是因为浏览器自动化标识是公开的,而被小红书识别从而风控导致的。另外,我希望直接粘贴原始报错,这样子其他人出现同样报错的时候可以直接用搜索引擎搜索出来参考,而使用图片的话,其他人则不好参考。感谢。
如果只是测试PR是否修复,可以在哔哩哔哩测试。
好的,感谢
刚调整了数据库表中的某些字段, 就看到了这个PR 。。。
刚调整了数据库表中的某些字段, 就看到了这个PR 。。。
数据库问题很大,我是以参考最新依赖库为准的调整方式。
刚调整了数据库表中的某些字段, 就看到了这个PR 。。。
我也是 然后剩下的我就不修复了 坐等
不知道作者是如何解决的