devxiaosong

Results 3 issues of devxiaosong

爬虫情况描述: 1,我有28个定时爬虫,有的设置为10秒启动一次。累积到现在,有272071 条历史爬虫任务。 2,有的任务是redis_scrapy分布式任务,到现在也累计运行2个月,爬取item操作1000万条。 碰到的问题: 1,点击左侧菜单“timer tasks”,打开很慢,而且会有大概率崩溃。只能重新启动scrapydweb服务。 猜想的原因:可能是累积的历史任务太多,导致打开sqlite数据表很慢。 建议:增加可以一键清除历史记录的功能。 现在我只能每次到一定量后,重新安装程序;再设置所有爬虫,非常耗时。

bug
suggestion

英文不好,就用中文来描述,请见谅。 连续两天Scrapydweb莫名就挂掉了,通过系统使用情况发现,是因为内存突然在某个时刻耗尽。 进而又发现,这个时间点有从网络读取了大量内容。 目前我在用单台服务器安装Scrapydweb管理其他几个爬虫服务器,并没有做其他事。所以这个网络读取肯定是来自和几个爬虫服务器的交互。进而发现,在同一个时刻有一台爬虫服务器,流出很大数据包。 简单来讲就是: 从其中一台爬虫服务器读取了大量内容 -》Scrapydweb服务器内存飙升 -》scrapydweb挂掉 现在的疑问是: 1,以上说的关联性被证实了,就不知道在什么情况下scrapydweb会从其管理的爬虫服务器读取大量内容。 我现在的几个猜测(我不了解 scrapydweb底层,只是提供点线索) 1,近一个星期有个爬虫服务任务有一次,有200+万次错误。会需要上传到scrapydweb。 2,爬虫服务器日志满了,需要传送到scrapydweb。 3,业务数据量始终大 而导致的问题?但这个问题以前没有,稳定运行4个月了,就这两天出现。 现在每天随机挂掉几次,始终影响线上业务。望作者能给予指导,如何解决这个问题!

感谢作者,这是我找到的最好的爬虫集群操作平台。提几个需求: 1,如何支持基于scrapy-redis的分布式爬虫的配置、启动? 其他两个小需求: 1,给每个node加描述,方便自己看。 2,通过手机短信发送报警信息。

question
feature request