devxiaosong issues

Results 3 issues of


                                            devxiaosong

Hard to visit the Timer Tasks page when there are lots of history

爬虫情况描述： 1，我有28个定时爬虫，有的设置为10秒启动一次。累积到现在，有272071 条历史爬虫任务。 2，有的任务是redis_scrapy分布式任务，到现在也累计运行2个月，爬取item操作1000万条。碰到的问题： 1，点击左侧菜单“timer tasks”，打开很慢，而且会有大概率崩溃。只能重新启动scrapydweb服务。猜想的原因：可能是累积的历史任务太多，导致打开sqlite数据表很慢。建议：增加可以一键清除历史记录的功能。现在我只能每次到一定量后，重新安装程序；再设置所有爬虫，非常耗时。

bug

suggestion

scrapydweb down due to use out of memory

英文不好，就用中文来描述，请见谅。连续两天Scrapydweb莫名就挂掉了，通过系统使用情况发现，是因为内存突然在某个时刻耗尽。进而又发现，这个时间点有从网络读取了大量内容。目前我在用单台服务器安装Scrapydweb管理其他几个爬虫服务器，并没有做其他事。所以这个网络读取肯定是来自和几个爬虫服务器的交互。进而发现，在同一个时刻有一台爬虫服务器，流出很大数据包。简单来讲就是：从其中一台爬虫服务器读取了大量内容 -》Scrapydweb服务器内存飙升 -》scrapydweb挂掉现在的疑问是： 1，以上说的关联性被证实了，就不知道在什么情况下scrapydweb会从其管理的爬虫服务器读取大量内容。我现在的几个猜测（我不了解 scrapydweb底层，只是提供点线索） 1，近一个星期有个爬虫服务任务有一次，有200+万次错误。会需要上传到scrapydweb。 2，爬虫服务器日志满了，需要传送到scrapydweb。 3，业务数据量始终大而导致的问题？但这个问题以前没有，稳定运行4个月了，就这两天出现。现在每天随机挂掉几次，始终影响线上业务。望作者能给予指导，如何解决这个问题！

How to deploy distributed spiders based on scrapy-redis

感谢作者，这是我找到的最好的爬虫集群操作平台。提几个需求： 1，如何支持基于scrapy-redis的分布式爬虫的配置、启动？其他两个小需求： 1，给每个node加描述，方便自己看。 2，通过手机短信发送报警信息。

question

feature request