webmagic
webmagic copied to clipboard
想做一个管理后台,可以控制爬虫的开启与关闭
想做一个管理后台,可以控制爬虫的开启与关闭,这种一般要怎么实现,还请大神给个思路
想做一个管理后台,可以控制爬虫的开启与关闭,这种一般要怎么实现,还请大神给个思路
可以看看这个 https://github.com/hemin1003/java-spider
你可以在自己的PageProcessor中加入一个代表暂停的属性,然后每次执行process的时候判断是否暂停。这时候你可以选择直接结束方法,或者只提取内容不提取链接。这种方式比较温和,已经存入Scheduler中的链接还是能够被下载。
另一种方式就是调用Spiderd的stop方法。