Brian
Brian
在HashSetDuplicateRemover这个类里,如果先对url做一个md5的hash,再保存到hashset里去重,是不是能节省很多内存? 可以考虑下
PriorityScheduler源码如截图:  问题:为什么需要使用三个queue?直接把QueueScheduler的队列换成PriorityBlockingQueue就可以了吧?而且统计队列剩余数量好像是错的,只统计一个队列的,请作者看看。 QueueScheduler源码如截图:  请作者指点一下,谢谢!
有个需求,需要动态调整爬虫的线程池数量,因为爬虫在运行中,我只能下如下的代码去修改: //当前运行的线程数是10,希望通过以下代码调整为5 if (spider.getStatus() == Status.Running) { spider.stop(); spider.thread(5); spider.start(); } 但偶尔会得到以下错误,请帮忙看看@code4craft Exception in thread "Thread-13" java.util.concurrent.RejectedExecutionException: Task us.codecraft.webmagic.thread.CountableThreadPool$1@3ea050c0 rejected from java.util.concurrent.ThreadPoolExecutor@4d86ad21[Shutting down, pool size = 8, active threads =...
BloomFilterDuplicateRemover是内存操作的吗?如果爬虫重启,要怎么初始化重建?因为已入库的可能有很多很多

下个迭代能不能把SubPageProcessor的match参数从request改成page,有些时候要用到。 例如match返回false时,同时要把page.setSkip设置为false,让它不要触发Pipeline ```java @Override public void process(Page page) { for (SubPageProcessor subPageProcessor : subPageProcessors) { if (subPageProcessor.match(page.getRequest())) { SubPageProcessor.MatchOther matchOtherProcessorProcessor = subPageProcessor.processPage(page); if (matchOtherProcessorProcessor == null || matchOtherProcessorProcessor != SubPageProcessor.MatchOther.YES)...
spider的addUrl(String... urls)、startUrls(List urls)有啥区别?感觉都是添加入口而已
场景: 我打算写一个爬虫,用定时任务调度,每天定时触发一次爬虫,做增量爬取,现在有两个方案: 方案1:爬虫常驻在内存里,重新将入口添加到爬虫(spider.addUrl方法),然后spider.start()唤醒爬虫,但由于去重的原因,导致爬虫直接就完成退出了。 方案2:爬虫每次爬完之后,自己退出jvm(对象销毁,内存回收),但没找到好办法,感觉爬虫一直会在内存里,因为我再次创建一个同名(uuid相同)的爬虫,会报错,提示已存在。 javax.management.InstanceAlreadyExistsException: WebMagic:name=tianya.cn 请问各路大佬,有啥好的办法? 另外,我想在爬虫任务执行到一半的时候想清空爬虫队列待爬URL的queue,放入入口url重新爬取,请问这个有办法吗?
response status 17 != 0 [2017-11-20 14:55:47] ERROR - file: tracker_proto.c, line: 48, server: 10.100.30.33:23000 我们存储用了nas,由于nas本身已经具有容错机制,所以,我们把组里的storage1跟storage2都指向了同一个nas磁盘,然后每次上传附件都会报这个错,但不影响实际使用,请问这个问题是什么原因导致的,有办法解决这个错误吗?