Brian issues

Results 9 issues of


                                            Brian

在HashSetDuplicateRemover这个类里，如果先对url做一个md5的hash，再保存到hashset里去重，是不是能节省很多内存？

在HashSetDuplicateRemover这个类里，如果先对url做一个md5的hash，再保存到hashset里去重，是不是能节省很多内存？可以考虑下

PriorityScheduler为什么写的如此复杂？要3个queue去配合

PriorityScheduler源码如截图： ![image](https://user-images.githubusercontent.com/22490427/117938486-aeaccc80-b339-11eb-9114-5ae4a479dd12.png) 问题：为什么需要使用三个queue？直接把QueueScheduler的队列换成PriorityBlockingQueue就可以了吧？而且统计队列剩余数量好像是错的，只统计一个队列的，请作者看看。 QueueScheduler源码如截图： ![image](https://user-images.githubusercontent.com/22490427/117938791-fcc1d000-b339-11eb-9b13-de356cf68421.png) 请作者指点一下，谢谢！

动态调整线程数量会报reject错误

有个需求，需要动态调整爬虫的线程池数量，因为爬虫在运行中，我只能下如下的代码去修改： //当前运行的线程数是10，希望通过以下代码调整为5 if (spider.getStatus() == Status.Running) { spider.stop(); spider.thread(5); spider.start(); } 但偶尔会得到以下错误，请帮忙看看@code4craft Exception in thread "Thread-13" java.util.concurrent.RejectedExecutionException: Task us.codecraft.webmagic.thread.CountableThreadPool$1@3ea050c0 rejected from java.util.concurrent.ThreadPoolExecutor@4d86ad21[Shutting down, pool size = 8, active threads =...

BloomFilterDuplicateRemover是内存操作的吗？如果爬虫重启，要怎么初始化重建？

BloomFilterDuplicateRemover是内存操作的吗？如果爬虫重启，要怎么初始化重建？因为已入库的可能有很多很多

shadowsockets只有密码，没有账号，如何用SimpleProxyProvider

![image](https://user-images.githubusercontent.com/22490427/108589003-2d2b4b00-7397-11eb-8307-4fc3e2c8927f.png)

下个迭代能不能把SubPageProcessor的match参数从request改成page

下个迭代能不能把SubPageProcessor的match参数从request改成page，有些时候要用到。例如match返回false时，同时要把page.setSkip设置为false，让它不要触发Pipeline ```java @Override public void process(Page page) { for (SubPageProcessor subPageProcessor : subPageProcessors) { if (subPageProcessor.match(page.getRequest())) { SubPageProcessor.MatchOther matchOtherProcessorProcessor = subPageProcessor.processPage(page); if (matchOtherProcessorProcessor == null || matchOtherProcessorProcessor != SubPageProcessor.MatchOther.YES)...

spider的addUrl(String... urls)、startUrls（List<String> urls）有啥区别？

spider的addUrl(String... urls)、startUrls（List urls）有啥区别？感觉都是添加入口而已

请教一个爬虫管理的问题，欢迎各路大佬拍砖

场景：我打算写一个爬虫，用定时任务调度，每天定时触发一次爬虫，做增量爬取，现在有两个方案：方案1：爬虫常驻在内存里，重新将入口添加到爬虫（spider.addUrl方法），然后spider.start()唤醒爬虫，但由于去重的原因，导致爬虫直接就完成退出了。方案2：爬虫每次爬完之后，自己退出jvm（对象销毁，内存回收），但没找到好办法，感觉爬虫一直会在内存里，因为我再次创建一个同名（uuid相同）的爬虫，会报错，提示已存在。 javax.management.InstanceAlreadyExistsException: WebMagic:name=tianya.cn 请问各路大佬，有啥好的办法？另外，我想在爬虫任务执行到一半的时候想清空爬虫队列待爬URL的queue，放入入口url重新爬取，请问这个有办法吗？

response status 17 != 0,请问是什么原因导致的？

response status 17 != 0 [2017-11-20 14:55:47] ERROR - file: tracker_proto.c, line: 48, server: 10.100.30.33:23000 我们存储用了nas，由于nas本身已经具有容错机制，所以，我们把组里的storage1跟storage2都指向了同一个nas磁盘，然后每次上传附件都会报这个错，但不影响实际使用，请问这个问题是什么原因导致的，有办法解决这个错误吗？