scraplat icon indicating copy to clipboard operation
scraplat copied to clipboard

I'm trying to finish the scraplat as a scraper platform

Results 3 scraplat issues
Sort by recently updated
recently updated
newest added

部分代码是乱码,不知什么原因

老师,您好! 似乎没有看到对爬虫进行深度控制,导致爬虫效率降低,大部分的时间都浪费在判断重复链接上了? http://ilazycat.com/ 的爬取好像就很费时间,是这个原因造成的么? 可是如果想加上深度控制,我能想到的是在记录url的同时,增加一个参数,记录它的深度,但是目前采用的bdb的方式只能存储一对键值 改起来好像挺麻烦的 ,您有没有什么好的解决办法? 谢谢老师!

老师,您好! 这是个很棒的项目,以最简洁高效的方式实现了基于线程池的指定网站爬虫。但是我在实验的过程中发现,程序会进入死循环: Task Status: Task Buffer Count: 417 Task Queue Count: 9 Workers Status: V-0: IS_finished : False IS_stopped : False IS_working : True V-1: IS_finished : False IS_stopped :...