scraplat issues

似乎没有深度控制？

老师，您好！似乎没有看到对爬虫进行深度控制，导致爬虫效率降低，大部分的时间都浪费在判断重复链接上了？ http://ilazycat.com/ 的爬取好像就很费时间，是这个原因造成的么? 可是如果想加上深度控制，我能想到的是在记录url的同时，增加一个参数，记录它的深度，但是目前采用的bdb的方式只能存储一对键值改起来好像挺麻烦的，您有没有什么好的解决办法？谢谢老师！

chenliang100

老师，您好！这是个很棒的项目，以最简洁高效的方式实现了基于线程池的指定网站爬虫。但是我在实验的过程中发现，程序会进入死循环： Task Status: Task Buffer Count: 417 Task Queue Count: 9 Workers Status: V-0: IS_finished : False IS_stopped : False IS_working : True V-1: IS_finished : False IS_stopped :...

chenliang100

scraplat
scraplat copied to clipboard

Metadata

乱码

似乎没有深度控制？

死循环？！

← Metadata

Owner

Metadata

scraplat scraplat copied to clipboard

Metadata

乱码

似乎没有深度控制？

死循环？！

← Metadata

Owner

Metadata

scraplat
scraplat copied to clipboard