Chauncey2

Results 10 comments of Chauncey2

这样的话,是不是每个爬虫从各自的网站中提取的数据,必须封装成一样的item对象,然后yield到管道文件中进行处理? 否则怎么保证每个爬虫对应的网页数据结构不一样,爬取信息结构不一样而管道文件在处理的时候不会报错呢?

在拼接URL的字段中,好像有参数是用来选择不同参数的

你选择城市然后点查询,然后观察后台发送的api路径,对比一下城市的不同,我记得是有一个参数是用来选择城市的。

关于爬取全部职位的,我的这个爬虫应该就是获取zhilian上的全部职位的数据吧。我是先获取首页导航栏的职位类型和对应的关键字,然后存储为json文件,最后另一个爬虫获取文件中的关键字内容,拼接url发送请求,获取数据。

Scrapy框架写爬虫的逻辑都是类似的,晚上有很多教程和数据,兄台可以参考下,这个爬虫也是我上学的时候写的,不太成熟。

是的,你想获得二级页面,那就得获得详情页的链接,然后发送请求,在爬虫中编写详情页的解析函数。

不过如果是一页一页获取,那爬取速度会很慢,体现不了爬虫的优势。你可以考虑引入Redis数据库做url缓存,同时可以开发分布式爬虫提高爬取效率。

当不起当不起,兄台还是别用敬语了,我也是刚毕业,还在学习中,有问题我们可以交流,我在学习爬虫的时候看了一本书《Python3 网络爬虫开发实战》崔庆才主编的。我觉得挺不错,你如果感兴趣可以参考下,Github上也有崔老师的项目。

可以可以,兄台你是真大佬。

这个代码比较low 你看看能借鉴就借鉴,不能的话就规避一下坑,另外运行选用Django选用稳定版就可以,其他的依赖库当时忘记生成requirements.txt 文件了。 我没有把爬取的数据提交上去,你需要自己写一个爬虫,然后获取数据。 另外建议,Django如果不是必须,不要选用NoSQL 支持不是很好,导致自带的ORM不可用,不划算,可以选用MySQL。