Chauncey2 comments

Results 10 comments of


                                            Chauncey2

你如何运行爬虫？

这样的话，是不是每个爬虫从各自的网站中提取的数据，必须封装成一样的item对象，然后yield到管道文件中进行处理？否则怎么保证每个爬虫对应的网页数据结构不一样，爬取信息结构不一样而管道文件在处理的时候不会报错呢？

我想换个城市的爬取怎么弄

在拼接URL的字段中，好像有参数是用来选择不同参数的

我想换个城市的爬取怎么弄

你选择城市然后点查询，然后观察后台发送的api路径，对比一下城市的不同，我记得是有一个参数是用来选择城市的。

我想换个城市的爬取怎么弄

关于爬取全部职位的，我的这个爬虫应该就是获取zhilian上的全部职位的数据吧。我是先获取首页导航栏的职位类型和对应的关键字，然后存储为json文件，最后另一个爬虫获取文件中的关键字内容，拼接url发送请求，获取数据。

我想换个城市的爬取怎么弄

Scrapy框架写爬虫的逻辑都是类似的，晚上有很多教程和数据，兄台可以参考下，这个爬虫也是我上学的时候写的，不太成熟。

我想换个城市的爬取怎么弄

是的，你想获得二级页面，那就得获得详情页的链接，然后发送请求，在爬虫中编写详情页的解析函数。

我想换个城市的爬取怎么弄

不过如果是一页一页获取，那爬取速度会很慢，体现不了爬虫的优势。你可以考虑引入Redis数据库做url缓存，同时可以开发分布式爬虫提高爬取效率。

我想换个城市的爬取怎么弄

当不起当不起，兄台还是别用敬语了，我也是刚毕业，还在学习中，有问题我们可以交流，我在学习爬虫的时候看了一本书《Python3 网络爬虫开发实战》崔庆才主编的。我觉得挺不错，你如果感兴趣可以参考下，Github上也有崔老师的项目。

我想换个城市的爬取怎么弄

可以可以，兄台你是真大佬。

您好，请问能否介绍一下依赖的库，以及部署运行时需要修改哪些地方

这个代码比较low 你看看能借鉴就借鉴，不能的话就规避一下坑，另外运行选用Django选用稳定版就可以，其他的依赖库当时忘记生成requirements.txt 文件了。我没有把爬取的数据提交上去，你需要自己写一个爬虫，然后获取数据。另外建议，Django如果不是必须，不要选用NoSQL 支持不是很好，导致自带的ORM不可用，不划算，可以选用MySQL。