webporter icon indicating copy to clipboard operation
webporter copied to clipboard

javascript支持,性能,反扒

Open Foristkirito opened this issue 8 years ago • 2 comments

我之前也做过一个爬虫的小项目,你说的该项目的特点挺好的,但是就我个人而言,不是非常在意。感觉最关心的内容如下:

  • javascript 支持。很多网页,包括当当,苏宁等,有部分数据都是通过 javascript 渲染得到的,这个框架是否提供支持,可能这个是使用者应该做的,但是这种场景下,框架有和优势。

  • 性能。对于一本的文本网页,其实性能都不是问题,主要和网速有关。但是在这种场景下: 1. 租的vps, 当然越便宜越好,性能也越差。 2. 起一个支持 javascript 的 core,耗内存非常严重(当然相对于租的 vps 而言) 这样一来性能就很敏感了,比起线程,我更倾向于协程。

  • 反扒。这个真的是非常让人头疼的问题,之前做的最让人头疼的就是爬亚马逊。基本无解,但是对于豆瓣这种,应该还是可以解决的,这个框架是否有相应的应对措施?

这是我选择一个爬虫框架考虑的点,省时、省钱、省事。不过作者这个框架确实是很与众不同的,支持!

Foristkirito avatar Dec 22 '16 03:12 Foristkirito

你好,我这个项目主要是使用框架的示例,并不是爬虫框架。项目是基于 Java 的爬虫框架 webmagic 实现的,我这个主要作为上手和休闲,不太建议用这个上生产环境。

  1. 你所说的 js 支持在 webmagic 的 extension 模块有实现
  2. 我只是拿 Java 练手,实际项目的活,Python 应用的更多,Python 语言写的 scrapy 资料更全,功能更多,而且 Python 语言使用也比 Java 简单
  3. 反爬这个就具体分析了,知乎目前没反爬,所以我爬的很顺利,再深入的话我以后慢慢研究。

brianway avatar Dec 22 '16 04:12 brianway

好的,明白了。会持续关注与支持~

Foristkirito avatar Dec 22 '16 05:12 Foristkirito