AppCrawler icon indicating copy to clipboard operation
AppCrawler copied to clipboard

有个问题

Open zoe531 opened this issue 9 years ago • 3 comments

爬取googleplay不用翻墙代理吗?googleplay是动态加载的只用scrapy可以是实现吗 ?

zoe531 avatar Oct 09 '15 08:10 zoe531

因为我默认用 PAC 文件翻墙了所以会默认通过代理访问 Play,我把它也是部署在国外的 VPS 上。。

如果需要翻墙,无论是开 VPN 还是 Scrapy 的 HTTP 代理配置都可以。

如果内容是 JS 加载的那么 Scrapy 需要配合一个 webview 引擎来用才能解析到最后的结果,不过我爬的几个字段都是 HTML 里面有的,所以没有遇到。

oa414 avatar Oct 10 '15 08:10 oa414

感觉你这个项目代码不是完整的,感觉好多东西没有啊,那个google play 确实能工作吗,2015年的时候,googleplay的商店不是动态加载的吗?不要模拟登录吗?

popoaichuiniu avatar Feb 13 '17 01:02 popoaichuiniu

当时确实能跑起来的...现在不确定了。

当时脚本里获取的信息是第一次 GET 网址就返回的 HTML 标签的内容,可能有其他内容是 AJAX 动态加载的。

oa414 avatar Feb 13 '17 05:02 oa414