owner888 comments

Results 71 comments of


                                            owner888

页面数据超过3M爬虫不处理有什么解决办法吗？

页面超过3M不处理一般是内存溢出了，有报错吗？

内存溢出的问题

兄弟测试结果如何，能否提供代码

有许多重复的数据

这个不应该啊，兄弟是因为文章有多个url吗，还是你重复跑程序了呢

你好，咨询下，采集好几个网站，怎么配置全局的数据库配置和redis配置？

采集好几个网站，你都写一个配置吗，你可以分开写啊，比如qiushibaike.php，mafenwo.php，然后分别运行，那当然是要写两次，如果你都是为了采集一份内容，比如采集几个小说站，放到一个数据库表去，那你可以在规则哪里同时配置两个网站的url规则

css选择器是不是不行

可以的啊，什么问题呢？

爬取速度好慢是不是被限速之类了呢？

开200个试试，可能对方网站太慢了

弱弱的问一句，这个能采集js动态加载的内容吗

可以采集，直接请求ajax地址，ajax地址可以在chrome里面查看，不懂可以百度

如果知道动态网页的加载API并且也可以请求到json的数据，怎么能通过接口嵌入到框架里进一步抓取

> 我想在抓取新闻网站，网站是动态加载的，通过浏览器是能看到它的请求更多数据的接口，也能请求下载到数据，但是是json格式的，相当于是能取到列表页数据的，这种场景还是比较多的，怎么能通过框架哪个中间件接口能嵌入进去继续爬取呢？目前我看到的是通过addUrl可以提前告诉框架所有详情页的url这种方式是的，通过addUrl可以实现

大师你好怎么判断是否抓取完毕了？

是一直运行直到抓完所有数据自动停止的哈，看到程序退出了，就是全抓完了

验证码问题

我建议是直接浏览器登录然后拿cookie，当然你想要自己手动输入验证码也可以，而且简单得不得了，但是这样操作不比直接浏览器拿cookie麻烦多了么？