Results 71 comments of owner888

页面超过3M不处理一般是内存溢出了,有报错吗 ?

兄弟测试结果如何,能否提供代码

这个不应该啊,兄弟是因为文章有多个url吗,还是你重复跑程序了呢

采集好几个网站,你都写一个配置吗,你可以分开写啊,比如qiushibaike.php,mafenwo.php,然后分别运行,那当然是要写两次,如果你都是为了采集一份内容,比如采集几个小说站,放到一个数据库表去,那你可以在规则哪里同时配置两个网站的url规则

可以的啊,什么问题呢 ?

开200个试试,可能对方网站太慢了

可以采集,直接请求ajax地址,ajax地址可以在chrome里面查看,不懂可以百度

> 我想在抓取新闻网站,网站是动态加载的,通过浏览器是能看到它的请求更多数据的接口,也能请求下载到数据,但是是json格式的,相当于是能取到列表页数据的,这种场景还是比较多的,怎么能通过框架哪个中间件接口能嵌入进去继续爬取呢?目前我看到的是通过addUrl可以提前告诉框架所有详情页的url这种方式 是的,通过addUrl可以实现

是一直运行直到抓完所有数据自动停止的哈,看到程序退出了,就是全抓完了

我建议是直接浏览器登录然后拿cookie,当然你想要自己手动输入验证码也可以,而且简单得不得了,但是这样操作不比直接浏览器拿cookie麻烦多了么 ?