owner888
owner888
支持的,首先设置好内容页规则,比如: 'content_url_regexes' => array( "http://www.mafengwo.cn/i/\d+.html", ), 然后在on_scan_page里面批量生成内容页url $spider->on_scan_page = function($page, $content, $phpspider) { for ($i = 0; $i < 1000; $i++) { $url = "http://www.mafengwo.cn/i/{$i}.html"; $phpspider->add_url($url); } };
add_url是会去重的,用add_scan_url($url, $options = array(), $allowed_repeat = true)方法,默认$allowed_repeat为true,说明允许重复
请看这里 https://doc.phpspider.org/development_skills/simulateLanding.html
@wblbird 你这写错了阿,两个ip应该用数组,而不是连着写阿
@BrainGithub 你那个地方可能被墙了,你加一下QQ群,里面有pdf的文档
在on_start里面不可能就有cookie的啊,所以肯定是空的啊
>   类似这种html代码 这种只能用 chromedriver了
应该是redis版本太低了,昨天有一个童靴就遇到这个问题,把redis更新一下即可
没有用cls_curl了,requests是cls_curl优化后的版本,win就不考虑性能了,能运行单进程测试就不错了,没必要去折腾它
没必要去结合,并不会打来性能的提升