Beanbun icon indicating copy to clipboard operation
Beanbun copied to clipboard

Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性,基于 Workerman。

Results 13 Beanbun issues
Sort by recently updated
recently updated
newest added

http://beanbun.org/ 网址打不开了,没法学习了。

爬取获得的URL自动拼接了爬取的页面域名,缺乏检查判断

redis auth问题 连接Redis服务的时候,config中应该添加auth授权配置,并在构造函数中添加auth授权。

例子中都是get的,没有post的例程,不知道data数据在那里设定啊?能不能举一个post的例子呢。 $beanbun->seed = [ //'http://www.950d.com/', [ 'http://www.950d.com/list-2.html', [ 'method' => 'POST', ] ] ]; 按例程中,这样设定,一是没有postdata数据,二是就算这样,也报错。crul error 3. 麻烦给个post的例子,谢谢

作为测试我配置了$beanbun->UrlFilter,给了一个seed让爬虫自己爬,在规则中大概能匹配7张页面,但是页面抓完之后一直没有执行stopWorker,而且任务管理器中的进程还在。 我尝试使用`php start.php stop`,在任务管理器中看到爬虫进程已经结束了,但是还是还是没有执行stopWorker(); 部分代码: `$bean->stopWorker = function($b){ $b->log('执行了一次stopWorker'); }` 表现在:日志文件中并没有'执行了一次stopWorker'

cURL error 28: Operation timed out after 60001 milliseconds with 49054 bytes received (see http://curl.haxx.se/libcurl/c/libcurl-errors.html) 请问是什么原因,怎么解决?

因为window平台不能使用守护模式,所以在window平台下使用只能把要爬的网页链接全部列出来吗

``` use yii\console\Controller; use Beanbun\Beanbun; class DemoController extends Controller { public function actionBeanbun() { $beanbun = new Beanbun(); $beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', 'http://www.950d.com/list-2.html', ]; $beanbun->afterDownloadPage = function ($beanbun) {...

如果最后一个/后无字符,dirname 命令使用倒数第二个/,添加个字符a使其使用最后一个/