QueryList icon indicating copy to clipboard operation
QueryList copied to clipboard

:spider: The progressive PHP crawler framework! 优雅的渐进式PHP采集框架。

Results 35 QueryList issues
Sort by recently updated
recently updated
newest added

我在采集内容页时使用multiGet并发获取采集数据,因为在所有url内容采集完毕时还要程序执行其他操作,看了multiGet的示例和文档,success()是每个线程成功后的回调,有什么办法可以在所有线程完毕后执行其他操作?

[content.txt](https://github.com/jae-jae/QueryList/files/6860860/content.txt) $q = QueryList::html($content); $a = $q->find('h1 span')->text(); 输出为空字符串

![image](https://user-images.githubusercontent.com/1029500/128677092-35edb48e-f7cf-4393-b140-ca18a1af1476.png) 这个列表 我使用了 range 获取列表,便我想获取 这个div本身的 shopid 我该怎么操作?请大神位指定一二。

出现412情况: ``` Exception 'GuzzleHttp\Exception\ClientException' with message 'Client error: `GET http://wlt.hubei.gov.cn/1911museum/tzgg/zxgg/index_24.shtml` resulted in a `412 Precondition Failed` response:

我想获取整个hmtl文档的text文本,但是这里面有script标签的内容,我想排除掉script里的文本,怎么写

\QueryList-4.2.7\vendor\jaeger\phpquery-single\phpQuery.php:462行 ``` protected function contentTypeFromHTML($markup) { $matches = array(); // find meta tag preg_match('@]+http-equiv\\s*=\\s*(["|\']*)Content-Type\\1([^>]*)>@i',// 这里有bug,这是修复后的 ``` 这里导致读取GB2312页面乱码,即便修复了这里也有别的问题,希望作者修复一下。

Array ( [0] => Array ( [title] => xxx [list] => Array ( [item] => item1item2 ) ) [1] => Array ( [title] => xxx2 [list] => Array ( [item]...

只要传入的url数组中有一个地址是无效的,比如说有个url是'saasdasdsdfs',就会导致整个抓取报错

querylist version: 4.2.5 php version 7.4 laravel version 5.5

laravel5.5 出现 Class 'Tightenco\Collect\Support\Collection' not found QueryList V4.2.7, 也没法退回到V4.2.6,有冲突