猪笑驴脸长
猪笑驴脸长
【 Code Review 】自己的分析 当标签页收集到所有链接后,均是通过异步的方式加入任务池,便会有大量阻塞的任务。推测:这就是即使退出了浏览器也能继续执行任务的原因 https://github.com/Qianlitp/crawlergo/blob/dbf70647a44bbfbdaeec98791f90c2497d781708/pkg/task_main.go#L202-L208 另一个不理解问题:但页面超时的控制是在 `err := t.Pool.Submit(task.Task)` 函数里新建标签页时才会给上下文(context)设置超时时间,此时最顶层的 browser context 应该是不受影响的,并在创建标签页时应该能打开。但是表现为:浏览器却并不会打开新的标签页,我尝试过更新 chromedp 库版本,但依然不起作用。
> 目前我的方法是拼接, 比如 http://www.A.com, 已知了两个路径: /path_a,/path_b 那么命令为: **crawlergo -c chrome http://www.A.com/ http://www.A.com/path_a http://www.A.com/path_b** > > 有两个问题: > > 1. 如果已知路径比较多, 手工拼接比较麻烦 > 2. 这种拼接传参的方法和分开一个个执行得到的结果是一样? 还是说有差别,没有进行验证. > > 当然后期能有参数支持多路径作为入口最好不过. > 目前我的方法是拼接,...
> 多久安排呀
棒!太妙了
卧槽,我刚准备想写