feapder icon indicating copy to clipboard operation
feapder copied to clipboard

简介及安装 - feapder-document

Open Boris-code opened this issue 4 years ago • 12 comments
trafficstars

https://boris.org.cn/feapder/#/README

Description

Boris-code avatar Feb 20 '21 09:02 Boris-code

scrapy学了一星期没整明白,feapder学了一天项目已经跑起来了!

gk18965 avatar Mar 12 '21 12:03 gk18965

@gk18965 scrapy学了一星期没整明白,feapder学了一天项目已经跑起来了!

牛皮

Boris-code avatar Mar 15 '21 02:03 Boris-code

这个框架太好用啦,批次爬虫太方便

MountanXiu avatar Mar 15 '21 13:03 MountanXiu

加入星球或关注公众号可获得作者的微信哦~ 帮忙分享本框架,如转发到爬虫技术群或朋友圈,可获得星球38元优惠券(加作者微信,和作者索要)

Boris-code avatar Mar 24 '21 03:03 Boris-code

不愧是轻量级的,轻巧但功能十分强大,比scray更容易上手,有基础的真的可以10分钟学会并应用起来。

yyooovooo avatar Mar 29 '21 13:03 yyooovooo

feader的批次爬虫中start_monitor_task会从mysql的任务表拉取字段拼接后会将这个请求封装到redis(包括请求头和cookie)存放到redis以实现分布式,那么当这个请求中请求头的某个字段或cookie过期了,是不是redis中已经存在的和后续的请求都是不合格会被检测的?或者我该如何通知start_monitor_task开启的进程去更改后续存放到redis的请求中的haaders 或 cookie?

luojunjunjun avatar May 08 '21 06:05 luojunjunjun

feader的批次爬虫中start_monitor_task会从mysql的任务表拉取字段拼接后会将这个请求封装到redis(包括请求头和cookie)存放到redis以实现分布式,那么当这个请求中请求头的某个字段或cookie过期了,是不是redis中已经存在的和后续的请求都是不合格会被检测的?或者我该如何通知start_monitor_task开启的进程去更改后续存放到redis的请求中的haaders 或 cookie?

在下载中间件里拼header和cookie

Boris-code avatar May 08 '21 06:05 Boris-code

pip3 install feapder[all] zsh: no matches found: feapder[all]

adaaaaaa avatar Sep 28 '21 13:09 adaaaaaa

@adaaaaaa pip3 install feapder[all] zsh: no matches found: feapder[all]

可能是pip版本问题,试试加个转译 pip3 install feapder\[all\]

Boris-code avatar Sep 29 '21 02:09 Boris-code

爬虫是否支持针对域名限制并发数量,比如一个把1000个类似的网站放到同一个爬虫里面,支持同时并发16个线程,限制每个网站域名只能并发一个线程以避免访问过于频繁。这里面的问题在于,如果把1000个网站做成1000个爬虫同时执行,一是劳动量太大,二是这1000个爬虫干的事情都一模一样,完全是重复劳动。如果1000个网站做成一个爬虫的话,无法控制并发量。如果并发太多,会导致单个网站频繁请求,如果并发太少,效率又不高。最优的方式是能设置最大并发量和单个域名的并发量。请问是否支持,以及如何设置?谢谢大佬。

xiaoyueinfo avatar May 09 '22 07:05 xiaoyueinfo

@xiaoyueinfo 爬虫是否支持针对域名限制并发数量,比如一个把1000个类似的网站放到同一个爬虫里面,支持同时并发16个线程,限制每个网站域名只能并发一个线程以避免访问过于频繁。这里面的问题在于,如果把1000个网站做成1000个爬虫同时执行,一是劳动量太大,二是这1000个爬虫干的事情都一模一样,完全是重复劳动。如果1000个网站做成一个爬虫的话,无法控制并发量。如果并发太多,会导致单个网站频繁请求,如果并发太少,效率又不高。最优的方式是能设置最大并发量和单个域名的并发量。请问是否支持,以及如何设置?谢谢大佬。

不支持,1000多个网站通常用可视化配置的爬虫系统,不是feapder干的事儿

Boris-code avatar Jun 08 '22 02:06 Boris-code

@adaaaaaa pip3 install feapder[all] zsh: no matches found: feapder[all]

@adaaaaaa pip3 install feapder[all] zsh: no matches found: feapder[all]

pip3 install 'feapder[all]'

baozaodetudou avatar Aug 23 '22 02:08 baozaodetudou