feapder icon indicating copy to clipboard operation
feapder copied to clipboard

批次爬虫-BatchSpider - feapder-document

Open Boris-code opened this issue 4 years ago • 7 comments
trafficstars

https://boris.org.cn/feapder/#/usage/BatchSpider

feapder是一款支持分布式、批次采集、任务防丢、报警丰富的python爬虫框架

Boris-code avatar Mar 15 '21 12:03 Boris-code

看上去批次爬虫是只支持MySQL,不支持MongoDB是吗?

Leezj9671 avatar Mar 26 '21 03:03 Leezj9671

@Leezj9671 看上去批次爬虫是只支持MySQL,不支持MongoDB是吗?

任务表和批次表只支持MySql, 数据表存储位置支持自定义,可参考:https://boris.org.cn/feapder/#/source_code/pipeline

Boris-code avatar Mar 26 '21 05:03 Boris-code

请问批次可以按分钟级别的时间进行循环吗,比如每5分钟启动一次。

zzjj1988 avatar Jun 08 '21 15:06 zzjj1988

batch_interval=7, # 批次周期 天为单位 若为小时 可写 1 / 24,可以设置其他模式吗?例如周一到周五执行,周六日休息

lhsnet347 avatar Jul 06 '21 15:07 lhsnet347

@lhsnet347 batch_interval=7, # 批次周期 天为单位 若为小时 可写 1 / 24,可以设置其他模式吗?例如周一到周五执行,周六日休息

大哥,batch_interval用于分割每批数据的,比如你设置7,如果3天就采完了,后面再重启,发现间隔不到7天,不会重复采集。 它不是定时, 你这个功能用爬虫管理系统来定时启动就好了

管里系统地址:https://boris.org.cn/feapder/#/feapder_platform/%E7%88%AC%E8%99%AB%E7%AE%A1%E7%90%86%E7%B3%BB%E7%BB%9F

Boris-code avatar Jul 07 '21 05:07 Boris-code

@Leezj9671 看上去批次爬虫是只支持MySQL,不支持MongoDB是吗?

数据入库支持mongo,任务表不支持

Boris-code avatar Jul 07 '21 05:07 Boris-code

@zzjj1988 请问批次可以按分钟级别的时间进行循环吗,比如每5分钟启动一次。

可以用爬虫管理系统来设置管理

管理系统地址:https://boris.org.cn/feapder/#/feapder_platform/%E7%88%AC%E8%99%AB%E7%AE%A1%E7%90%86%E7%B3%BB%E7%BB%9F

Boris-code avatar Jul 07 '21 05:07 Boris-code