Boris
Boris
> @CZW-1122 > 好骚~ 么么哒
> @calior > 数据入了一次库,我清库后,想再入一次,但是一直提示重复数据,清了redis dedup key, 还是没用。 > 想请问,入库去重信息缓存在哪里,该怎么清掉呢? 就只存redis里了
> @dream2333 > 开启去重后,相应的key得手动删除,使用delete_keys="*"无效 因为去重库默认是共用的,多个爬虫在一个池子里去重,目的是为了节省空间 因为永久去重不管是去重一条数据还是去重一亿数据,都需要先开辟一定的空间(285MB),若每个项目都开个空间,那么会浪费很多内存
> 例如我跑代理隧道会经常报一些代理方面的ProxyError,这种不是我所能掌控的错误并且信息价值对我不大,可否进行屏蔽? 日志等级设置INFO,建议本地开发时日志等级用 DEBUG,正式跑时用INFO
> @doyus > In [3]: response.open() > 'open' 不是内部或外部命令,也不是可运行的程序 > 或批处理文件。 > 我的命令行不能执行这个函数。。我应该改哪 你的response是requests的response还是我这个封装后的
> @beifengle > 怎么把字符串的html文本转换成Response,如把 > > < div id="test"> > Test text > < /div> > > 转换成Response方便使用xpath ``` from feapder.network.selector import Selector selector = Selector(text) selector.xpath() ```
> @Leezj9671 > 看上去批次爬虫是只支持MySQL,不支持MongoDB是吗? 任务表和批次表只支持MySql, 数据表存储位置支持自定义,可参考:https://boris.org.cn/feapder/#/source_code/pipeline
> @lhsnet347 > batch_interval=7, # 批次周期 天为单位 若为小时 可写 1 / 24,可以设置其他模式吗?例如周一到周五执行,周六日休息 大哥,batch_interval用于分割每批数据的,比如你设置7,如果3天就采完了,后面再重启,发现间隔不到7天,不会重复采集。 它不是定时, 你这个功能用爬虫管理系统来定时启动就好了 管里系统地址:https://boris.org.cn/feapder/#/feapder_platform/%E7%88%AC%E8%99%AB%E7%AE%A1%E7%90%86%E7%B3%BB%E7%BB%9F
> @Leezj9671 > 看上去批次爬虫是只支持MySQL,不支持MongoDB是吗? 数据入库支持mongo,任务表不支持