Boris comments

Results 92 comments of


                                            Boris

trafficstars

海量数据去重-dedup - feapder-document

> @CZW-1122 > 好骚~ 么么哒

海量数据去重-dedup - feapder-document

> @calior > 数据入了一次库，我清库后，想再入一次，但是一直提示重复数据，清了redis dedup key, 还是没用。 > 想请问，入库去重信息缓存在哪里，该怎么清掉呢？就只存redis里了

海量数据去重-dedup - feapder-document

> @dream2333 > 开启去重后，相应的key得手动删除，使用delete_keys="*"无效因为去重库默认是共用的，多个爬虫在一个池子里去重，目的是为了节省空间因为永久去重不管是去重一条数据还是去重一亿数据，都需要先开辟一定的空间（285MB），若每个项目都开个空间，那么会浪费很多内存

如何屏蔽某些exception的打印

> 例如我跑代理隧道会经常报一些代理方面的ProxyError，这种不是我所能掌控的错误并且信息价值对我不大，可否进行屏蔽？日志等级设置INFO，建议本地开发时日志等级用 DEBUG，正式跑时用INFO

响应-Response - feapder-document

> @doyus > In [3]: response.open() > 'open' 不是内部或外部命令，也不是可运行的程序 > 或批处理文件。 > 我的命令行不能执行这个函数。。我应该改哪你的response是requests的response还是我这个封装后的

响应-Response - feapder-document

> @beifengle > 怎么把字符串的html文本转换成Response，如把 > > < div id="test"> > Test text > < /div> > > 转换成Response方便使用xpath ``` from feapder.network.selector import Selector selector = Selector(text) selector.xpath() ```

批次爬虫-BatchSpider - feapder-document

> @Leezj9671 > 看上去批次爬虫是只支持MySQL，不支持MongoDB是吗？任务表和批次表只支持MySql, 数据表存储位置支持自定义，可参考：https://boris.org.cn/feapder/#/source_code/pipeline

批次爬虫-BatchSpider - feapder-document

> @lhsnet347 > batch_interval=7, # 批次周期天为单位若为小时可写 1 / 24，可以设置其他模式吗？例如周一到周五执行，周六日休息大哥，batch_interval用于分割每批数据的，比如你设置7，如果3天就采完了，后面再重启，发现间隔不到7天，不会重复采集。它不是定时，你这个功能用爬虫管理系统来定时启动就好了管里系统地址：https://boris.org.cn/feapder/#/feapder_platform/%E7%88%AC%E8%99%AB%E7%AE%A1%E7%90%86%E7%B3%BB%E7%BB%9F

批次爬虫-BatchSpider - feapder-document

> @Leezj9671 > 看上去批次爬虫是只支持MySQL，不支持MongoDB是吗？数据入库支持mongo，任务表不支持