二位都很强
Hi, 作者,报告一个跟你目前作品一样强大的 .NET 爬虫系统。
Hawk https://github.com/ferventdesert/Hawk Documentation https://ferventdesert.github.io/Hawk/
HAWK无需编程,可见即所得的图形化数据采集和清洗工具,依据GPL协议开源。 特点如下:
- 智能分析网页内容,无需编程
- 所见即所得,可视化拖拽,快地实现转换和过滤等数据清洗操作
- 能从各类数据库和文件实现导入导出
- 任务可以被保存和复用
- 其最适合的领域是爬虫和数据清洗,但其威力远超于此。
RuiJi.Net https://github.com/zhupingqi/RuiJi.Net/issues Documentation http://doc.ruijihg.com/cn/index.html
RuiJi.Net是一个可以分布式部署的爬虫框架,使用C#编写,项目的最终目的是可以对大量的网站进行自动更新检查及抓取,使用者可以设置新闻源的检查时间间隔,在检测到新闻源更新后,会将更新的地址发送给下载节点,再由抽取节点对数据进行提取及清洗。
RuiJi 还有一个浏览器集成可视化配置的 SAAS 服务 演示视频: https://www.bilibili.com/video/av34981913/ 官网: http://www.scraper.top/
二位都是暴强的 .NET 爬虫框架, RuiJi 的不同之处是支持 .NET Core 和分布式。 Hawk 则功能更强大。
此 issue 如果可以促成二位互相参考、合作甚至融合,就太好了~
隔壁: https://github.com/ferventdesert/Hawk/issues/103
殷切地希望你们能早生贵子,我会献上我的 pull request.
@RockNHawk thanks 我知道hawk 可视化的界面 RuiJi.Net 的配套为RuiJi Scraper浏览器插件(http://www.scraper.top/course/),插件可用于生成RuiJi表达式,我比较头疼的是你的request没有mac怎么测试。