weekly
weekly copied to clipboard
【开源自荐】基于 Cloudflare 的免费网页归档和分享工具
项目地址:https://github.com/Ray-D-Song/web-archive
Web Archive

Web Archive 是一个网页归档工具,包含以下几个部分:
- 浏览器插件:将网页保存为单个 html 文件,并上传到服务端。
- 服务端: 接收浏览器插件上传的快照,并存储在数据库和存储桶中。
- web 客户端: 查询快照并展示。
服务端基于 Cloudflare Worker 的全套服务,包含 D1 数据库、R2 存储桶,支持一键部署。
赛博菩萨 Cloudflare 每个月有 10Gb 的对象存储空间,无限量的传输带宽,数据库 500 万次读,10 万次写,足够负担这样一个 fullstack 应用。
why
大多数网页归档工具,比如 archivebox,都是基于服务器调用无头浏览器抓取的方式进行归档。
这种做法的弊端是 知乎、medium 这种需要登录的网站操作很麻烦,需要配置 token 或 cookie。
同时无头浏览器对服务器的要求也比较高,大多数都是 nas 用户在使用。
更重要的是,现在流行的 AI 网页翻译工具,比如沉浸式翻译,使用服务端抓取就无法调用。
web-archive 是一个完全免费、无门槛的方案,而且 Cloudflare 可以非常方便的将数据迁移回本地转为 self-host。
feat
- 文件夹分类
- 页面预览图
- 标题关键字查询
- 橱窗,可以分享自己抓取的页面
- 移动端适配
我的橱窗:https://web-archive-egm.pages.dev/#/showcase/folder