weekly icon indicating copy to clipboard operation
weekly copied to clipboard

【网站自荐】RawWeb.org 面向独立网站的搜索引擎

Open 0x2E opened this issue 1 year ago • 5 comments

我很喜欢逛个人网站,尤其是博客。虽然可能加载缓慢、设计糟糕,但它们是某个人投入情感创造的、真正的数字花园,它们让互联网丰富多彩。

主流搜索引擎被社交媒体、商业 SEO 内容垄断了头部搜索结果,大量创作者转向私域创作平台,埋在独立博客头上的黄沙似乎越来越厚了。我太年轻了,没能经历互联网的黄金年代,但直觉告诉我这种趋势是不对的。

所以我搭建了 RawWeb.org 搜索引擎:

  • 只接受独立网站,通过 RSS 收录内容
  • 根据语言和相关性排序,目前没有其他算法
  • 对中、英、西、德、法、俄、日等语言做了分词优化
  • 支持 ""- 等基础搜索语法

目前已经收录了:

  • https://github.com/timqian/chinese-independent-blogs
  • https://engineeringblogs.xyz/
  • https://github.com/outcoldman/hackernews-personal-blogs
  • https://github.com/surprisetalk/blogs.hn

欢迎提交推荐数据源。

Screenshot 2024-09-05 at 15 47 29

0x2E avatar Sep 05 '24 06:09 0x2E

能添加按时间范围搜索的功能吗

FrankFang avatar Sep 05 '24 10:09 FrankFang

能添加按时间范围搜索的功能吗

最近会加

0x2E avatar Sep 05 '24 11:09 0x2E

仅通过解析 RSS 订阅的内容来收录内容,而不是类似搜索引擎的通用爬虫么? 了解下,如果是通用爬虫的话,我可能需要在提交之前在 WAF 上放行你这边的爬虫。 另外有点担心 RawWeb 站点未来如何盈利?毕竟不盈利的话并不可持续。

Zerorigin avatar Sep 06 '24 01:09 Zerorigin

仅通过解析 RSS 订阅的内容来收录内容,而不是类似搜索引擎的通用爬虫么? 了解下,如果是通用爬虫的话,我可能需要在提交之前在 WAF 上放行你这边的爬虫。 另外有点担心 RawWeb 站点未来如何盈利?毕竟不盈利的话并不可持续。

  1. 只通过 RSS 获取内容。不做爬虫也是为了给自己降低风险。
  2. 盈利没考虑。成本只有 VPS,Hetzner 也足够便宜。按压测简单估算过,在可见的未来成本不会超过 100 每月。等成本高到付不起了我就去找云服务商拉赞助 :D

0x2E avatar Sep 06 '24 02:09 0x2E

看到我们的博客有来自 rawweb.oeg 的 referer,网络寻踪一路找到了这个 issue,hhh。

我们(@saveweb)也做了类似的东西: https://search.saveweb.org/ ,以前叫做“丑搜”。

@0x2E 要不我们合作一波?我们这边的数据库可以给你。

yzqzss avatar Sep 09 '24 19:09 yzqzss