[分享]自定义添加资讯平台大集合(基于newsnow)
🏷️ 建议类别
用户体验改进
💭 详细描述你的想法
自定义添加监控平台时,去newsnow一个一个添加很麻烦。
自己整理完了,分享出来。大家直接用 在 config/config.yaml 文件中修改 platforms 配置,不用的平台在最前面加“#”,或者直接删除
# name 可以定义任意名称,只具有显示作用,即使项目运行了几天后,忽然改掉 name 也不会影响代码的正常运行
platforms:
# === 综合新闻媒体类 ===
- id: "toutiao"
name: "今日头条"
- id: "baidu"
name: "百度热搜"
- id: "thepaper"
name: "澎湃新闻"
- id: "ifeng"
name: "凤凰网"
- id: "cankaoxiaoxi"
name: "参考消息"
- id: "sputniknewscn"
name: "卫星通讯社"
- id: "zaobao"
name: "联合早报"
- id: "mktnews"
name: "MKT新闻"
- id: "kaopu"
name: "靠谱新闻"
# === 财经投资类 ===
- id: "wallstreetcn-hot"
name: "华尔街见闻 最热"
- id: "wallstreetcn-quick"
name: "华尔街见闻 快讯"
- id: "wallstreetcn-news"
name: "华尔街见闻 最新"
- id: "cls-hot"
name: "财联社热门"
- id: "gelonghui"
name: "格隆汇"
- id: "xueqiu"
name: "雪球"
- id: "jin10"
name: "金十数据"
- id: "fastbull"
name: "快讯通"
# === 社交/短视频/娱乐类 ===
- id: "weibo"
name: "微博"
- id: "douyin"
name: "抖音"
- id: "bilibili-hot-search"
name: "bilibili 热搜"
- id: "tieba"
name: "贴吧"
- id: "zhihu"
name: "知乎"
- id: "hupu"
name: "虎扑"
# === 科技类平台 ===
- id: "ithome"
name: "IT之家"
- id: "juejin"
name: "掘金"
- id: "github"
name: "GitHub"
- id: "hackernews"
name: "Hacker News"
- id: "solidot"
name: "Solidot"
- id: "v2ex"
name: "V2EX"
- id: "nowcoder"
name: "牛客网"
- id: "pcbeta"
name: "远景论坛"
- id: "sspai"
name: "少数派"
- id: "producthunt"
name: "ProductHunt"
# === 其他/工具类 ===
- id: "chongbuluo"
name: "虫部落"
NewsNow的信息源在11月20日更新:
id: "tencent-hot"
name: "腾讯新闻 综合早报"
id: "cls-telegraph"
name: "财联社 电报"
id: "cls-depth"
name: "财联社 深度"
id: "fastbull-express"
name: "法布财经 快讯"
id: "fastbull-news"
name: "法布财经 头条"
# ======================================================
# 暂时失败的渠道(可能需要修复或接口已变更)
# 备注:以下渠道在测试中抓取失败,已暂时注释
# 如需使用请检查API接口状态或联系维护团队
# ======================================================
# 失败的综合新闻媒体类
# - id: "sina"
# name: "新浪" # 失败原因:接口可能已变更
# - id: "sohu"
# name: "搜狐" # 失败原因:接口可能已变更
# 失败的财经类
# - id: "ghxi"
# name: "国海证券" # 失败原因:接口可能已变更
# 失败的社交/短视频类
# - id: "kuaishou"
# name: "快手" # 失败原因:接口可能已变更
# - id: "smzdm"
# name: "什么值得买" # 失败原因:接口可能已变更
# 失败的科技类
# - id: "36kr"
# name: "36氪" # 失败原因:接口可能已变更
# - id: "linuxdo"
# name: "LinuxDo" # 失败原因:接口可能已变更
感谢你对项目使用的整理和对开源的贡献。
有的平台还提供多个接口的,不过要通过源码分析,我不太方便在文档中解释,所以只提了个简单的文件名方法。
比如
华尔街见闻 快讯 华尔街见闻 最新 华尔街见闻 最热
wallstreetcn-quick wallstreetcn-news wallstreetcn-hot
像上面的快讯,每几分钟就更新一条或数条新闻,几乎囊括了大部分主流新闻,不过这个适合在个人服务器部署docker,不适合在 github action 用,可以设置更新频率,比如每 10分钟一次请求之类。
这三个直接加上就可以用吗?
api接口是有现成的,对吧
这三个直接加上就可以用吗?
api接口是有现成的,对吧
是的
这三个直接加上就可以用吗? api接口是有现成的,对吧
是的
已更新
感谢分享,很有用!👏
不支持路透社彭博社?
真厉害
还可以再加一个
- id: "douban" name: "豆瓣"
能增加更多的国外主流新闻平台吗
Thank you. Your email is received and will be handled as soon as possible -Kevin.ANG
能支持推特、油管之类的吗?感谢
thank you
你好,想问一下,为什么没有小红书啊,舆论监控推荐首选小红书
感谢分享,希望增加小红书、京东平台的日用陶瓷产品热点!
- id: "coolapk" name: "酷安"
能增加监控推特吗
非常有用!另请问可以支持公众号吗?谢谢!
怎样自己分析往上加?
没有小红书,差点意思啊
可以加上公众号吗?
非常感谢整理
有支持闲鱼的吗
我想添加推特,怎么操作
大佬,为啥我添加了github在文件夹里面,返回运行就报错呢,我是在GitHub上运行的,没有在本地docker运行,求大佬指点一下
这个Issue的人太多,所以我从一个业余爬虫开发者的角度做一个扫盲回答:
- 首先,大家一定要有一个公域/私域的概念,像上面有人提到的小红书等主要面向个人自用的社交平台就是典型的私域流量。辨别这一区别的最简单办法是查看robots.txt协议,网站会在其中会根据爬虫的类型(User-agent)给出不同的策略(指定Allow或Disallow范围,有的还会标注sitemap网站地图以方便爬虫获取网站结构)。虽然robots.txt本身不是什么技术上的障碍,但至少是网站运营商的一个君子声明,并且(至少在)在中国大陆地区的判例中被认为是具有法律效力的。 判断私域的更简单办法是看网站是否限制游客访问,如果网站限制必须登录才能访问,甚至要求更高(比如QQ空间),则多半是私域网站。 插一句题外话,私域网站的一个黑客说法是深网,区分于自由访问的浅网和需要特殊方式访问的暗网;深网占据了互联网的绝大多数流量。 例1:查https://www.xiaohongshu.com/robots.txt 内容如下
User-agent:Googlebot
Disallow:/
User-agent:Baiduspider
Disallow:/
User-agent:bingbot
Disallow:/
User-agent:Sogou web spider
Disallow:/
User-agent:Sogou wap spider
Disallow:/
User-agent:YisouSpider
Disallow:/
User-agent:BaiduSpider-ads
Disallow:/
User-agent:*
Disallow:/
最后一条规则说明对于所有爬虫均禁止爬取任何内容。如果有人试图爬取,就可能在法律上视为侵权行为。 例2:对于推特而言,https://x.com/robots.txt 节选内容如下:
...
# Every bot that might possibly read and respect this file
# ========================================================
User-agent: *
Disallow: /
...
# Independent of user agent. Links in the sitemap are full URLs using https:// and need to match
# the protocol of the sitemap.
Sitemap: https://x.com/sitemap.xml
Sitemap: https://twitter.com/sitemap.xml
其中同样规定,除特别列出的以外(已省略),其他爬虫不得爬取任何内容。 2. 本项目的爬虫部分用的是newsnow项目,如果想自己添加,应当先在newsnow中贡献代码以完善对应接口。newsnow中文文档提及添加数据源应关注server/sources和shared/sources.json部分代码。我粗看了一下代码,基本上都是直接使用网站api的(至于这些api本身则可能是逆向网站结构或追踪网站网络请求得到的,这个要细说怎么做就不止这点字数了)
我想问一下大家以及作者,就是我在config/config.yaml文件里面添加了GitHub平台以及除了作者自带的那些平台,在github上直接去active 就会报错,删除之后就正常了,于是我ai了一下说是因为main.py没有配置代码,所以我去main.py里面找存储获取平台数据的函数,然后输入weibo,douyin都检索不到,但是我要找到他们,在他们后面添加github的配置代码才可以,是这个原因导致无法执行吗,还是其他因素
能增加更多的国外主流新闻平台吗
同问