content-farm-terminator
content-farm-terminator copied to clipboard
能否将讽刺站点和政治新闻站点从「假新聞網站清單」中去除?或者单列清单
可以理解 theonion.com 这种幽默讽刺性质的网站被收录,但是我发现 theintercept.com 这家获得过美国国家杂志奖和威比奖的知名媒体也被标记为“假新闻”。 希望对于讽刺站点和政治新闻站点可以单例清单,或者直接去除。 另外对于假新闻网站清单可以参照这个项目。
就如說明所述,假新聞網站清單目前只是簡單合併幾個外國來源,僅供備查。我們目前還未有對於「假新聞網站」的明確方針。這個可能還待集思廣義。
There are finite tags in fake-news.txt:
grep -o "//[a-z]*" fake-news.txt | sort --unique
//bias //blog //clickbait //conspiracy //fake //hate //junksci //junkscience //parody //political //reliable //rumor //satire //satirical //state //unknown //unrealiable //unreliable
Maybe worth deduplicating the tags, and creating a separate file for each tag.
One step further: Consider customizing labels for different blocking rules? Now I need to look up the domain in fake-news.txt to see why it was blocked (also mentioned in #53 #55 #59).
目前的問題是我們根本沒多的心力去深入研究。
裡面的幾個來源網站現在已經關了,我們並不很清楚那些 tag 的具體定義,即便定義出來了,如何做相關查核,要切成幾個子清單也都是不好解決的問題。
目前這些資料就是先整理出來供有興趣的人研究,歡迎有志者自己弄一個版本庫處理,我們再評估看看能否幫忙推廣。