Danny Lin

Results 443 comments of Danny Lin

regex 效能的確是一個問題,目前也在傷腦筋,目前終結內容農場也是把多個 regex 規則合併以減少總數,但是這樣就會有一些巨大的規則,比較醜。(參 #44) 或許可以考慮加個 flag,產生的規則集就分含 regex 及不含 regex 的讓使用者選XD

這個需要評估,因為有被濫用的風險。而且加自己的黑名單沒有理由和證據,不利查證。

技術上應該可以,但目前並沒有想到好的設計方式可以兼顧防濫用,又不會讓複雜度高到和直接複製貼上網址差不多。

看不懂。所謂谷歌鏡象是指什麼?

感謝提供資料,整理成一個清單也好,這樣以後處理會比較方便。 不曉得是否有使用什麼追蹤技術或程式?主要是重導向目標希望盡量準確,例如如果是 A.com => B.xyz => C.xyz 則 A 的重導向目標應記為 B.xyz 而非 C.xyz。這點在人工調查時很容易遺漏,因為重導向很快一下子就從 A.com 跳到 C.xyz 了。 域名失效方面,目前方針是繼續維持封鎖,直到確定易主成正常網站才移除。這樣做的目的主要是標示已失效農場網域連結有助於辨識導流者。 至於出現新域名目前應該無解,就是持續追查和擴充黑名單。如果有人能發明出革命性的應對方式我很樂意知道。XD xyzList.csv 名單第三欄應該是重導向目標?很多項的值填為 top 是正常的嗎?

但是像 `viewty.xyz` 也是最後一層,卻沒有填上 `xyz`?我以為沒有重導向目標不如就直接留空白,這樣語義比較單一。 用程式撈分身我也研究過,Python + requests library 可以解決很多問題。不過怎麼下搜尋關鍵詞是一個問題,另外是 Google 搜尋如果比較頻繁很快就會被封鎖,也是要注意的地方。

我還是不太理解像 `selfelementcow.top` 第三欄填 `top` 而 `viewty.xyz` 第三欄空白的理由是什麼。如果這欄不是記錄重導向,那可否另外加一欄純粹記錄重導向目標?這樣我比較方便使用。

補充: 1. 說明中「傀儡」的「傀」用字錯誤 2. 可以嘗試[向 Google 檢舉](https://www.google.com/webmasters/tools/spamreportform),這種欺騙性重導向是[明確符合 Google 對垃圾網站的定義](https://developers.google.com/search/docs/advanced/guidelines/sneaky-redirects)。(我個人是會取其中一兩個例子回報,然後在敘述文字貼上整個列表的超連結)

我五天前檢舉了 11yourtub.co ,現在還是搜尋得到。也不曉得 Google 是否有意不處理,可能真的要檢舉量更大他們才會重視? 腳本放在哪裡?我在 repo 中好像沒看到?

typescript 不熟XD 我自己是有用 Python 寫一些簡單的追蹤腳本(不過目前只有處理 302 redirect,沒處理這類 .xyz 站台的腳本重導向),追查到的資料會即時寫入 sqlite 資料庫。JSON 要等腳本全部跑完才寫入,無法中斷腳本也怕腳本出錯當掉,有時不太方便。不過 sqlite 不利於用 Git 版控,之後大概會再寫個匯入匯出程式方便匯出成可版控的格式。