fidb-crawler icon indicating copy to clipboard operation
fidb-crawler copied to clipboard

經濟部工業局爬工廠資料程式

fidb-crawler

經濟部工業局爬工廠資料程式

前言

第一次嘗試寫 crawler 過程實況,希望透過寫的過程以及我的碎碎念,讓沒有寫過 crawler 的人可以大概知道怎麼寫。

主要語言是使用 PHP ,用到 curl, iconv, dom 等 library ,這些在其他語言也很多,因此希望也能對非 PHP 的開發者也能有幫助。

不過因為完全沒有事先準備,直接就開始邊錄邊寫,所以中間卡關好幾次在 try & error,寫了快兩個小時,如果看到睡著請不要怨我 XD

程式說明

  • crawler.php : 爬工廠名稱、代號、連結的程式
  • crawler2.php : 從連結爬出更完整資訊的程式

連結

影片位置: http://www.youtube.com/watch?v=EbAmjXDnqHE 經濟部工廠公示資料查詢系統: http://gcis.nat.gov.tw/Fidbweb/index.jsp

注意

  • 爬資料請小力點爬,如果不趕時間最好每一個 request 都間隔一秒,這樣比較不會造成主機的負擔,影響到要正常使用的人。
  • 工廠資訊我爬完後就會公布出來,所以對這資料有需求的人不需要用我的程式再重新爬一次,我公開程式只是供教學使用
  • 以上公開程式碼以 BSD License 授權