mentorship-program icon indicating copy to clipboard operation
mentorship-program copied to clipboard

[Week32] Max

Open hsuanchi opened this issue 4 years ago • 0 comments

最新的進度是什麼?

上週 week 31 完成進度:

  • [x] Async IO Design Patterns
  • Chaining Coroutines
  • Using a Queue
  • [x] 改寫 Python 之父寫的 asyncio Coroutines 全站爬蟲

【Python教學】Async IO Design Patterns 範例程式 【實戰篇】 解析 Python 之父寫的 web crawler 異步爬蟲

本週 week 32 預期完成進度:

  • [ ] 多執行緒池 vs 多處理程序池 vs 協程比較 vs 多處理程序池+協程
  • [ ] 整理併發、並行、阻塞和異步

支線任務 - 待辦清單:

測試爬蟲差異,整理成文章:

蝦皮爬蟲主程式:

  • [x] 單線異步爬取 shop_detail 資訊
  • [x] 單線異步爬取 shop_product_url 資訊
  • [x] 單線異步爬取 product_detail 資訊
  • [x] Bigquery 存爬取資料
  • [x] Bigquery 存計算後的每日營業額 & 每日產品銷售
  • [ ] IP 檢測列隊(使用生產者和消費者列隊去改)
  • [ ] 外層用 Multi-processing 打包

競品分析的部分:

  • [ ] 競品年銷售額
  • [ ] 競品日銷售額
  • [ ] 商品相關銷售
  • [ ] 波士頓矩陣分類銷售產品
  • [ ] 競品使用 Hash Tag 標籤
  • [ ] 競品免運或優惠活動

上週整理了 Async 的兩種設計模式方法,和解析了 Python 之父的 Async 爬蟲程式

這週開始會整理各種線程、進程和協程的爬蟲比較,以及將併發、並行、阻塞和異步等觀念做一個總結 基本上爬蟲文章就會整理到這週 (?

下週沒意外的話會開始針對競品分析的部分開始設計

hsuanchi avatar Apr 06 '20 14:04 hsuanchi