mentorship-program
mentorship-program copied to clipboard
[Week30] Max
今天討論了什麼?結論是什麼?
上週 week 30 完成進度:
- [x] 多處理程序池(Multi-processing pool)
- [x] BigQuery 研究
- [x] 爬蟲資料庫使用 BigQuery 研究
【Python教學】淺談 Multi-processing pool 使用方法 上週整理了多處理程序池的筆記,之前沒有很瞭解以下 pool 四個用法上的差異(是否異步和可否帶入多參數),callback 以及取得回傳資料,這次花了點時間研究和紀錄,接下來爬蟲最外層會使用 Multi-processing pool 來實作。
- pool.map
- pool.map_async
- pool.strtmap
- starmap_async
【Python教學】Python 使用 BigQuery 的操作與安裝 然後這週研究了 BigQuery 並使用在目前的爬蟲上,結構上跟 Firebase 一樣 (Project > Datasets > Table),只是多了 view 來將常用的 Query 存入檢視表內,還有 Partitioned Tables 的部分花了點時間研究,不過 BigQuery 和 DataStudio 整合性很高真的很方便,這次也順便測試一下直接將 json 資料傳入 BigQuery 或許之後可以用得到(?
本週將繼續整理爬蟲文章 - 協程(Coroutines),整理完後就可以寫多執行緒 vs 多處理程序 vs 多處理程序池 vs 協程的紀錄文章了
下週 week 31 完成進度:
繼續整理爬蟲的文章
- [ ] 協程(Coroutines)
- [ ] 生產者和消費者列隊 (協程 + queue)
支線任務 - 待辦清單:
測試爬蟲差異,整理成文章:
- [x] 多執行緒(Multi-threading)
- [x] 多處理程序(Multi-processing)
- [x] 多處理程序池(Multi-processing pool)
- [ ] 協程(Coroutines)
蝦皮爬蟲主程式:
- [x] 協程爬取 shop_detail 資訊
- [x] 協程爬取 shop_product_url 資訊
- [x] 協程爬取 product_detail 資訊
- [x] Bigquery 存爬取資料
- [x] Bigquery 存計算後的每日營業額 & 每日產品銷售
- [ ] IP 檢測列隊(使用生產者和消費者列隊去改)
- [ ] 外層用 Multi-processing 打包
競品分析的部分:
- [ ] 競品年銷售額
- [ ] 競品日銷售額
- [ ] 商品相關銷售
- [ ] 波士頓矩陣分類銷售產品
- [ ] 競品使用 Hash Tag 標籤
- [ ] 競品免運或優惠活動
另外蝦皮的競品分析部分,目前已經可以拉出像這樣的數據了。例如:輸入七星劍,可以看到 17 家競品過去銷售七星劍的尺寸、銷售量、訂價、使用的 Hash tag 和是否有免運等銷售細項。