淘寶大數據體系之數據採集
- 2019 年 10 月 7 日
- 筆記
Alibaba作為一家擁有多業務的互聯網公司,進行用戶數據的大數據分析,已成為推動數據化運營的必然選擇。大數據分析,第一步必然是取得需要的數據,今天我們來看看淘寶的用戶行為數據採集的細節。任何一個小話題,細看都大有文章。
一、用戶在購物網站上的任何一個行為都有分析的價值

1、基礎資訊。UV(獨立ip地址的瀏覽量)、PV(頁數被查看的數量)解決了流量來源統計、頁面流量統計的問題,但隨著互聯網業務的發展,這些分析數據已經遠遠不能滿足用戶細分研究的需求。
2、擴展資訊。用戶在滑鼠在某個鏈接上的停留時間、輸入焦點的移動變化(代表對某個資訊的關注度),這些行為並不觸發瀏覽器載入新頁面,無法通過常規的log日誌分析出來,必須用新的辦法。
二、WEB瀏覽器客戶端的數據採集辦法
1、客戶端日誌採集。因為數據不能完全依靠傳統基於http伺服器端的log文件進行進行數據分析,因為用戶滑鼠的移動並不會產生log文件的修改。新的處理辦法:日誌採集工作一般由一小段被植入頁面html文檔的JavaScript腳本來執行,腳本被客戶端瀏覽器執行時,當用戶的事件發生時,將觸發JavaScript腳本執行。
2、客戶端日誌發送。採集腳本執行時,會向日誌伺服器發一個日誌請求,將採集到的數據發送到日誌伺服器。在多數情況下,事件發生後會被立即執行,但在個別情況,會延遲發送。採集到的資訊一般以URL參數放到http請求行,被送到日誌伺服器進行處理。
3、伺服器端日誌收集。日誌伺服器收到客戶端送來的日誌請求後,會向瀏覽器發送響應,以避免客戶端的瀏覽器處於未執行成功的狀態。同時日誌伺服器將數據寫入緩衝區,完成收集。
4、伺服器端日誌解析存檔。進入緩衝區的數據,會被日誌處理程式讀出,並被解析,通過處理後轉存入標準的日誌文件中。並通過消息中間件,將數據送給實時、或離線大數據分析工具中。
三、APP端的數據採集方法
APP分為兩種:純Native APP、嵌入H5的Hybrid APP。現在一般都是第二種,例如大家使用的支付寶。Native頁面一般採用採集SDK進行日誌採集,而H5的App則採用瀏覽器的頁面日誌採集方式進行採集。
四、高峰時期日誌採集的處理辦法
以雙11時段,客戶端的日誌採集量非常驚人,因此需要做特殊處理。
1、對日誌進行分析,結合日誌的重要程度、大小,實現了日誌伺服器端的拆分。
2、在實時處理方面,也做了很多優化,提高吞吐量。
3、延時上報。即讓滿足條件的日誌被暫存在客戶端,待流量下降後,再將數據上傳到伺服器端。
