淘寶大數據體系之數據採集

2019 年 10 月 7 日
筆記

Alibaba作為一家擁有多業務的互聯網公司，進行用戶數據的大數據分析，已成為推動數據化運營的必然選擇。大數據分析，第一步必然是取得需要的數據，今天我們來看看淘寶的用戶行為數據採集的細節。任何一個小話題，細看都大有文章。

一、用戶在購物網站上的任何一個行為都有分析的價值

1、基礎資訊。UV（獨立ip地址的瀏覽量）、PV（頁數被查看的數量）解決了流量來源統計、頁面流量統計的問題，但隨著互聯網業務的發展，這些分析數據已經遠遠不能滿足用戶細分研究的需求。

2、擴展資訊。用戶在滑鼠在某個鏈接上的停留時間、輸入焦點的移動變化（代表對某個資訊的關注度），這些行為並不觸發瀏覽器載入新頁面，無法通過常規的log日誌分析出來，必須用新的辦法。

二、WEB瀏覽器客戶端的數據採集辦法

1、客戶端日誌採集。因為數據不能完全依靠傳統基於http伺服器端的log文件進行進行數據分析，因為用戶滑鼠的移動並不會產生log文件的修改。新的處理辦法：日誌採集工作一般由一小段被植入頁面html文檔的JavaScript腳本來執行，腳本被客戶端瀏覽器執行時，當用戶的事件發生時，將觸發JavaScript腳本執行。

2、客戶端日誌發送。採集腳本執行時，會向日誌伺服器發一個日誌請求，將採集到的數據發送到日誌伺服器。在多數情況下，事件發生後會被立即執行，但在個別情況，會延遲發送。採集到的資訊一般以URL參數放到http請求行，被送到日誌伺服器進行處理。

3、伺服器端日誌收集。日誌伺服器收到客戶端送來的日誌請求後，會向瀏覽器發送響應，以避免客戶端的瀏覽器處於未執行成功的狀態。同時日誌伺服器將數據寫入緩衝區，完成收集。

4、伺服器端日誌解析存檔。進入緩衝區的數據，會被日誌處理程式讀出，並被解析，通過處理後轉存入標準的日誌文件中。並通過消息中間件，將數據送給實時、或離線大數據分析工具中。

三、APP端的數據採集方法

APP分為兩種：純Native APP、嵌入H5的Hybrid APP。現在一般都是第二種，例如大家使用的支付寶。Native頁面一般採用採集SDK進行日誌採集，而H5的App則採用瀏覽器的頁面日誌採集方式進行採集。

四、高峰時期日誌採集的處理辦法

以雙11時段，客戶端的日誌採集量非常驚人，因此需要做特殊處理。

1、對日誌進行分析，結合日誌的重要程度、大小，實現了日誌伺服器端的拆分。

2、在實時處理方面，也做了很多優化，提高吞吐量。

3、延時上報。即讓滿足條件的日誌被暫存在客戶端，待流量下降後，再將數據上傳到伺服器端。

淘寶大數據體系之數據採集

VirMach 便宜 VPS

QNews

淘寶大數據體系之數據採集

分享此文：

Related Posts

Feign Client 原理和使用

TopoLVM: 基於LVM的Kubernetes本地持久化方案，容量感知，動態創建PV，輕鬆使用本地磁碟

CVE-2019-6249 HucartCMS CSRF漏洞復現

為什麼要使用MQ消息中間件?這3個點讓你徹底明白！

VirMach 便宜 VPS

QNews

熱門搜尋