實用流量數據分析指南

2019 年 10 月 8 日
筆記

本文轉自公眾號『數據管道』

前戲

粽子節了嘛，突然想吃粽子了，咋辦，買粽子唄！現在情景轉換一下，假設你是某飲食網的數據分析師，現在某粽子界大亨想拿錢砸你老闆（打廣告）。

老闆：「寶器過來一下「

寶器：「好的老闆」

老闆：「有個粽子界土豪要砸我們」

寶器：「誰敢砸你？老闆等著我叫人」

老闆：「我問的是咱如何收費!」

寶器：「好嘞老闆，下周給你出個報價報告」

（背景吹比結束）

作為數據分析師你可能想到的是CPC、CPS這一類的關鍵字，但到底是用CPC還是其他方式計費，如何計費，給哪條渠道線推廣？什麼樣的用戶可能適合粽子大亨？這些問題都需要你對公司網站流量數據從採集到到分析有全面深刻的理解。

目錄概覽

以下內容為個人現階段業務分析與學習理解，內容將從數據採集到用戶分析（績效指標KPI）這條線路展開。主要內容目錄如下：

流量數據分析

數據採集

何為「埋點「?

說白了就是收集數據，首先你想到可能可能是爬蟲爬取，但你要搞清楚，現在是在公司的產品線，難道你能通過爬蟲爬到「寶器點開了××搜素框」這樣的行為事件嗎?很明顯這是不現實的。

那類似於這樣的用戶行為事件怎樣採集數據呢？答案是通過「埋點」，所謂埋點，指的就是針對用戶行為事件捕獲、處理和發送的相關技術及實施過程。

舉個栗子:如果京東內部運營人員想看一下如下圖「粽情端午節」這個活動的效果，研發人員可以通過在下圖紅色箭頭所指地方「埋點」，當用戶點擊這一欄的時候，後台將會觸發並上報這樣一條用戶點擊行為數據。

埋點作用？

用於流量監測（在線情況、PV、UV指標等等分析）
便於構建用戶行為路徑（通過埋點獲取用戶的行為數據鏈路）
通過對買點數據的分析，判斷產品和活動等效果及未來走向
監控應用運行狀態，方便問題定位和追蹤
為營銷決策提供數據支援
實施AB Testting

流量數據採集底層表與欄位

埋點時為了收集數據，但不是所有的數據都需要採集上來。首先得知道業務需求是什麼，比如現在BOSS想看一下近7天的的DAU走勢，這時候分析師就要思考怎麼計算DAU，之後再和產品人員討論如何埋點可以得到某個「欄位」用於計算DAU（可以在用戶啟動APP的時候埋點上報一條日誌標識）。

在實際的操作中，有以下的幾個方面的數據可以被採集：

用戶的系統屬性特徵
1. 作業系統
2. 瀏覽器
3. 域名
4. 訪問速度
5. 網路狀態（2G、3G、4G等等）
6. 其他
用戶的訪問特徵
1. 開始訪問時間
2. 結束訪問時間、
3. 第一次訪問、最後一次訪問
4. 點擊的URL
用戶來源特徵
1. 網路的內容資訊類型
2. 內容分類
3. 來訪URL
產品特徵
1. 產品編號
2. 產品類別
3. 產品顏色
4. 產品價格
5. 產品數量等等

所以綜上可能流量數據採集底層表如下（這裡只做簡單的列舉，更多請自行查閱思考）：

數據處理（ETL）

目的：根據後續的指標統計需求，過濾分離出各種不同主題(不同欄目path)的基礎數據（創建不同的中間表表示）。

方法：一般直接通過HQL按維度和指標提取數據（可能從原始底層採集表提取比較困難，原始表也需要經過ETL將業務系統的數據經過抽取、清洗轉換之後載入到數據倉庫）。之後可能根據業務需求將基礎性指標腳本固化，推送到內部BI平台製作報表展示。

舉個栗子，計算一下近7日UV、登錄用戶及訪問IP等指標：

SELECT  dt,  COUNT(DISTINCT deviceid) AS uv ,  COUNT(DISTINCT CASE WHEN length(trim(user_id)) > 0 THEN user_id else NULL end) AS login_users ,  COUNT(DISTINCT ip) AS ip_num ,  COUNT(session_id)  AS session_num  FROM  dwd_caiji_table  WHERE  dt between sysdate(-7) and sysdate()  GROUP BY  dt

問題：

可能很多朋友想問前面提到的通過HQL來提取數據而不是用SQL，實際上HIVE-SQL設計的目的就是想讓會SQL而不會MapReduce編程的人也能使用Hadoop進行數據處理（畢竟公司實際的數據量都是TB、PB甚至更大）。

目前流行的大數據相關的計算框架能處理大量的數據和計算，基本是依賴於分散式計算框架（比如MapReduce），而分散式計算，是一個集群共同承擔計算任務，理想狀態下是每個計算節點應當承擔相近數據量的計算任務，但實際情況可能因為數據分配的嚴重不均衡導致數據傾斜。

所以在做ETL的時候需要考慮數據傾斜的問題，相關內容過多請自行查閱。

指標統計與用戶分析

說明：限於篇幅，將目錄3、4串在一起。

產品數據化是有非常有好處的，優點：

可視化：用戶行為可視化，可清晰的了解用戶行為
可追蹤：定位產品問題
可驗證：數據支撐和驗證
可預測：通過數據變化，預測後期走向

而數據化的前提是需要一些指標來衡量，這裡寶器將指標分成網站的流量指標和用戶行為指標，意思是說一部分幾乎是通用性分析指標，一部分會根據不同的業務需求場景而設定。

針對每個指標的具體含義如果有不理解的還需要各位自行查閱。需要了解的是每個指標的定義、作用。

舉個栗子，DAU：

定義：Daily Active User(日活躍用戶)

作用：可以用戶衡量產品（如京東app）的活躍度，可用於了解用戶增長和減少趨勢。

現在重點講一下寶器對用戶分析（績效指標KPI）的一些看法，首先個人是將用戶分析分成兩類，一類是基礎性分析，一類是模型策略分析。說的簡單點就是想通過基礎性的指標分析，調整運營策略，並根據不同的商業需求，搭建用戶分析模型體系。

1、基礎性分析

基礎性分析指標分成兩種，一種是針對新用戶，一種是針對老用戶，而新用戶對應著拉新和轉化。而針對老用戶可分成活躍、留存、跳出、回購。舉個栗子：

拉新（渠道）：

京東往往具備 APP、移動端、微信端、PC端渠道，其中根據不同的業務，流量偏重有所不同，隨著手機移動設備的越來越智慧化和大屏化，一般情況下，電商節618數據表明，非PC端消費的用戶最多。現在的商業機構更加註重非PC端(微信、APP、移動端)的營銷，所以了解用戶使用的設備和渠道能夠使得運營和利潤最大化。

轉化：

指用戶進行了相應目標行動的訪問次數與總訪問次數的比率。相應的行動可以是用戶登錄、用戶註冊、用戶訂閱、用戶下載、用戶購買等一系列用戶行為，因此網站轉化率是一個廣義的概念。簡而言之，就是當訪客訪問網站的時候，把訪客轉化成網站常駐用戶，也可以理解為訪客到用戶的轉換。

針對老用戶的活躍、留存、跳出、回購同理可直接搜索相關關鍵字自行閱讀。

2、模型策略分析

我相信授人以魚不如授人以漁，這是非常重要的一部分內容，也不可能就在一篇推文中講清楚。這裡將這部分內容對應的一些參考學習鏈接放上，更多理解還需自己領悟：

用戶行為事件模型：

http://www.woshipm.com/data-analysis/686576.html

用戶行為路徑分析：

http://www.woshipm.com/data-analysis/704261.html

用戶體驗分析：

http://www.woshipm.com/discuss/53005.html。

https://www.jianshu.com/p/f10f706d3ddd?from=groupmessage

用戶畫像分析：

用戶畫像。

用戶價值評分與精準營銷：

https://wenku.baidu.com/view/7e156f087275a417866fb84ae45c3b3567ecdd18.html

漏斗模型分析：

http://www.woshipm.com/data-analysis/697156.html

流量貨幣化：

https://baike.baidu.com/item/%E6%B5%81%E9%87%8F%E8%B4%A7%E5%B8%81%E5%8C%96/17219976

本文參考：

https://www.cnblogs.com/yjd_hycf_space/p/7772722.html。

https://www.cnblogs.com/shujuxiong/p/10218727.html。

https://blog.csdn.net/haoyuexihuai/article/details/53453100。

https://blog.csdn.net/wuxintdrh/article/details/81990385。

https://www.admin5.com/article/20180629/862661.shtml。

結語：

勿忘初心，做自己，還年輕，在路上，Over!

實用流量數據分析指南

VirMach 便宜 VPS

QNews

實用流量數據分析指南

分享此文：

Related Posts

DVWA Brute Force：暴力破解篇

分散式任務隊列–Celery的學習筆記

看完你就應該能明白的悲觀鎖和樂觀鎖

每次閱讀外文技術資料都頭疼，終於知道原因了。

VirMach 便宜 VPS

QNews

熱門搜尋