SparkSQL電商用戶畫像(二)之如何構建畫像
四、 如何構建電商用戶畫像
4.1 構建電商用戶畫像技術和流程
有些標籤是可以直接獲取到的,有些標籤需要通過數據挖掘分析到!
4.2 源數據分析
用戶數據分為2類:動態資訊數據、靜態資訊數據
靜態資訊數據來源:
-
用戶填寫的個人資料,或者由此通過一定的演算法,計算出來的數據
-
如果有不確定的,可以建立模型來判斷,比如用戶的性別註冊沒有填寫,可以建立模型,根據用戶的行為來判斷用戶性別是什麼,或者它的概率
動態資訊數據來源:
-
用戶行為產生的數據:註冊、遊覽、點擊、購買、簽收、評價、收藏等等。
-
用戶比較重要的行為數據:遊覽商品,收藏商品、加入購物車、關注商品
根據這些行為特性可以計算出:用戶註冊時間、首單時間、潮媽族、糾結商品、最大消費、訂單數量、退貨數量、敗家指數、品牌偏好等等。
4.3 目標分析
用戶畫像的目標是通過分析用戶行為,最終為每個用戶打上標籤,以及該標籤的權重。
如,紅酒 0.8、李寧 0.6。
標籤:表現了內容,用戶對該內容有興趣、偏好、需求等等。
權重:表現了指數,用戶的興趣、偏好指數,也可能表現用戶的需求度,可以簡單的理解為可信度,概率。
4.4 用戶畫像建模
4.4.1 用戶基本屬性表
根據用戶所填寫的屬性標籤和推算出來的標籤。用於了解用戶的人口屬性的基本情況和按不同屬性維度統計。
作用:按人口屬性營銷、比如營銷80後,對金牛座的優惠,生日營銷。
主要數據來源:用戶表、用戶調查表、孕婦模型表、馬甲模型表。
用戶表:記錄用戶最基本的屬性特性。
用戶調查表:補充用戶的其他基本資訊。
用戶所填寫的基本資訊:用戶ID、用戶名、密碼、性別、手機號、郵箱、年齡、戶籍省份、身份證編號、註冊時間、收貨地址等
用戶所填資訊計算得到的指標:
生日、星座、城市等級、手機前幾位、手機運營商、郵件運營商
用戶調查表得到:學歷、收入、職業、婚姻、是否有小孩、是否有車有房、使用手機品牌。
根據演算法得到:
身高、體重、性別模型、孩子性別概率、潛在汽車用戶概率、是否孕婦、孩子年齡概率、手機品牌、更換手機頻率、是否有小孩,是否有車,使用手機檔次,疑似馬甲標準、疑似馬甲帳號數、用戶忠誠度、用戶購物類型。
模型演算法—性別模型
-
用戶自己也填寫了性別,但仍然要用演算法算一次性別
-
性別驗證方法
隨機抽樣幾千條數據讓客戶打電話確認。
與用戶自己填的性別做對比,確認百分比。
模型演算法—用戶汽車模型
模型演算法—用戶忠誠度模型
-
忠誠度越高的用戶越多,對網站的發展越有利
模型演算法—用戶身高尺碼模型
模型演算法—用戶馬甲標誌模型
-
馬甲是指一個用戶註冊多個帳號
-
多次訪問地址相同的用戶帳號是同一個人所有
-
同一台手機登陸多次的用戶是同一個人所有
-
收貨手機號相同的帳號同一個人所有
模型演算法—手機相關標籤模型
-
對於手機營銷參考意義比較大
-
使用手機品牌: 最常用手機直接得到
-
使用手機品牌檔次:根據檔次維表
-
使用多少種不同的手機:手機登陸情況
-
更換手機頻率(月份):按時間段看手機登陸情況
4.4.2 客戶消費訂單表
根據客戶消費的情況提取的客戶標籤,用於了解用戶的消費總體情況,
最終的目的根據用戶消費習慣與消費能力做營銷。
主要數據來源:訂單表、退貨表、用戶表、購物車表
訂單表可以得到相關標籤:
第一次消費時間、 最近一次消費時間、 首單距今時間、 尾單距今時間------分析用戶什麼時候來購買商品以及多久沒有購買了。 最小消費金額、 最大消費金額、 累計消費次數(不含退拒)、 累計消費金額(不含退拒)、 累計使用代金券金額、 累計使用代金券次數。-----分析用戶總體消費情況。 客單價(含退拒)、 近60天客單價(含退拒)-----分析用戶消費水平。 常用收貨地址、 常用支付方式----分析用戶常用的消費屬性,方便做定向營銷。 近30天購買次數(不含退拒)、 近30天購買金額(不含退拒) 近30天購買次數(含退拒)、 近30天購買金額(含退拒)----分析用戶最近的消費能力。 退貨商品數量、 退貨商品金額、 拒收商品數量、 拒收商品金額、 最近一次退貨時間-----分析用戶拒收和退貨習慣。 最近30天購物車次數、 最近30天購物車商品件數、 最近30天購物車提交商品件數、 最近30天購物車放棄件數、 最近30天購物車成功率------分析用戶購物車使用習慣 學校下單總數、 單位下單總數、 家裡下單總數、 上午下單總數、 下午下單總數、 晚上下單總數----分析用戶購物時間與地點習慣。
4.4.3 客戶購買類目表
根據客戶購買類目的情況提取客戶標籤,用於了解類目的購買人群情況和針對某一類目的營銷等。
主要數據來源:訂單表、購物車表、類目維表
一級分類ID、
一級分類名稱、
二級分類ID、
二級分類名稱、
三級分類ID、
三級分類名稱-----分析用戶都購買了哪些類目。
電商的三級類目:
京東商城:
淘寶:
訂單表和類目維表可以得到相關標籤:
近30天購買類目次數、 近30天購買類目金額、 近90天購買類目次數、 近90天購買類目金額、 近180天購買類目次數、 近180天購買類目金額、 累計購買類目次數、 累計購買類目金額----分析用戶最近都購買了哪些類目。 最近一次購買類目時間、 最後一次購買類目距今天數----分析用戶多久沒有購買這個類目。
購物車表和類目維表可以得到相關標籤:
近30天購物車類目次數、
近30天購物車類目金額、
近90天購物車類目次數、
近90天購物車類目金額----分析用戶最近都挑中哪些類目。
4.4.4 用戶訪問資訊表
根據客戶訪問的情況提取相關客戶標籤。
用於了解用戶的訪問總體情況,方便根據客戶遊覽習慣做營銷
主要數據來源:點擊流日誌行為表(PC/APP端)
點擊流日誌行為表可以得到相關標籤:
最近一次APP/PC端訪問日期、 最近一次APP/PC端訪問使用作業系統、 最近一次APP/PC端訪問使用遊覽器、 最近一次訪問IP地址、 最近一次訪問城市、 最近一次訪問的省份-----分析用戶最近一次訪問情況。 第一次APP/PC端訪問日期、 第一次APP/PC端訪問使用作業系統、 第一次APP/PC端訪問使用遊覽器、 第一次訪問IP地址、 第一次訪問城市、 第一次訪問的省份-----分析用戶第一次訪問情況。 近7天APP/PC端訪問次數、 近30天APP/PC訪問次數、 近60天APP/PC端訪問次數、 近90天APP/PC端訪問次數、 近180天APP/PC端訪問次數、 近365天APP/PC端訪問次數----分析用戶APP/PC端訪問次數。 近30天PC/APP端訪問天數、 近30天PC/APP端訪問併購買次數、 近30天PC/APP端訪問PV、 近30天PC/APP端訪問平均PV、 近30天PC/APP端最常用的遊覽器、 近30天PC/APP端不同IP數、 近30天PC/APP端最常用IP-----分析用戶訪問詳情。 近30天0-5點訪問的次數、 近30天6-7點訪問的次數、 近30天8-9點訪問的次數、 近30天10-12點訪問的次數、 近30天13-14點訪問的次數、 近30天15-17點訪問的次數、 近30天18-19點訪問的次數、 近30天20-21點訪問的次數、 近30天22-23點訪問的次數----分析用戶喜歡在哪個時間上網訪問。
