對用戶畫像標籤體系的一點思考。

  • 2019 年 10 月 8 日
  • 筆記

本文轉載自數據管道

最近入手了一個用戶畫像的項目,這裡面真的「坑」滿多的,你肯定很想問,不就是用戶畫像嘛,會這麼煩嗎?現在可能就需要拆分成幾個問題來做這個項目。

用戶畫像是什麼?

用戶畫像,又稱人群畫像,是根據用戶人口統計學資訊(自身屬性)、社交關係、偏好習慣和消費行為等資訊而抽象出來的標籤化畫像

怎麼做用戶畫像

構建用戶畫像的核心工作即是給用戶貼「標籤」。

啥是「標籤」?

對某一類特定群體或對象的某項特徵進行抽象分類或者概括。然後你可能會得到這樣一張圖:

(圖片參考於網路,侵權聯繫即刪)

這裡面「標籤」是根據用戶的行為數據直接得到,部分是通過一系列演算法或規則挖掘得到。直接得到的數據比較好理解,比如用戶在網站或APP上主動填寫和上傳的數據,嚴格一些平台(比如電商平台)會要求用戶上傳身份證、學生證、駕駛證、銀行卡等,這樣的數據準確性就較高。

因此毫無疑問阿里、京東、騰訊在用戶基礎數據的準確性上甩百度幾條街(有獨自的用戶標識帳號,比如你的那一串微訊號數字,淘寶帳號,京東帳號)。

關於標籤準確性你是不是會想到幾家公司?沒錯,移動、聯通、電信三大運營商的標籤體系先天性的準確到可怕

為什麼會這樣講,首先辦理一個手機號幾乎你所有的資訊都被記錄了,性別、年齡、住宅等等基礎用戶資訊,這時候又會想是不是只有這些東西會被記錄呢,那你確實又想多了,因為上網用的是什麼?流量。「流量」可以記錄下基本上你每一秒訪問了用了什麼app、訪問了什麼頁面、瀏覽了多長時間…….

當然,這些資訊都不算啥,最秀的是只要帶上手機,手機卡約等於一個GPS,你在哪家咖啡廳喝了咖啡,住了什麼酒店,全部都會被mark上。等未來5G出來通訊基地台的定位準確度應該可以在5m之內(這個時候你可以去了解一下基地台與通訊原理)。(不敢再多比比了)

為什麼會被畫像標籤體系弄炸了?

這邊按照處理過程、標籤的獲取方式標把標籤分成了3種類型,事實標籤,模型標籤,預測標籤。不同類別的處理方式是不一樣的。可看下圖:

事實標籤:直接從原始數據中提取,比如性別,年齡,常住地,上網時段等等。

模型標籤:注意這裡的模型指的不是機器學習模型,而是類似於品類偏好、RFM模型之類的。

預測標籤:預測標籤有時候會結合事實標籤一起使用,比如某個用戶並不會註冊性別消息(沒有實名制),或者說他填報了一個假的性別,這時候可以通過聚類分析,相似度計算,看與這個用戶相似的一部分人用戶行為表現(這一部分人已知性別),根據這些不同的規則判斷並mark該人的性別。

通過演算法和數據挖掘得到的預測標籤也可以這麼理解:比如一個用戶最近開始購買母嬰類商品(比如一段的奶粉,New Baby的紙尿布),那麼可以根據用戶購買的頻次及數量,結合用戶的年齡、性別推斷是否為新媽媽/爸爸。實際上就是通過用戶行為構建特徵工程,然後做預測。

看這麼一說感覺很好理解,但實際這些工作卻是最耗時耗力的,有時候因為一個邏輯錯誤可能就需要從新計算ETL腳本作業,不斷推翻重來,不斷踩坑在爬坑的過程。但這又是一個非常重要的任務,不管是後面的精準營銷亦或是個性化推薦,第一步都是需要有一個完整、準確的用戶畫像標籤體系,最後與業務線對接做驗證再調整現有的標籤體系形成完美的閉環。

最後說一句,上面的這些工作不是Python能解決的。等真正做一些可視化的用戶畫像工作或是搭建相關的機器學習演算法模型是需要利用已經計算好的各類標籤表再開發相應的Python腳本再到線上部署。所以說一個好的分析師或者演算法工程師絕不是「張口閉口數據科學,你竟然連HQL都不會」。

可看一下這篇文章:

做了點SQL題。

總結:本文只是個人項目工作學習的一個思維過程,會存在一些問題,希望大家多指教討論。也希望每個人腳踏實地,做好每一次你眼中不起眼的基礎工作,如果你把自己分析定位成取數的,那你就是個取數的,如果你把你的分析理解了為什麼,那你就是分析師,不可獲缺的分析師。