如何有效推進百萬標籤庫的治理?
- 2019 年 12 月 10 日
- 筆記
正文開始
在大多數公司,成千上萬的標籤雖然在某種程度上是數據服務能力的象徵,但到最後往往成為了一種負擔,只管殺不管埋的現象太普遍了!
比如現在我們的標籤每天的調用量幾千萬次,但正如很多人想的那樣,標籤多可不一定是好事,今天就來談一談。

跟大家一樣,我們碰到的標籤的主要問題包括五大方面:管理問題、信任問題、效果問題、優化問題、系統問題。
1、管理問題:標籤太多缺乏規整,不知道選哪個,如下圖所示,各種極易混淆的區域位置標籤肆虐,個性化標籤就要統治全世界了!

2、信任問題:標籤的命名和解釋性太差,可遠觀而不可褻玩,如下圖都是標籤命名或解釋不清楚的示例,最終會影響用戶的使用體驗。

3、效果問題:標籤的營銷效果不可見,缺乏可比性,不敢用的現象普遍存在。
4、優化問題:虎頭蛇尾,建設的時候效果還行,但卻沒有持續的改善機制,環境和數據的變化導致效果持續下降。
5、系統問題:標籤的查詢繁瑣、生成時間晚、查詢性能低下等等,總之一句話:系統不給力。
正如數據治理一樣,標籤庫如果任其按照需求驅動的模式去任意發展,最終將變得越來越混亂直至完全失去價值,而這個過程往往是溫水煮青蛙的。
今年我們啟動了標籤治理工作,這裡就來談一談具體做法,希望於你有所啟示:
一、標籤體系盤點
首先當然是搞清楚標籤的現狀,包括分類、子類、名稱、更新方式、使用次數、更新時間、責任人等等,例如得到如下的表格,這是標籤治理的起點。

標籤體系

標籤清單
二、確定治理優先順序
面對七大類別的百萬標籤,不可能眉毛鬍子一把抓全部都去治理,肯定要從現狀中找到關鍵點,然後排定優先順序。
比如我們認為基礎標籤的使用頻度最高,而其中又以位置軌跡、通訊屬性、個人屬性為最,因此第一階段重點就進行這些類別標籤的治理。下面是個計劃示意,當然每個階段的具體優化方式是一樣的。

筆者覺得,在治理中不要有畢其功於一役的想法,比如應該先把位置標籤的治理當成試點,治理完了看效果,如果有效,就總結經驗,繼續下一批,由此迭代,而不是全部治理完了再看,這樣可以有效降低治理的風險,因為整個實施周期太長了。
其實在啟動標籤治理工作的時候,作為老兵的我,也是忐忑不安的,因為缺乏信心,也是摸著石頭過河。而不少企業的數據治理工作一上來就說要完成整個報表體系的治理,完成整個指標體系的治理,這是很難的。
不信你接著往下看。
三、標籤體系優化
1、聚合標籤
既然是治理,為什麼要新增標籤呢,因為要進行標籤的合併規整,規整後的標籤自然成為了新的標籤。
比如原來有四個工作地位置標籤,分別是用戶工作地歸屬地市【日】、用戶工作地歸屬區縣【日】、用戶工作地歸屬鄉鎮【日】、用戶工作地XXXX【日】等等,但你會發現用戶在使用的時候往往無法一步到位選擇到自己所需的標籤,因為選擇太多、粒度太細,而這種現象普遍存在。
因此新增了聚合標籤這個概念,就是做一次封裝,最後面向用戶展示的標籤被整合成一個,即用戶工作地歸屬行政區域【日】,而更細粒度的標籤就定義為子標籤,這是一種自頂向下的設計方法,在不大動原有標籤體系的情況下,可以給用戶更好的使用體驗,當然各家有各家的做法,我們只是給出了一種解決方案,如下圖所示:

同樣身份類的、學生類的標籤也統一定義成了聚合標籤,如下圖所示:

2、優化標籤
雖然我們在上線標籤的流程中有元數據的錄入管理規範,但實際運營中往往是形式大於內容,存在大量的標籤命名的歧義、不知所謂的標籤說明等等,這些都極大的影響了標籤的使用體驗,因此這些都是標籤治理的重點。
比如名字的修改:

比如取值的修正:

比如描述的修正:

還有就是有些標籤效果差或者很少人使用,但還是非常重要的,比如潛在集團客戶標籤等等,這個就需要納入標籤專項優化的排期。
3、下線標籤
無人使用的標籤直接下線,使用頻度很少的標籤先隱藏再下線,下線後相關的腳本和調度也下線,一方面可以減少對用戶的打擾,另一方面還是可以釋放資源,這是真正的降本增效,如下圖示例:

比如位置類標籤,治理前有86個,治理後就只有14個了,如下圖所示:

又比如通訊寬頻類標籤,治理前36個,治理後14個,如下圖所示:

筆者以前在治理報表的時候有個經驗就是:一個業務一張報表。標籤雖然沒法做到,但大致原則是一樣的,總是要去優化和傳承,不要總是另起爐灶,比如寬頻類標籤以後就可以針對性的只運營5個,如下圖所示:

4、階段性效果
啟動標籤治理的時候我們曾經強調要層層推進,分階段性的去看效果,但實施中還是沒有很好的貫徹這個原則,應該是工作的慣性吧。
比如位置類標籤治理完後,並沒有馬上去做新位置標籤的運營推廣,甚至沒有給出任何的評估數據,而是急於去做下一階段的治理工作。
團隊最近則有了明顯的改善,比如以下是位置類標籤治理後的初步效果數據,注意這是在沒有做任何推廣下的點擊率的自然提升。

很多治理工作之所以越做越苦,往往是因為這個治理工作的付出跟用戶感知的提升並不匹配,儘快獲得效果不僅僅是持續迭代的問題,更是進一步推進工作的強心劑。
四、標籤庫優化
標籤治理不僅僅是指標籤本身的治理,也包括相關係統的同步改造和優化,比如標籤庫功能完善、標籤生成提速、標籤品質管理等等,這就需要有全局視野,當你啟動這個工作後,會發現事情比你當初設想得要複雜的多。
1、功能優化
為了支援新的標籤模式,比如聚合標籤,會涉及到標籤庫的管理、查詢、統計、展示等一系列相關功能的改造;為了更好的宣傳推廣標籤,就需要進行布局和體驗的優化,比如增加搜索能力,增加側邊欄標籤推薦,增加標籤地圖等等。
2、性能優化
首先,是關於標籤生成及時性問題,由於標籤數量眾多,而且往往是批量生成的,比如基於同一張寬表,批量生成的核心問題就是同一批次的標籤在業務上的優先順序其實是不同的,這就意味著要麼技術上追求方便,要麼去犧牲業務上的體驗。
如何平衡業務和技術,如何拆分寬表,如何設定優先順序,如何精確調度,就成為標籤數據提速的核心問題。
其次,是關於標籤查詢的速度問題,比如要能即時知道客群的大小,就需要ES引擎的支援,這一功能的改善的價值很大,客戶有時候選擇客群其實是個探索的過程,而探索對於性能的要求特別高。
最後,是關於標籤對外開放的問題,比如位置類的API往往對於後端的統計性能要求非常高,需要專門的資料庫進行支撐。而對於一些特殊查詢API,也不是簡單用K-value這種形式可以支撐的,比如需要判斷某個號碼是否在某個用戶群里等等。
3、監控優化
標籤庫可以認為是一個應用產品,但其數據的分量特別重,而大數據平台的數據品質管理體系一般僅負責推送數據介面的品質,而到標籤粒度的品質監控往往無暇顧及。
這就需要標籤庫主動推進這個體系的完善,現實中往往是要等到某個標籤報障了才去核實原因,這也是標籤治理中的重點問題。
五、機制的優化
標籤治理不是一棍子買賣,因為即使這一次治理好了,但如果沒有機制和流程的保障,最後還是會走向混亂,因此在治理中同步建立和優化相關的機制和流程是至關重要的。
筆者這裡列幾個關鍵點:
1、責任到人:就是企業里任何一個標籤都應該有歸屬的組織和負責人,比如我們整個標籤體系都是按照類別歸屬到個人的。
一個明顯的好處是用戶只要在標籤庫看到有疑問的標籤,直接找負責人就可以了,這樣比較扁平化,而且處理的效率會高,也有利於中台組的人員有事實上的業務驅動力。
2、管理到位:無論是需求、開發、上線或運營環節,都建立了初步的規範,比如對於需求,要明確搜集的渠道和方式,包括主動和被動等等;對於開發,要明確分類規範、命名規範,描述規範(建模思路、使用場景、生成周期、使用方式、標籤效果(正在建)),實現規範(縱表,寬表、聚合)等等;對於上線,則要明確標籤審核的模板等等,以下是上線標籤需要填寫的模板示例:

3、運營有效:需要建立專門的標籤運營團隊,制定標籤運營的相關管理方法,包括效果數據如何進行採集分析、重點標籤怎麼進行跟蹤評估、標籤問題如何處理及回饋等等。
運營的統一收口能改變無序的狀態,不求一時的亮點,但一定要能客觀公正的通過數據評估實際情況,從而體系化的推進各方開展工作。
原來的一大問題就是臨時拼湊的運營團隊(比如項目團隊,建模人員等等)往往虎頭蛇尾,開始推廣的時候很積極,但一旦推廣完成了就再也沒人理了。
很多時候大家以為很好的標籤幾個月後的效果數據其實已經變得慘不忍睹,但卻沒人知道,所謂亮點工程。但運營其實是非常專業的事情,BI時代這種虧其實吃得太多了,但就是不長記性。
從某種角度來講,一個標籤就是一個產品,運營的壓力其實是很大的,假如它真的在生產中得到廣泛使用的話。你沒感覺到壓力往往是因為沒人care你做的東西。
關於標籤,筆者近些年的一個切身體會就是:做成一個標籤難度不大,但要運營好這個標籤所付出的代價遠超建設,由於重建設而輕運營的思想普遍存在,因此我們總是會面臨困境,希望這次能打破這個魔咒,從而為企業創造更多的價值。
如果你從事標籤相關工作,也擁有上千的標籤體量,相信一定能Get到我說得點,希望於你有所幫助!