月活近 5 億,微博是如何做業務安全的?

  • 2019 年 11 月 1 日
  • 筆記

如果說微信是中國社交媒體中的一極,那麼,微博則是另一極。據最新數據顯示,截至今年 6 月,微博月活躍用戶高達 4.86 億。 在微博上,明星、大 V 顯然是「最閃亮的」,他們本身既是話題的焦點,又是流量窪地。然而,作為流量營銷的重要陣地,微博卻不斷受到黑灰產、刷榜、刷流量等惡意行為的困擾。

擁有數億用戶,月活近 5 億,微博是如何做業務安全的?

想弄清這個問題,我們要明白:作為社交媒體平台,安全對微博意味著什麼?或者說,為什麼安全對微博很重要?

據微博安全研發負責人何為舟介紹,首先,因為微博的自媒體屬性,一旦出現安全問題,很容易被快速傳播擴散。一旦控制不好,對微博整個公司形象都有可能造成較大的負面影響。

比如,某個大 V 或明星帳號被盜,發布一些不當言論,很快就會被粉絲擴散出去。這樣,不論是微博,還是帳號持有者,都會受到很大的影響。

「同時,微博也是政府發聲的一個主要渠道,在微博上有很多政府維護的帳號。這些帳號一旦被不法分子利用發布不法言論,整個微博都有可能面臨嚴重的法律後果。」他說。

此外,各大公司都存在活動資金被 黑灰產 薅走的威脅,微博上也同樣存在,比如 活動拉新、讓紅包飛、抽獎 等。除了直接刷錢獲取經濟利益外,微博上還存在 粉絲大 V 刷關注度、刷榜、刷流量 的現象。粉絲群體為了讓自己的「愛豆」獲取更高的排名和曝光,自討腰包進行刷量,這也是在微博上一種比較特殊的「黑灰產」。

在何為舟看來,微博的長期穩定發展,離不開安全的保駕護航。

據悉,何為舟先後就讀於北京郵電大學和波士頓大學,2016 年入職微博。作為安全研發負責人,何為舟在微部落客要負責業務安全的整體研發工作,包括帳號安全、內容安全和活動風控等。

目前,微博的整體業務安全體系主要分為底層的基礎數據支援、內部的規則管理和運算、對外的介面服務。

何為舟表示,「在這個模式上,底層以帳號、IP、設備為基礎維度,綜合全站數據,建立統一的評分和標籤體系。在內部主要是建立完善的規則管理和運算功能,對於每一個業務,對其數據的欄位、使用規則、特徵分布、風險結果等,都能方便的進行查看、管理和配置。」

最後,根據不同業務的需求,提供不同的接入方式,則是業務安全的對外表現形式。

再不重視業務安全,你就 Out 了

當今,互聯網深入發展,傳統安全的外延大大擴大。現在,人們不再簡單地提網路安全、資訊安全,業務安全成為新的重要點。何為舟稱,「這是一個安全和黑灰產對抗升級的過程。」

以前,黑灰產通過攻擊手段,進行內網滲透,然後篡改或拖去數據,就能獲得一些利益。但後來,企業的安全意識逐漸加強,網路安全的建設越來越完善。對黑灰產來說,逐漸變成大公司很難攻進去,小公司進去了也沒啥好處。

後來黑灰產發現,直接通過正常業務能獲取的利益更大:以前好不容易拖個庫,還不一定有人買;現在隨便薅個羊毛,直接入賬幾百萬。

他解釋說,「相比和安全從業者做攻防對抗,和業務產品運營人員做對抗顯然簡單的多。隨著中國互聯網』燒錢』手筆越來越大,可以薅的羊毛越來越多,這促使業務黑灰產不斷發展。」

既然黑灰產將目標轉移到業務,安全人員自然開始做業務安全了。業務安全最近熱度比較高,也是這個道理,因為業務安全造成的影響更大。以前被拖庫了,只要不被曝光,可能老闆都不覺得有什麼影響。現在一旦被薅,幾百萬上千萬就打水漂了。「這還是很肉痛的」。

「所以,業務安全容易被高層重視,也容易獲得更多的公司支援。」他表示。

在何為舟看來,業務安全不僅非常重要,而且與網路安全有不同的側重點。對公司來說,都是用網路安全的思維去做業務安全,這是行不通的。

第一,網路安全是技術上的攻防對抗,因此對安全能力需求較高;而業務安全是在正常業務上的資源對抗,黑灰產並不會發起傳統意義上的攻擊,因此對業務理解能力和數據分析能力要求更高。

他說:

「從我觀察到的現象來看,業務安全的發展其實對安全從業人員產生了不小的挑戰。一個演算法出身的人很多時候比一個打 CTF 的人更適合做業務安全的工作。」

因此,他建議:作為安全專業出身的人,去提高自己在數據方面的一些能力,是業務安全中最為重要的品質。

第二,網路安全具備較好的通用性,每個公司的網路結構和需要的網路安全設備,都是相似的。因此,可以總結出各種安全標準、等保規範等。

何為舟表示,「但對業務安全來說,每個公司每個業務的安全需求和面臨的威脅都是不一樣的,很難說有一套業務安全體系能適應所有的公司。因此,業務安全需要公司對自身安全團隊的持續投入,而不是像網路安全中,買幾個乙方產品,然後招一兩個人維護就能起到不錯的效果。」

最後,安全是嚴格遵守木桶原理的。一個公司發展安全,可以在各個方向上的投入有所傾斜,但不能不做。

比如,一個提現頁面沒做參數校驗,導致用戶可以提現任意金額。這麼一個業務邏輯漏洞,風控系統也許能夠發現,但其投入成本顯然會比做一次安全測試來得高。

因此,即使公司更關注業務安全,也仍然需要在網路安全上作一定的投入,來保障最基本的安全能力,這樣才是安全發展上性價比最高的做法。

挑戰:如何讓安全跟上快速發展的業務?

雖然微博不是一家年輕公司,中間經歷一段低谷,但近兩年,隨著熱點事件的增多,熱度回漲,迎來發展第二春。隨之而來,各種運營活動開始快速發展。

在何為舟看來,近兩年微博在安全方面遇到的最大挑戰是:如何讓安全跟上快速發展的業務。

「對公司內部的安全部門來說,這相當於給一個創業公司談業務安全一樣。如何不阻礙業務的發展速度,又能為業務保駕護航,我相信很多公司都會遇到類似的挑戰。」他說。

當然,關鍵問題是如何去解決這個挑戰?

他有兩點看法:一是,需要與業務部門積極溝通。業務安全的深度取決於對業務的理解程度,只有理解了業務,你才能發現關鍵的安全問題,並提出合理的解決方案:既降低業務的接入成本,也能不影響用戶體驗。

只有業務能接受安全提出的解決方案,才能推動業務去接受業務安全的相關服務,並願意付出一定的成本進行接入。

二是,需要多進行沉澱和積累,總結業務需求,搭建通用的安全體系,讓業務可以更方便的接入。這樣才能體現出安全部門的專業性。

微博的數據安全實踐

數據安全是屬於比較強的合規需求,特別是隨著近幾年《網路安全法》、《GDPR》等相關法規的出台,中國外相關政府部門都對微博的數據安全進行了全面的審查。

在數據安全方面,微博做的第一步是基於敏感程度,對數據進行標籤,從而識別出需要嚴格保護的數據。

何為舟說,

「對微博來說,這一塊相對簡單一些:微博大部分的數據,都屬於公開數據,因此沒有太多的泄密風險。對公開數據,主要是防止批量抓取為主。而隱私數據比較集中,主要是微博帳號關聯的個人因素數據,比如手機號、身份證號等,這類數據則需要採取嚴格的管控措施。」

公開數據保護上,主要是構建反抓站體系,防止一些第三方公司直接使用微博的公開數據來獲利。

不過,他也認為,反抓站很難完全攔截住所有的抓站請求,尤其是現在代理 ip 池越來越大的情況下。對於黑灰產來說,用戶、IP、設備都不需要太多成本,因此直接攔截很容易被繞過。這也給目前的反抓站工作帶來的不小的挑戰,需要從簽名、混淆、人機識別等多個方向進行對抗。

另外,微博也嘗試通過法律手段,去起訴一些存在抓站行為的公司。在打官司中,有一個比較有意思的點經常被提到:通常認為,搜索引擎的爬蟲屬於合法行為,為什麼個人或者公司的爬蟲會非法呢?這其實也是一個法律的灰色地帶,一般都需要根據具體的抓取行為去向法官解釋和搜索引擎爬蟲的不同。

總之,反抓站屬於一個持續對抗的過程,需要通過多種途徑,進行打擊。

在個人隱私數據方面,因為數據分布比較集中,微博採取了集中管控的方案。帳號、安全和合規部門相互配合,將需要使用到這些隱私數據的服務都封裝了起來,比如:登錄註冊、手機號驗證等。

他說,「如果業務部門需要使用這些功能,都是統一走帳號安全的流程頁面,業務部門是拿不到任何密碼、手機號等資訊的。對於帳號部門的流程,合規會參與審計工作,安全部門提供安全測試和評估服務,合力保證隱私數據的安全性。」

AI 入局,業務安全如何走?

實際上,隨著人工智慧的快速發展和應用,很多網路攻擊越來越自動化、智慧化,比如黑灰產。

對於人工智慧,何為舟稱自己是「人工智慧的黑粉」。

他說,「在我看來,當前時代下,人工智慧想要很好的落地,必須具備兩個關鍵要素:明確的標籤和穩定的特徵分布。因為目前人工智慧的強項在於統計,不在推理。」

比如:推薦系統中,用戶是否點擊了推薦內容就是一個明確的標籤;影像識別中,一輛汽車就是一輛汽車,沒人會認為是飛機,因此「汽車」也是一個明確的標籤。而穩定的特徵分布,其實也是類似的道理,用戶的興趣也許會發生偏移,但不會轉變成另一個人的興趣,一輛飛機的圖片也不會在某一天突然被打上汽車的標籤。

基於這兩個前提,人工智慧就能發揮其強大的統計能力,在上萬個特徵維度中,挖掘出關聯關係。但是,在安全領域內,這兩個前提並不成立。

何為舟表示,「首先,在我了解的安全範疇內,除了金融借貸有明確的』逾期』標籤,大部分的業務場景下都是不具備直接標籤的。」

換句話說,沒有明確的規則能夠定義什麼是黑產。一個團伙十幾個人使用幾百個手機號,那肯定是黑產了,那麼一個宿舍六個人使用十個手機號,算是什麼呢?

顯然,這是一個特修斯之船悖論,而作為業務安全人員,則是基於多方因素去追求一個平衡點。很多時候,這個平衡點存在於安全人員的腦海中,是一種無法抽象的經驗集合。這也導致了對於同一個數據,不同的安全人員會給出不同的標籤來。更為諷刺的是,一旦嘗試去顯示的確立這個平衡點,規則也能夠很輕鬆的被定義出來,這個時候再去談人工智慧,顯然是捨近求遠了。

另外,在他看來,安全不是為正常用戶提供服務,而是和黑產進行對抗。在這個對抗的過程中,特徵分布必然會發生持續的變化。相信很多業務安全人員都經歷過,定義一個閾值之後,黑產馬上就會調整頻次來繞過閾值。同樣的,你訓練出來一個模型,黑產也會馬上進行調整繞過。

在人工智慧中,對抗樣本的研究,也一直是一個熱門方向,各類人臉識別的破解方法層出不窮。和網路安全中的攻防一樣,人工智慧的安全對抗中,攻方始終是佔優的。因為攻方可以不按套路出牌,任意修改自身的特徵分布,來破解人工智慧的識別結果。

「最後,業務安全要求極高的準確性、可控性和可解釋性。不像在推薦系統中,推薦錯了也就錯了,不會有什麼影響。但是業務安全中,一旦錯了,就意味著影響到了正常用戶的使用,或者放過了黑產。」他說。

當然,100% 的準確率是不可能的,不管是規則系統還是人工智慧模型,都會有誤判產生。但是規則能夠快速反應,一旦發現了誤判,就能夠立即找到原因,並進行調整,整個周期可能一小時就完成。

而如果使用的是人工智慧模型,一方面需要一定的難度去找出合理的誤判解釋,一方面調整模型需要一定的誤判樣本以及時間,整個周期可能要好幾天。對於業務來說,這樣的響應周期其實都是不可接受的。

他表示:

「因此,就我目前的經驗來看,在業務安全中,想要利用人工智慧技術直接去攔截黑產行為,是不切實際的。但是,我們可以通過降低和黑產的對抗程度,降低對時效性的需求,來提高人工智慧的有效性。比如:通過無監督方式,離線判斷業務數據中的黑產比例;根據特徵的擬合情況,判斷是否存在異常行為;挖掘異常聚類或者異常點等。」

在這種場景下,不需要人工智慧實時指出哪一個 case 是黑產,只需要推測一下是否存在黑產,指明一個大概的方向,然後再由人工去介入分析評判,也能夠極大的降低安全人員的工作量。

總之,現在的人工智慧無法真正的和黑產進行對抗,無法獨當一面。但是,作為一個輔助的分析工作,來提高安全人員的數據分析能力,人工智慧還是具備其價值的。