一名博士生決定去淘寶掃「垃圾」
畢業於香港中文大學的博士生,你怎麼也不會想到他會去掃「垃圾」吧。
不過,此垃圾非彼垃圾。而是網路垃圾。
相信各位童鞋對此也並不陌生。
每個打工人上班摸魚的時候肯定都見過一些奇奇怪怪的文字——如「胃?」、「叩–裙」、「9え」、「發嘌」。
你以為這是追求個性,其實是黑灰產為了規避系統排查,以便發送成千上萬條「垃圾資訊」。
而清除這些垃圾就是這位博士生的工作。
博士生在淘寶掃「垃圾」
故事的主人公名叫劉翔宇,是一名來自阿里的安全工程師,他的日常工作就是掃「垃圾」
那麼,這些垃圾是哪裡來的呢?
類似於現實生活中的「海王」,他們廣撒網,幾乎日日有不同花樣,讓你甩都甩不掉。
網路垃圾也同樣如此,他們每天都會騷擾平台商家,每天試圖向商家群發上百萬條垃圾資訊。
據劉翔宇介紹,黑灰產通常掌控上千個帳號,並編寫程式,利用機器海量給商家群發資訊,有一些刷單、欺詐資訊等違法內容,更多的是營銷、店鋪代運營等各種招攬生意的廣告,像極了那些上門搗亂的人。
黑灰產團伙通常會在很短的時間內把大量的垃圾消息海量群發給商家。他們嗡嗡不停,少則一天群發幾萬條資訊,多則一天上百萬條,最瘋狂時,一分鐘就能群發上萬條資訊。
旺旺上線「戳一戳」的新功能後,有的黑灰產試圖編寫程式,同時「戳一戳」上萬人。被「亂戳」的主要是新商家,這樣的騷擾可能會讓初入淘寶大門的商家不勝其擾。
那麼,如何才能清理掉這些網路垃圾呢?
這位博士生想到的辦法是利用 AI 來對抗。
AI上線,一個頂倆
所謂 AI 對抗就是根據演算法進行分層識別,在發現黑灰產群發的垃圾資訊後,系統可在一秒內撤回資訊,實現凈化商家運營環境的效果。
當然,「垃圾清理人」面對的不是散兵游勇,而是黑灰產的團伙作戰。
「他們應該是專業團伙,按照攻擊時間,可以看出他們每天也有固定的上下班時間,不少人應該是學電腦相關專業出身的,甚至是像我們一樣做過安全防控的人,這些人對安全防控非常了解,會用智慧化手段對抗,比如他們會發測試資訊,對我們的攔截做試探再做調整。」
劉翔宇這樣介紹道。
更讓人頭疼的是,這些黑灰產並沒有規律可言,不知道他們什麼時候忽然發動攻擊,每周少則幾次,多則十幾次。
尤其是「雙11」大促期間,黑灰產非常瘋狂,發出的垃圾資訊量比平時多幾十倍。
甚至,黑灰產還會想辦法通過「變異」試圖突破安全防線。
所謂的「變異對抗」,就是黑灰產會試圖改變發送的垃圾消息內容,讓系統無法快速識別。黑灰產故意把一些關鍵,用音近、形近或語義相近的字詞代替。在黑灰產黑話中,qq 群變成了「叩–裙」,私人微信寫成「私入崴伈」,發票可能成為「發嘌」。
所以,這就是大家有時候在上網衝浪的時候總會看到一些奇怪的字元的原因。
黑灰產在進化,AI 能力也需要升級。
於是,針對黑灰產的「作案方式」,這名博士生和他的團隊研究出一套新的解決辦法。
即利用神經機器翻譯和多模態詞嵌入技術,增強垃圾文本內容風險識別系統的性能。
具體有什麼作用呢?
首先,來看下神經機器翻譯技術。
這項技術主要解決的問題是基於主動生成的對抗平行語料,利用神經機器翻譯技術,構建對抗糾錯模型,可消除黑灰產發出的內容對抗擾動。
也就是說,這項技術可以實現對黑灰產的攔截。
再來看下多模態詞嵌入技術。
這項技術的主要功能是可以利用多模態詞嵌入技術提取垃圾文本的語義、語音、字形特徵,並通過多模態融合機制有效地增強系統針對基於義近、音近、形近等文本變異的魯棒性,可進一步提供系統識別準確率。
也就是說,這個技術的加入進一步增強了 AI 識別錯誤的能力。
現在,這位博士生打造的演算法已能夠自行理解某個字和與它音形義近似的字的關聯,識別準確率高於 98%,可有效新增識別變異違規文本內容 50% 以上。
此外,他還開發了「變異垃圾語言」翻譯功能,系統可以將「變異資訊」翻譯回正常語句。
這波操作真的是讓人直呼 666。
值得注意的是,每天這位博士需要處理的帳號在上萬個以上,處罰方式包括扣分、禁言、封號等。
當然,如果商家依舊不堪其擾,還是得去尋找警察蜀黎的幫助,交給警察蜀黎處理。
最後,雷鋒網(公眾號:雷鋒網)還是要提醒大家一句:千萬別因為覺得投訴和舉報沒有用,就放棄了維護自己的權益。
在沒有良心的黑灰產面前,如果你放棄追責,那就真的沒有人在乎你的權益了。