國內首獲IMWUT優秀論文，清華大學團隊揭示App使用行為

2019 年 10 月 7 日
筆記

機器之心專欄

論文作者：Zhen Tu 、Runtong Li、Yong Li等

一年一度的普適計算頂級會議 ACM UbiComp 2019 上周在英國倫敦落下帷幕。清華大學研究者發表的一篇論文被接收為優秀論文，這是 UbiComp 會議轉為 IMWUT 期刊新發表模式三年以來，國內首次榮獲優秀論文獎。

作為普適計算領域公認的頂級會議，ACM UbiComp 為全球研究人員提供了一個探討普適計算系統設計、開發、部署、評測和理解等最新研究進展的多學科交叉交流平台。

UbiComp 始於 1999 年，2013 年合併了普遍計算和普適計算兩個國際會議。過去十幾年，UbiComp 規模發展迅速，每年向 UbiComp 提交的論文約有 400-500 篇，過去幾年的接受率大約為 20-25%，每年有 600-800 名參會者參與。

UbiComp 從 2017 年開始採用新的發表模式，每年的會議文章由 IMWUT (Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies) 期刊錄用，並全部邀請參會。

今年的會議開幕式在英國自然歷史博物館舉行，會議各大論文獎項相繼頒佈。Marc Bächlin 等人獲得 UbiComp 會議 10 年最有影響力獎，Manu Gupta 等人獲得普適計算領域 10 年最有影響力獎，Zhanna Sarsenbayeva 獲得優秀學生獎。

而最受關注的優秀論文獎中，國內清華大學團隊的文章《Your Apps Give You Away: Distinguishing Mobile Users by Their App Usage Fingerprints》入選。

據網站公布信息，這是 UbiComp 會議轉為 IMWUT 期刊新發表模式三年以來，國內首次榮獲優秀論文獎。

以下內容是對這篇獲獎論文核心內容的解讀。

論文地址：https://dl.acm.org/citation.cfm?id=3264948

摘要：理解移動用戶的 App 使用情況對於服務提供商優化在線服務至關重要。但與此同時，人們越來越關注其中的隱私問題，那就是 App 使用情況可能會唯一地揭示他們的身份。在該文中，作者試圖了解用戶通過其使用的 App 在人群中被唯一識別的可能性。通過和一家主流運營商合作，作者獲取了一個城市規模的匿名用戶 App 使用行為數據集（137 萬用戶，2000 個 App，94 億記錄）用於研究該問題。通過大規模的實證分析，作者系統地研究了 App 使用行為的唯一性。

研究結果表明，對於使用超過 10 個 App 的用戶而言，其 App 使用行為非常唯一，隨機 4 個 App 就能夠唯一識別 88% 的用戶。當進一步考慮使用時間和地點信息時，用戶的唯一性水平會進一步增強。此外，不同屬性（性別、社交活躍度和移動模式）群體的行為唯一性水平存在明顯差異。該文研究首次揭示了大規模尺度下移動用戶的 App 使用行為規律，能夠為進一步研究相應的數據隱私保護機制和個性化的推薦服務方案提供理論指導。

隨着網絡技術的發達和移動設備的普及，如今移動應用程序 (App) 能夠隨時隨地為用戶提供互聯網服務，帶來了極大的遍歷。相較於傳統網站而言，互聯網用戶已經將更多的時間花在了移動 App 的使用上。因此，理解移動用戶的 App 使用行為和探索其行為規律，對於 App 開發者、網絡服務提供商等都具有重要意義。

對於移動用戶的行為規律，發表在 Nature 子刊和 Science 正刊的文章就表明，用戶個體的移動軌跡就非常獨特，且不同性別和收入水平人群的移動軌跡唯一性具有極大差異，這為後續的用戶個體軌跡預測、地點推薦等相關研究提供了理論基礎。但是，就 App 使用行為而言，目前較為缺乏衡量用戶個體行為唯一性相關的研究工作，來給用戶 App 使用行為預測及推薦研究提供理論指導。

基於以上背景，文章使用一個城市規模的 App 使用行為數據集，實現了首個對 App 時空使用行為唯一性做大規模實證分析的工作。為了全面衡量移動用戶 App 使用行為的唯一性程度，文章研究了以下三個關鍵問題：

1）僅考慮 App 集合，用戶的 App 使用行為有多唯一?

文章結果表明，僅考慮 App 集合時，用戶行為的唯一性就很高。

在 Fig. 3(a) 中，76% 的用戶能被 Top-4（最常用 4 個）的 App 唯一識別，超過 88% 的用戶可以通過 Rand-4（隨機 4 個）的 App 進行區分。在 Fig. 3(b) 中，作者僅隨機挑選 10% 的數據記錄進行相同的實驗，仍然得到了類似的實驗結果。

2）進一步考慮時空使用特徵，用戶的 App 使用行為有多唯一?

文章結果表明，當考慮時間和空間使用特徵後，用戶行為的唯一性進一步增強。

在 Fig. 4 中，當使用細粒度的時間分辨率 (5min) 時，結果表明使用 3 條隨機選擇的記錄可以區分超過 82% 的用戶；當考慮 5 條記錄時，98% 的用戶是唯一的。在 Fig. 5 中，可以看到使用 0.2km 的空間分辨率，80% 的用戶可以被 3 條隨機選擇的記錄唯一區分；當考慮 5 條記錄時，95% 的用戶是唯一的。