Fast.ai:指標是一把雙刃劍,用不好就成了垃圾食品自助站
- 2019 年 11 月 6 日
- 筆記

大數據文摘出品
來源:fast.ai
編譯:China盼盼、曹培信
古德哈特定律指出,「當一個指標成為目標時,它就不再是一個好的指標。」在他們的心中,當前的人工智慧方法所做的就是優化指標。優化指標對人工智慧來說,既不新奇也不獨特,但這樣做可以讓人工智慧特別高效(甚至過份高效)。
這一點很重要,因為優化指標的風險會因人工智慧的強大而增加,雖然指標在某些適當的地方是有用的,但如果不加思考地應用它們,則會帶來危害。
一些演算法造成的可怕案例都是由於過分強調指標造成的——比如Google的演算法會出現種族歧視,還有教師被「演算法」解僱,或文章評分軟體給那些看著複雜卻沒有實質內容的文章打高分。我們必須了解這一動態趨勢,以便理解我們正面臨的由於濫用人工智慧而導致的緊迫風險。

《哈佛商業評論》,《華盛頓郵報》和《全球青年文化之聲》的頭條報道了過度優化指標的一些後果:獎勵垃圾文章、宣傳富國銀行的大規模欺詐以及演算法解僱優秀教師。
最重要的事情我們反而無法用指標衡量
指標通常只是我們真正關心的事物的體現,有一篇論文提到一個非常有趣的例子:電子病歷中哪些因素能預測未來患者的中風。
論文鏈接:
https://scholar.harvard.edu/files/sendhil/files/aer.p20171084.pdf
然而,研究人員發現,一些最具預測性的因素(如意外傷害、良性乳腺腫塊或結腸鏡檢查)都不能作為中風的風險因素。因為研究表明,這個模型只是涵蓋了那些經常使用醫療保健的人。研究人員實際上並未獲取到所有中風患者的數據;他們掌握了有關誰可以獲得醫療服務,選擇去看醫生,接受必要的檢查的數據,並將這個程式碼添加到他們的圖表中。
但有許多因素影響這一過程:影響病人能否得到準確診斷的還有性別和種族歧視因素、文化因素等等。因此,該模型主要是挑選使用醫療保健的人,而非那些不使用醫療保健的人。
還有一個常見的例子:若你想知道用戶喜歡什麼內容,你可以看他們點擊的內容;若你想知道哪些老師的教學最有效果,你可以評估他們的學生考試成績;若你想知道犯罪情況,所以你也可以通過警察的逮捕資訊進行衡量。這些事情各不相同。很多我們關心的事情是無法測量計算的。儘管指標是有幫助的,但它們也只是我們所關心的事物的體現而已。
另一個例子是,Google把花在觀看YouTube上的時間作為用戶對內容的滿意程度的體現,Google寫道:「如果觀眾在YouTube上觀看更多的時間,則表明他們對獲得的內容更滿意。」曾在Google/YouTube工作的人工智慧工程師Guillaume Chaslot分享了如何這產生了陰謀論的結論,因為人們有時候看完這個影片只是為了確認剩下的影片也是在撒謊而不是,因為喜歡這個影片。
指標會被操縱、被玩弄
指標被操縱幾乎是不可避免的,尤其是當它們被賦予了太多的權力時。舉個例子,Chaslot從YouTube上收集了84695個影片,分析了影片的瀏覽量和推薦頻道。

圖表來自《穆勒報告》,顯示《今日俄羅斯》影片在YouTube上被頻道推薦數量很異常。
YouTube在你看完當前的影片就開始自動播放推薦內容,這佔到用戶在youtube上花費時間的70%,從圖中可以看出國有媒體《今日俄羅斯》(Russia Today)是一個極端的異類,它獲得了不尋常的推薦量。這也有力地表明,《今日俄羅斯》已經在某種程度上玩弄了youtube的演算法。
再比如,文章自動評分軟體主要關注句子長度、辭彙、拼寫和主謂一致性等指標,但無法評估難以量化的指標,如創造力。因此,由電腦程式隨機生成的包含大量複雜單詞的亂七八糟的文章得分會很高。來自中國大陸的學生的論文在文章長度和複雜的選詞方面都做得很好,但普遍演算法給出的得分高於人類專業評分者給出的得分,這表明這些學生可能在使用預先背記的文本。
還有隨著美國教育政策開始過分強調學生考試成績作為評價教師的主要方式,在喬治亞州、印第安納州、馬薩諸塞州、內華達州、弗吉尼亞州、得克薩斯州等地方,教師和校長通過改變學生成績來作弊的醜聞普遍存在。這樣做的一個後果是,不作弊的教師反而會受到懲罰,甚至被解僱,這體現了當指標被賦予不適當的重要性時,操縱、玩弄指標的做法就會變得很常見。
指標往往過分強調短期的關注
衡量短期量化指標很容易:點擊率、逐月波動率、季度收益等,但許多長期趨勢因為有著複雜的因素組合,難以量化。
簡單地衡量用戶點擊的內容是一個短期關注點,並沒有考慮到一些因素帶來的潛在的長期影響,比如長篇形式的調查性文章可能需要幾個月的時間來研究,可能有助於塑造讀者對複雜問題的理解,甚至有重大的社會影響力。
《哈佛商業評論》最近的一篇文章將富國銀行視為一個案例,研究讓指標取代戰略如何損害企業。在將交叉銷售確定為長期客戶關係的衡量標準後,富國銀行過分強調了交叉銷售的衡量標準,這給了員工的巨大壓力和不健康的銷售文化,導致350萬個欺詐性存款和信用卡賬戶未經客戶同意就被開立。與培養長期客戶關係的崇高目標相比,交叉銷售的衡量標準是一個更為短期的關注點。過分強調衡量標準會使我們的注意力從長期的關注點上轉移,比如我們的價值觀、信任和聲譽,以及我們對社會和環境的影響,而只是目光短淺地關注短期目標。
相關報道:
https://hbr.org/2019/09/dont-let-metrics-undermine-your-business
指標數據來自用戶高度成癮的環境
在什麼環境中收集哪些指標這個問題很重要,諸如用戶點擊什麼,他們在網站上花費多少時間,以及「參與度」等指標,都被科技公司視為用戶偏好的體現,並被用來驅動重要的商業決策。不幸的是,這些指標是在高度上癮的環境中收集的,這大大限制了選項的範圍。

我們的網路環境就像是垃圾食品自助餐廳
北卡羅來納大學教授、《紐約時報》定期撰稿人Zeynep Tufekci將推薦演算法與自助餐廳向孩子們推薦垃圾食品類比。「這有點像學校里的自助餐廳,發現喜歡甜食的孩子,還喜歡高脂肪和鹹的食物。因此演算法建立了一條提供此類食物的流水線,只要年輕人面前的一袋薯條或糖果吃完,你就會自動提供下一份。」
這樣一個人對食物的選擇會變得越來越極端:「食物中糖,脂肪和鹽的攝入量越來越高(人類的慾望),YouTube推薦和自動播放的影片就變得越來越離奇。」我們太多的在線環境都是這樣的,有指標顯示我們喜歡糖、脂肪和鹽,卻沒有考慮到我們正處在一個數字化的食物沙漠中,公司也沒有給他們提供的食物上貼上含多少營養的標籤,這些指標讓我們陷在了不健康的環境中。
指標在何時才有用?
以上所有這些並不是說我們應該完全拋棄指標,數據在幫助我們理解世界、驗證假設、超越直覺方面是很有價值的。
當指標處於合適的上下文和位置時,它們會很有用,保持指標標準不變的一種方法是考慮將許多指標標準組合成一個更完整的系統(並避免將這些指標指標歸結為單一分數)。
例如,了解科技公司低指標的群體中僱傭員工的比率是一個非常有限的數據點。為了評估技術公司的多樣性和包容性,我們需要知道比較促進率、股權結構、保留率、被保密協議封口的受害者數量、低於標準的比率以及更多。即便如此,所有這些數據仍應與這些公司工作人員的主觀經驗相結合。
哥倫比亞大學教授、《紐約時報》首席數據科學家克里斯·威金斯(Chris Wiggins)寫道:定量指標應始終與定性資訊相結合,「因為我們無法提前知道用戶經歷的每一種現象,我們也無法提前知道哪些指標量化這些現象。為此,數據科學家和機器學習工程師必須與用戶體驗研究結合,或學慣用戶體驗,讓用戶有發言權。」
將指標保持在適當位置的另一個關鍵則是讓領域專家和那些將受到最大影響的人密切參與其開發和使用,比如說對教師的評價,顯然大多數教師都可以預見,主要根據學生的標準化考試成績來評價教師會導致許多負面後果,如果徵求了他們的意見,這個系統根本不會被採用。
這篇文章並不反對指標,而是擔心指標被過分強調會帶來的危害,這是我們在人工智慧領域的常見現象,它正對現實世界產生一定的負面影響。人工智慧不受限制地運行並優化指標,已經導致了諸如Google/youtube大力推廣種族歧視、論文評分軟體給垃圾文章打高分等情況,而通過牢記指標可能帶來的風險,我們可以盡量避免這些危害。
相關報道:
https://www.fast.ai/2019/09/24/metrics/#proxy