那些打著AI萬金油旗號的產品欺騙大眾,如何識別?

  • 2019 年 12 月 11 日
  • 筆記

作者 | Arvind Narayanan

譯者 | 劉暢

出品 | AI科技大本營(ID:rgznai100)

如今,很多打著AI名號售出的產品都屬於萬金油系列,沒什麼實質性的功能。為什麼會這樣?我們應該如何識別這類AI?

幻燈片上是評估性格和工作合適性的30秒影片

數以百萬計的求職者已經接受了這類演算法的評估。上圖是來自某家公司的促銷影片截圖。這些系統聲稱甚至不用理會應聘者說的內容,根據肢體語言和語音就可以分析一個應聘者。

基本常識會告訴我們這不可能,但是AI專家會說這是可能的。而實際上這個產品只是一個精心製作的隨機數生成器。

這些公司籌集了數億美元,並且積極的佔領客戶。偽造AI來篩選求職者的現象變得越來越嚴重。這張PPT顯示了該問題有多嚴重,其中的表格來自https://arxiv.org/abs/1906.09208

人們正在學習如何利用這些虛假系統來工作,並在社交媒體上分享一些恐怖的故事

這為什麼會發生?為什麼人事部門如此容易受欺騙?除了僱傭,其它哪些領域還有打著AI旗號的萬金油工具?

以上是作者的關於為什麼有如此多的AI萬金油工具,以及為什麼決策者會被它們欺騙的假設。

例如,AlphaGo是一項非凡的成就,並且值得稱讚。大多數專家都沒想到這種可能。

但是,它與聲稱可以預測工作績效的工具之間,卻大相徑庭。

媒體大肆宣傳公司可以將AI作為解決所有問題的解決方案。因此,美國公眾認為,所有工種的自動化僅10年之遙!

如果決策者認為這種根本性變革即將到來,請想像一下它將如何扭曲我們正在進行的優先事項。我相信在如今社會這實際上是正在發生的。

請注意,AI專家對人工智慧或強AI的預測距離尚有50多年之久,但是歷史告訴我們,即使是專家,也往往對AI的發展太樂觀了。

讓我們更具體一點。我將把AI應用程式分為三類(並非詳盡無遺)。

這張幻燈片上的所有內容都是一個識別問題(Deepfakes並不是純粹的識別而是緊密相關的。它們是使用生成對抗網路來實現的)。識別是人工智慧快速發展的幾個領域之一。

在這張幻燈片上的所有任務中,AI都已經達到或超過了人類的準確性,並且正在不斷迅速提高。

取得進展的根本原因是,這些任務沒有不確定性或模稜兩可。給定兩張影像,關於它們是否代表同一個人是有一個基本事實。因此,如果有足夠的數據和計算能力,人工智慧能夠學到將一張臉與另一張臉區分開的模式。人臉識別存在一些明顯的失敗,但是我很高興地預測它將能變得更加準確(不過這也正是我們應該擔心的原因)。

第二類是關於嘗試自主判別的應用程式。人的思維是具有啟發性的,例如什麼是垃圾郵件,而不是垃圾郵件,並且給出足夠的例子。機器會嘗試去學習它。

在這些任務上,人工智慧將永遠是不完美的,因為它們涉及判別力,並且理性的人可能會不同意正確的決定。

我們似乎已經準備部署這些系統,並且必須決定如何最好地管理它們,例如為被錯刪內容的人們找出適當的程式機制。

我將把剩下的話題集中在第三類,那裡有大量的萬金油。

上面已經展示了聲稱可以預測工作適合程度的工具。類似的,基於慣犯的演算法來預測保釋金的多少。人們使用演算法去分析社交媒體帖子並預測恐怖分子的危險程度,因而被拒之門外。

這些問題很難解決,因為我們無法預測未來。而這些應該是常識。但在涉及AI時,我們似乎已經決定忘記常識。

當然,這甚至與AI所面向的事物(如機器人技術)都不相近。但,要點是說明對於不同類型的任務,數據的數量和品質對精度的限制上是如何不同的。

接下來將展示,無論你投入多少數據,第三類應用不會有真正的改善。

我知道這是一次衡量社會結果可預測性,非常嚴格的嘗試。

他們根據深入訪談和多年來多次重複進行的家庭觀察收集了有關每個孩子和家庭的大量數據。

他們使用了與許多其他機器學習競賽相似的挑戰環境。

任務是根據訓練實例學習背景數據和結果數據之間的關係。比賽期間在排行榜上評估準確性,比賽結束後根據保留的數據評估準確性。

完美預測對應於R^2為1。預測每個實例的均值對應於R^2為0(即,該模型完全沒有學會區分實例)。

大多數人的直覺似乎都認為R^2的值在0.5到0.8之間。並且組織競賽的許多專家都寄予厚望。

這是實際發生的情況。

記住:數百名AI / ML研究人員和學生嘗試過這樣做,他們需要最大限度地提高預測準確性,每個家庭都有13,000個特徵。圖上的是表現最好的模型。

這就是問題所在。

回歸分析已有一百年歷史了。

在許多領域都有相同的發現。

請注意,上圖所示是準確度,而不是R^2,因此65%僅比隨機數略好。

實際準確性可能更低,這是因為雖然該工具聲稱可以預測累犯,但實際上是能預測重新逮捕,因為這就是數據中記錄的內容。因此,至少演算法的某些預測性能來自預測策略的偏差。

這是個人的意見。當然,如果發現相反的證據,我願意改變主意。但是,鑒於目前的證據,這似乎是最謹慎的看法。

駕照的欠費可以被視為預測事故風險的一種方式。一些研究發現此類系統可以進行合理的使用。

很長時間以來,我們就知道,如果我們真正想做的只是預測,那麼簡單的公式比人類的預測更準確, 甚至是經過多年訓練的專家。丹尼爾·卡尼曼(Daniel Kahneman)解釋說,這是因為人類的預測往往「太多雜念」:如果輸入相同,則不同的人(甚至在同一時間的同一個人)將做出非常不同的預測。而使用統計公式則可以消除這種不同。

與人工評分規則相比,使用AI進行預測有許多缺點。也許最重要的是缺乏可解釋性。想像一下這樣一個系統,在該系統中,每次您被警務人員攔下時,警務人員都會將您的數據輸入電腦,這並不像駕照上的積分。大多數情況下,您可以免費離開,但是在某些時候,黑匣子系統會告訴您不再允許被開車。

不幸的是,實際上如今我們在許多領域都擁有這種系統。

來源:

https://www.cs.princeton.edu/~arvindn/talks/MIT-STS-AI-snakeoil.pdf

(*本文為AI科技大本營編譯文章)