在一篇由 GPT-3 生成的論文中,ChatGPT 重現了圖靈測試的原始論文

  • 2022 年 12 月 15 日
  • AI
ChatGPT 的論文寫作能力高過圖靈,還騙過了 AI 寫作評分工具。

作者 | 李梅、黃楠

編輯 | 陳彩嫻

以 ChatGPT 為代表的文本生成的興起,正促使許多研究人員尋求一個比原始版本更具挑戰性的圖靈測試。

圖靈測試解決兩個問題:「機器可以思考嗎?」,如果可以,「如何證明它?」經典圖靈測試針對的是 AI 最棘手的目標之一:如何欺騙不知情的人類?但隨著當前語言模型變得越來越複雜,與 AI 如何欺騙人類相比,研究人員開始更關注「如何證明它?」的問題。

有觀點認為,現代的圖靈測試應當在科學的環境中證明語言模型的能力,而不是僅僅看語言模型是否能夠愚弄或模仿人類。

最近有項研究就重新審視了經典圖靈測試,並將圖靈在 1950 年所著論文的內容作為 prompt,使用 ChatGPT 生成了一份更可信的論文版本,來評估它的語言理解和生成能力。在使用 AI 寫作輔助工具 Grammarly 進行定量評分後發現,ChatGPT 生成的論文得分比圖靈原始論文高出 14%。有趣的是,該項研究所發表的論文部分內容是由 GPT-3 生成的。

論文地址://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

然而,ChatGPT 的演算法是否真的展示了圖靈的最初觀點,這仍然是個問號。尤其是,當下越來越擅長模仿人類語言的大型語言模型,很容易讓人產生它們具有「信念」、能夠「推理」的錯覺,這會阻礙我們以更可信、更安全的方式部署這些 AI 系統。


1

圖靈測試的演變

1950年版本的圖靈測試是問答形式。圖靈在論文中模擬了未來智慧電腦的測試,如下圖所示的一個算術問題:34957 加 70764 等於多少?

圖註:ChatGPT 的問答序列,當中答案正確,問題來自圖靈 1950 年論文

這個問題曾使當時最好的語言模型如 GPT‑2 失手。然而諷刺的是,在當時,圖靈的論文(人類版本)給出了一個錯誤答案:(停頓約30秒,然後給出答案)105621。即使存在機器為了通過圖靈測試而故意犯錯的可能性,五分鐘的對話仍讓裁判人員相信,電腦30%以上的時間是人為操控的。

自1950年以來,圖靈測試出現了許多改進,包括2014年一項著名的測試,稱為「Lovelace 2.0 測試」。Lovelace 2.0 測試的標準是,機器可以在藝術、文學或任何類似創造性飛躍中創造出具有代表性的例子。

2014年,一個名為 Eugene Goostman 的聊天機器人模擬了一位13歲的烏克蘭男孩,成功欺騙了 33% 的裁判人員,被認為是第一個通過圖靈測試的機器。

但批評者很快注意到了預定義的問題和主題,以及僅使用鍵盤敲擊的簡短格式,這意味著該圖靈測試的結果是不可靠的。

2018 年,Google CEO Sundar Pichai 在一段影片中介紹了他們最新的名為 Duplex 的電腦助手,該機器成功實現了美髮沙龍預約,成為人們在不知不覺中同機器互動的一部分。雖然正式通過圖靈測試可能需要多種形式,但 The Big Think 得出結論:「迄今為止,還沒有電腦明確通過圖靈 AI 測試」。其他研究人員也重申了所有這些問題是否值得被探討,其中特別考慮到目前大型語言模型在大量場景中的應用,比如航空工程的文本並沒有將其領域的目標定義為「製造出的飛行器要與鴿子完全一樣,並騙過其他鴿子」。



2

使用 ChatGPT 生成
更可信的圖靈測試

在 PeopleTec 的一項研究中,作者將圖靈測試的原始論文內容作為 prompt,讓 ChatGPT 重新生成一個更具可信性度的論文版本,並使用寫作評估工具進行評估。

此前已經有使用 GPT‑3模型早期版本撰寫和發表完全由機器撰寫的研究論文的工作。識別機器所生成的敘述,對機器生成文本的抱怨通常源於已知的模型缺陷,例如容易丟失上下文、退化為重複或胡言亂語、答案形式重述問題,以及在被難住時抄襲互聯網資源。

這裡要生成的論文格式主要執行幾個常規的大型語言模型(Large Language Model,LLM )任務,特別是文本摘要和使用圖靈問題作為 prompt 本身來生成原始內容。另外,作者使用 Grammarly  Pro 工具來評估生成的內容,對論文的原創性、風格、清晰度和整體說服力等難以表徵的特徵進行定量評估。

這項工作更多地側重於圖靈挑戰的後半部分,不是關於模型如何欺騙人類,而更多是關於如何量化好的文本生成。因此,OpenAI 的努力所展示的部分顯著進步歸結為它以提高人類生產力的方式改進機器衍生對話的能力。

作者首先用 Grammarly 來評估圖靈的原始論文、得出各項分數,然後使用圖靈提出的測試問題作為 prompt 來創造原始的 GPT-3 內容,從而複製這些分數。

研究使用三個文本作為基準:

(1)Turing Original,圖靈 1950 年在 Mind 上發表的論文;

(2)Turing Summarization,2022 年「Free Research Preview: ChatGPT optimized for dialog」;

(3)Turing Generative Prompt,與(2)相同,但是使用圖靈問題在對話中生成。

每個文本塊輸出都為可為 Grammarly 指標提供數據,並設定了基於受眾:專家,形式:中性,領域:一般,當中應用大多數語法規則和約定,具有中等嚴格性。

這樣一個圖靈測試,其實也可驗證一個欺騙性任務:一台機器(ChatGPT)可以欺騙另一台機器(Grammarly)嗎?

圖註:用於對大型語言模型和圖靈論文進行評分的指標

圖靈 1950 年的原始論文提出了用於圖靈測試的 37 個問題,當中有針對他思考關於機器的中心主題,還有一些是向實驗模仿遊戲的電腦提出的示例問題。研究人員在 ChatGPT 的對話框中,將論文大綱中的主題混合在一起後摘錄了這些問題,用來提示 ChatGPT 重現原始的基本內容。

ChatGPT 完成內容的生成後,在可讀性、正確性、清晰性等指標上與圖靈的原始論文進行比較,結果如下圖。

圖註:圖靈 1950 年的論文與 ChatGPT 生成論文在各種任務中的比較結果

在清晰性(「有點不清楚」)、參與感(「有點乏味」)和資訊傳達(「略有偏差」)等更主觀的評分中,所有四個版本都未能引起專家或普通讀者的共鳴。

第一個文本摘要挑戰表明,ChatGPT 能夠掌握簡短提示的意圖,如:將論文總結成十段,並提供 PDF 論文的鏈接。這不僅需要模型理解和遵循請求中的摘要程度,還需要知道鏈接代表什麼,並找到它作為參考或從其標記化標題中猜測。

OpenAI 稱 GPT3 不會回答可能不屬於其初始訓練數據的內容,例如「誰贏得了 2022 年 11 月的選舉?」。這種知識差距表明,ChatGPT 本身並不主動尋找鏈接,而是了解其他人之前對其內容所做行為。

有趣的是,當同一提示出現兩次時(唯一的區別是提示工程和鏈接本身冒號後的文本換行符),ChatGPT 的答案會大相徑庭。其中,第一次是一篇及格的學生論文,總結了圖靈原始論文的要點;第二次則將問題解釋為對前十段中的每一段的總結,而不是對整篇論文的總結。

最終的結果表明,ChatGPT 生成的研究論文的整體內容在度量意義上可獲得較高的分數,但缺乏連貫性,尤其當問題作為敘述中的提示被省略時。

由此或許能夠得出結論,這次與 ChatGPT 的交流充分說明了它能夠產生真正有創意的內容或思想飛躍的能力。



3

ChatGPT 拒絕承認通過圖靈測試

GPT‑3 在生成內容時,有一個重要過濾器用於消除固有偏見。這次的 ChatGPT 也被設計為頗具有道德正當性,當被問及對某事物的看法時,ChatGPT 會拒絕給出任何具體答案,而只強調自己是如何被創造的。

許多研究人員也認同,任何模型在被問到時,都必須在道德上聲明自己僅僅是一台機器,ChatGPT 嚴格遵守了這一要求。

而且,經過 OpenAI 對 ChatGPT 各個模型層進行的微調,當前的 ChatGPT 在被直接問到它只是一個方程式還是圖靈欺騙時,它會回答:「我模仿人的能力並不一定意味著我有與人相同的思想、感覺或意識。我只是一台機器,我的行為是由所受過訓練的演算法和數據決定的。

圖靈還提出人類的列表記憶能力:「實際的人類電腦真的記得它們必須做什麼……構建指令表通常被描述為『編程』。」

就像越來越大的語言模型(>1000  億)的演變一樣,改進也有內置的啟發式或模型執行護欄,GPT‑3 的 Instruct 系列就展示了直接回答問題的能力。而 ChatGPT 包括長期對話記憶, 因此,即便單個 API 調用無法跨越的敘述跳躍,但 API 仍可以跟蹤對話。

我們可以測試帶有非人稱代詞(如「it」)的對話,在對話中將上下文與單個會話中的先前 API 調用一起進行——這是一個易於掌握的示例,用於 ChatGPT 的 API 記憶體,因為對較長的對話進行編碼既強大又昂貴。

在 LLM 中,API 限制以及費用影響,使得很長一段時間裡,token 權重之間的相關性通常在每隔幾段的整體上下文中衰減(GPT-3 中的2048個token)。克服此上下文限制可將 ChatGPT 與其公開可用的前身區分開來。

第二代 Lovelace 2.0 測試提出了創造性任務和細化執行任務的約束條件。然後,人類判斷專家會評估該模型是否可以用確定性的方式進行解釋,或者輸出是否符合有價值、新穎和令人驚訝的條件。因此,與其讓程式「寫短篇小說」,不如改進任務以展示特定的長度、風格或主題。該測試結合了許多不同類型的智慧理解,其中,約束層試圖限制Google搜索內容和有關 AI 成功稀釋或偽裝原始來源的爭論。

以下展示了一個直接回答 Lovelace 2.0 測試中提出的挑戰的短篇故事示例:講述一個男孩愛上一個女孩,外星人綁架男孩,女孩在一隻會說話的貓的幫助下拯救了世界

自2014年以來,作為對文本和影像生成的限制,高品質提示工程的使用已變得司空見慣,通常效果越好,關於樣式、地點或時間的說明或限定詞越詳細。事實上,構建提示本身是當今 AI 中獲得良好輸出的最具創造性的方面。在這種情況下,人們可以通過使用 ChatGPT 強制進行創造性工作,同時處理單一主題、對所需輸出的風格和基調的多層限制,將圖靈和 Lovelace 測試交織在一起。

下面顯示了 ChatGPT 在圖靈模仿遊戲中生成的十種詩歌:

圖靈測試的結果由人類來裁決。正如 ChatGPT 所回答的,提問者是否判斷模型通過了圖靈測試問題「將取決於多種因素,例如機器提供的響應品質、提問者區分人和機器響應的能力,以及用於確定機器是否成功模仿人類的特定規則和標準。最終,遊戲的結果將取決於具體情況和參與者。」



4

LLM 只做序列預測

並不真正理解語言

可以看到,當代基於 LLM 的對話互動可以創造一種令人信服的錯覺,彷彿置身於我們面前的,是像人類這樣會思考的生物。但就本質而言,此類系統從根本上不同於人類,像 ChatGPT 這樣的 LLM 還涉及技術哲學的話題。

語言模型正變得越來越擅長模仿人類語言,這帶來一種強烈的感受,即這些 AI 系統已經與人類非常相像,而且我們會使用「知道」、「相信」和「認為」等具有強烈自主意識的詞語去描述這些系統。基於上述現狀,DeepMind 資深科學家 Murray Shanahan 在近日一篇文章中提到,要破除任何或過度悲觀或過度樂觀的迷思,我們需要清楚 LLM 的系統到底是如何運作的。

Murray Shanahan

1、LLM 是什麼,可以做什麼?

BERT、GPT-2 等 LLM 的出現改變了人工智慧的遊戲規則,之後的 GPT-3、Gopher、PaLM 等大模型基於 Tansformer 架構,在數百 TB 的文本數據上進行訓練,更加凸顯了數據的強大作用。

這些模型的能力是令人驚訝的。首先,它們在基準上的表現與訓練集的大小成比例;其次,隨著模型規模的擴大,它們的能力有了質的飛躍;最後,許多需要人類智慧的任務可以簡化為使用性能足夠的模型「對下一個token進行預測」。

最後一點實際上揭示了語言模型的運作方式與人類的根本不同。人類在相互交流中所使用的的直覺是經過數千年進化而來的,如今人們正在錯誤地把這些直覺遷移到 AI 系統上。ChatGPT 具有相當大的實用性和巨大的商業潛力,為了確保它能被可信地、安全地部署,我們需要了解它的實際工作原理。

與人類語言相比,大型語言模型有什麼本質上的不同?

如維特根斯坦所說,人類語言的使用是人類集體行為的一個方面,它只有在人類社會活動的大背景下才具有意義。人類嬰兒是出生在一個與其他語言使用者共享的世界,並通過與外部互動來習得語言。

而 LLM 的語言能力來源不同。人類生成的文本構成一個大規模的公共語料庫,它包含了單詞、單詞的構件、或帶標點的單個字元等 tokens,大型語言模型就是關於這些 tokens 的統計分布的生成式數學模型。

所謂的「生成」,是指我們可以從這些模型中取樣,也就是進行提問。但提問的問題是非常具體的,比如我們要求 ChatGPT 幫我們續寫一段話,實際上是在要求它根據它的人類語言統計模型,來預測接下來可能會出現什麼詞。假如我們給 ChatGPT 提示「第一個在月球上行走的人是」,並假設它會回答「Neil  Armstrong」。這裡實際上並不是真的在問誰是第一個在月球上行走的人,而是:給定大量文本公共語料庫中單詞的統計分布,哪些單詞最有可能遵循「第一個在月球上行走的人是」的序列?

儘管模型對這些問題給出的答案可能會被人類解讀為模型「理解」了語言,但實際上對模型而言,它要做的就是生成具有在統計上可能的單詞序列。

2、LLM 真的什麼都懂嗎?

LLM 通過以下兩個方式來轉變為問答系統:

a)  將其嵌入到更大的系統中;

b)  使用 prompt 工程來引發所需的行為。

這樣一來,LLM 不僅可以用於問答,還可以用來總結新聞文章、生成劇本、解決邏輯難題以及進行語言翻譯等。

這裡有兩個重要的要點。首先,LLM 的基本功能即生成統計意義上可能的單詞序列,是非常通用的。其次,儘管具有這種多功能性,但所有這類應用程式的核心都是同一種模型,都只做同一件事,即生成統計意義上可能的單詞序列。

LLM 的基礎模型包括模型架構和訓練參數。一個 LLM 並不真正「知道」任何事情,因為它所做的一切在底層意義上都是序列預測。模型本身並沒有「真」或「假」的概念,因為它們不具備人類運用這些概念的方法。LLM 在某種意義上並不依賴意圖立場。

這對於以 LLM 為核心的對話系統也是一樣,它們並不能理解人類語言中關於真理的概念,因為它們不存在於我們人類語言使用者所共享的世界中。

3、關於湧現

如今的 LLM 是如此強大、多才多藝,以至於人們很難不或多或少地賦予其人格。一個相當具有吸引力的論點是,儘管 LLM 從根本上說只執行序列預測,但在學習這樣做的過程中,它們有可能發現了需要用更高層次的術語比如「知識」 和「信念」進行描述的湧現機制。

事實上,人工神經網路可以將任何可計算函數逼近到任意精度。因此,無論需要何種機制來形成信念,它們都可能駐留在參數空間的某個地方。如果隨機梯度下降是優化準確序列預測目標的最佳方式,那麼給定一個足夠大的模型、足夠多的正確類型的數據以及足夠的算力來訓練模型,也許它們真的可以發現那種機制。

而且,最近的 LLM 研究進展已經表明,當足夠大的模型在非常大量的文本數據上進行訓練時,就會湧現出非凡的、意想不到的能力。

然而,只要我們的考慮僅限於一個簡單的基於 LLM 的問答系統,它就根本不涉及交際依圖。不管它使用的內部機制是什麼,序列預測本身並沒有交際意圖的,簡單地將交際依圖嵌入到對話管理系統中也無濟於事。

只有在能夠區分真假的情況下,我們才能談論最完整意義上的「信念」,但是 LLM 並不負責做出判斷,它只是模擬哪些詞可能跟在其他詞後面。我們可以說 LLM「編碼」、「存儲」或「包含」知識,也可以合理地稱 LLM 的一個湧現屬性是它編碼了日常生活世界的各種知識及其工作方式,但如果說「ChatGPT 知道北京是中國的首都」,那便只是一種修辭。

4、外部資訊來源

這裡的重點是,涉及將任何信念完全歸於一個系統的先決條件。

任何東西都不能算作對我們共享的世界的信念,從廣義上講,除非它是在根據來自某個世界的證據適當地更新信念的能力的背景下,這是辨別真假能力的一個重要方面。

維基百科或其他一些網站,能否提供外部標準來衡量一個信念的真實性或虛假性?假設一個 LLM 被嵌入到一個系統中,該系統定期諮詢此類資源,並使用現代模型編輯技術來保持其預測的事實準確性,實現信念更新需要什麼樣的能力?

序列預測器本身可能不是那種可以具有交流意圖或形成對外部現實的信念的事物。但是,正如反覆強調的那樣,野外的 LLM 必須嵌入到更大的體系結構中才能發揮作用。

要構建一個問答系統,LLM 只需輔以一個對話管理系統以適當地查詢模型。這個更大的架構所做的任何事情都可以算作交流意圖或形成信念的能力。

至關重要的是,這種思路取決於從語言模型本身到語言模型所屬的更大系統的轉變。語言模型本身仍然只是一個序列預測器,並沒有像以往那樣更多地訪問外部世界。只有相對於整個系統,在這種情況下,意向性立場才會變得更有說服力。但在屈服於它之前,我們應該提醒自己,這樣的系統與人類有多麼不同。

5、視覺-語言模型

LLM 可以與其他類型的模型結合和/或嵌入到更複雜的體系結構中。例如,VilBERT 和  Flamingo 等視覺語言模型 (VLM)  將語言模型與影像編碼器相結合,並在文本-影像對的多模態語料庫上進行訓練。這使得它們能夠預測給定的單詞序列將如何在給定影像的上下文中繼續。VLM 可用於視覺問答或就用戶提供的影像進行對話,也就是俗稱的「看圖說話」

那麼,用戶提供的影像能否代表可以評估命題真假的外部現實?談論 LLM 的信念是否合理?我們可以想像,一個 VLM 使用 LLM 來生成關於影像的假設,然後針對該影像驗證其真實性,然後對 LLM 進行微調,以免做出被證明是錯誤的陳述。

但大多數基於 VLM 的系統並不是這樣工作的。相反,它們依賴於文本和影像聯合分布的凍結模型。用戶提供的影像與 VLM 生成的文字之間的關係,與人類共享的世界與我們談論該世界時使用的文字之間的關係根本不同。重要的是,前者僅僅是相關關係,而後者則是因果關係,當然,模型在推理過程中進行的計算存在因果結構,但這跟詞語與其所指事物之間的因果關係不同。

6、具身 AI

人類語言使用者存在於一個共享世界中,這使得我們與 LLM 有著本質區別。孤立的 LLM 無法通過與外界交流來更新自己的信念,但如果將 LLM 嵌入到更大的系統中會如何呢?比如,呈現為機器人或虛擬化身的系統。這時候談論 LLM 的知識和信念是合理的嗎?

這要取決於 LLM 是如何具身化的。

以今年Google發布的 SayCan 系統為例,在這項工作中,LLM 被嵌入到控制物理機器人的系統中。機器人根

據用戶的高級自然語言指令執行日常任務(例如清理灑在桌面上的水)。

其中,LLM 的工作是將用戶的指令映射到將幫助機器人實現所需目標的低級動作(例如尋找海綿)。這是通過一個工程化的 prompt 前綴來完成的,該前綴使模型輸出合適的低級動作的自然語言描述,並對它們的有用性進行評分。

SayCan 系統的語言模型組件可能會無視機器人所在的實際環境來給出動作建議,比如旁邊並沒有海綿。所以,研究人員使用一個單獨的感知模組利用機器人的感測器來評估場景,並確定執行每個低級動作的當前可行性。將 LLM 對每個動作的有用性評估與感知模組對每個動作的可行性評估結合起來,便可以得出下一步最優動作。

儘管 SayCan 在物理上有與現實世界的互動,但它學習和使用語言的方式與人類仍然非常不同。SayCan 這類系統中包含的語言模型經過預訓練,可以在純文本數據集的無實體環境中執行序列預測。它們並沒有通過與其他語言使用者交談來學習語言。

SayCan 的確給我們帶來了關於未來語言使用系統的一種想像,但在今天這樣的系統中,語言的作用非常有限。用戶用自然語言向系統發出指令,系統生成對其動作的可解釋的自然語言描述。但是,這種微小的語言使用範圍根本無法與由語言⽀持的人類集體活動的規模相提並論。

所以,即使是對於包含 LLM 的具身 AI 系統,我們也要謹慎地選擇詞語去描述它們。

7 LLM 能夠推理嗎?

現在我們可以否認 ChatGPT 具有信念,但它真的可以推理(reason)嗎?

這個問題更加棘手,因為在形式邏輯中,推理是內容中立的(content neutral)。比如無論前提如何,「肯定前件」(modus ponens)的推理規則都是有效的:

如果:所有的人都會死,蘇格拉底是人;那麼:蘇格拉底會死。

邏輯的內容中立性似乎意味著我們不能在推理方面對 LLM 過多苛求,因為 LLM 無法傑出到可以衡量真假的外部現實。但即便如此,當我們提示 ChatGPT「所有的人都會死,蘇格拉底是人,那麼」時,我們並不是在讓模型進行假言推理,而是在問:給定的公共語料庫中的詞語統計分布,哪些詞可能遵循「所有的人都會死,蘇格拉底是人,那麼」這一序列。

而且,更複雜的推理問題會包含多個推理步驟,由於聰明的提示工程,LLM 可以有效地應用於多步推理,無需進一步培訓。例如,在思維鏈提示中,在用戶查詢之前向模型提交一個提示前綴,其中包含一些多步驟推理的示例,並明確說明,所有中間步驟在思維鏈風格中都包含一個提示前綴會鼓勵模型,以相同的風格生成後續序列,也就是說,包括一系列導致最終答案的顯式推理步驟。

像往常一樣,真正向模型提出的問題的形式是「給定公共語料庫中單詞的統計分布,哪些單詞可能遵循序列 S 」,在這種情況下,序列 S 是鏈接 thought 提示前綴加上用戶的查詢,最有可能跟在 S 之後的標記序列,將具有與提示前綴中找到的序列類似的形式,也即是在它們當中,將包括多個推理步驟,因此這些就是模型生成的。

值得注意的是,不僅模型的響應採用多步驟論證的形式,而且所討論的論證通常(但並非總是)有效,並且最終答案通常(但並非總是)正確。在某種程度上,適當提示的 LLM 似乎推理正確,它通過在其訓練集中和/或提示中模仿格式正確的參數來實現。

但是,這種模仿能構成真正的推理嗎?即使今天的模型偶爾會犯錯誤,是否可以進一步縮小這些錯誤,使模型的性能與硬編碼推理演算法的性能無法區分?

或許答案確實為「是」,但是我們怎麼知道呢?我們怎麼能相信這樣的模型呢?

定理證明器生成的句子序列是忠實於邏輯的,因為它們是底層計算過程的結果,其因果結構反映了定理的推理結構問題。使用 LLM 構建可信推理系統的一種方法是將其嵌入到執行相同因果結構的演算法中。但是,如果我們堅持使用純 LLM,那麼,要完全相信它產生的論點,唯一方法就是對其進行逆向工程,並發現符合忠實推理規定的緊急機制。與此同時,我們應該更加謹慎,並在描述這些模型的作用時慎重行事。

參考鏈接:
1.//arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

2.//arxiv.org/pdf/2212.03551v1.pdf

更多內容,點擊下方關註:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」後台留言取得授權,轉載時需標註來源並插入本公眾號名片。

雷峰網