替換一下同義詞,AI就把句子意思弄反了|華人研究者揭示NLP模型脆弱性

  • 2020 年 2 月 26 日
  • 筆記

賴可 發自 凹非寺 量子位 報道 | 公眾號 QbitAI

騙過AI如此簡單。

換了一個同義詞,自然語言處理模型就讀不對句子的意思了。

麻省理工和香港大學的研究生們開發了一個算法,讓AI在文本分類和推理問題上的正確率從80%下降到10%。

測試原理

這個模型的名字叫Textfooler,通過生經過微調的句子,來對自然語言文本分類和推理進行攻擊。

比如在著名的分類任務影評判斷中,AI的任務是去判斷一句影評是肯定性的還是否定性的。

像這句:

The characters, cast in impossibly contrived situations, are totally estranged from reality.(劇中的人物,被安排在不可能情境之中,與現實完全脫節。)

Textfooler模型生成的對應句子是:

The characters, cast in impossibly engineered circumstances, are fully estranged from reality.

將contrived situation改為了engineered circumstance,totally 改為fully。

結果AI將第一個句子標記為「負面」,第二個句子標記為「正面「。

在推理任務中,AI需要判斷在一個句子和情境之間的關係,是蘊含,中立,還是矛盾。

比如給定一個前提:

Two small boys in blue soccer uniforms use a wooden set of steps to wash their hands. 兩個穿着藍色足球服的小男孩藉助一套木製的台階洗手。

需要判斷這句話「The boys are in band uniforms.」(男孩們穿着樂隊制服)和前提的關係。

AI會把這個句子判斷為」矛盾」。

當把uniforms這個單詞改為garments以後:The boys are in band garments。

AI 就會把句子判斷為「蘊含」。

此外,研究團隊還請人類被試閱讀這些句子,以確認它新生成的句子和原句接近。

他們從進行實驗的兩個數據集MR dataset和WordLSTM中各挑100個例子,請被試行進行打分。相似為1,有歧義為0.5,不同為0,最後得到的分數分別為0.91和0.86。

這說明,調整後的句子對人類閱讀影響很小。

各模型測試結果

研究團隊使用了三個模型,七個數據集來進行測試。

三個模型為:BERT,WordCNN,WordLSTM。

數據集:

5個為分類數據集,2個為蘊含推理數據集

分類任務的測試結果如下:

所有的模型的原來的精確度都在78%以上,像BERT則表現更優秀,在兩個數據集上都能達到97%的精確度。

但是經過Textfooler的攻擊,精確度全部降到了20%以下。

再來蘊含推理任務表現如何:

精確度從原來的80%降到了10%以下。

在實際應用中可能產生影響

處理文本的AI越來越多地被用來判斷應聘者,評估醫療報銷,處理法律文件。因此,研究者認為,AI的這一缺陷要引起重視。

如果用於金融或醫療保健中的自動化系統,即使是文本上微小變化,也可能造成很多麻煩。

加州大學歐文分校的助理教授Sameer Singh說,這個調整文本的方法「確實非常有效地為AI系統生成了良好的對手」 。

但是他又表示,這個方法在實踐中很難實施,因為它涉及反覆探測AI系統,這可能會引起懷疑。

加州大學伯克利分校的教授Dawn Song專門研究AI和安全性。她說,這一研究是不斷發展的工作的一部分,該工作表明如何欺騙語言算法,並且各種商業系統可能容易受到某種形式的攻擊。

看來,想讀懂人話,AI還需繼續努力呀。

研究團隊

這項研究由清華大學、香港大學、新加坡科技研究院的研究員共同完成。通訊作者有兩位:

Di Jin

Di Jin,本科畢業於清華大學計算機學院。2020年獲得MIT計算機科學博士學位。目前是MIT的計算機科學與人工智能實驗室的助理研究員。

金致靜

金致靜,高中畢業於上海華東師大二附,本科畢業於香港大學,目前正在申請博士學位。已經在頂級會議NAACL,EMNLP,AAHPM,AAAI上發表了4篇NLP論文。

GitHub地址: https://github.com/jind11/TextFooler

論文地址: https://arxiv.org/pdf/1907.11932.pdf

參考鏈接: https://www.wired.com/story/technique-uses-ai-fool-other-ais/

作者系網易新聞·網易號「各有態度」簽約作者