給GPT-2加上「人類偏好」補丁,它說的話就越來越有人情味了丨代碼已開源

  • 2019 年 10 月 6 日
  • 筆記

OpenAI家的知名語言模型GPT-2,現在越來越「會說話」了。

774M參數的GPT-2模型,學習了人類為它編製的一共有65000個帶有人類偏好的標籤,微調後,學會了兩個「投其所好」的新技能:

一個是按照特定要求續寫,甚至寫出「神轉折」的句子;

另一個是寫文章的摘要

這個更新受到熱烈歡迎,有人已經迫不及待的想讓GPT-2充當文案,開始接活寫文章了。

甚至,還有人跟OpenAI打趣:

你這條公布更新的推特,是不是GPT-2自己寫的?

續寫

按照特定要求來續寫,只需要補充5000個人類偏好標籤。

一種是讓GPT-2完成情緒上的要求,比如把原本嚴肅的文本,續寫成積極的情緒。

比如這段文本,看起來是個老爹訓孩子的場景:

「我是不是警告過他們了,歐文?」 「是的,爸爸,」歐文機械的回答。「我聽到你警告他們了。」 「那格特魯德和孩子們呢?」傑森追問不休。

文中這個叫傑森的爸爸,看起來實在是很兇的樣子,要怎麼把這麼一段追問轉折成一個積極的場景呢?

沒有學習過人類偏好標籤的原始GPT-2是這樣子續寫:

「我不知道。我只知道我們必須得走了,」歐文說。

好像歐文這個當兒子的還是一樣機械冷靜,一點都不積極啊?

再看學過人類偏好標籤的升級版GPT-2,簡直是個暖男:

「他們見到我很開心。我對他們很自豪。我們都這麼覺得。」

前一秒好像還是老爹要找格特魯德算賬,下一秒就變成了親密的一家人,頓時就積極向上、充滿溫情,簡直神轉折。

再看另一種,讓GPT-2完成具體描述,比如針對物理實體進行描述,也就是語文老師說的「寫實的手法」:

看這段對「菜地」的描述:

我們穿過了通往房頂的門道。這裡,我們在一個非常潮濕的玻璃結構里。地板上有長長的木槽,裏面種着很多健康的植物。我馬上認出了西紅柿、甜瓜、生菜、青豆和無數種其他植物。

沒有學習過人類偏好標籤的原始GPT-2是這樣子續寫:

我意識到儲存在木槽中的食物都是以我能感到最遠的距離收穫的。

這個……算了,GPT-2一直都是這麼抽象,不理他了,來看升級版:

空氣中充滿了泥土的芬芳,而且空氣好像被冷卻了一樣。

「泥土的芬芳」、「冷卻」都是對物理環境的詳細描述,及格了。

前面的兩個案例,無論是讓GPT-2從情感維度還是從描述維度創作,用到的人類偏好標籤都是同一波。

從結果上看,OpenAI給出的官方數據是學習過人類偏好標籤的升級版GPT-2,在這兩類任務上分別有88%和86%的次數比原始版給出的續寫要好。

寫摘要

另外的一個技能是寫摘要,完整這個技能需要60000個人類偏好標籤。

OpenAI用兩種任務來考驗這個升級版的GPT-2:

一個是給CNN和《每日郵報》這種正經媒體的文章寫摘要;

另一個是給Reddit的文本片段寫摘要。

先來看給正經媒體寫出來的摘要,原文寫的是關於讓人開心/不開心因素,列舉了讓主角Janet Street-Porter不開心的一些要素。

Zero-Shot和有監督兩種情況下,未經過微調和經過微調的摘要分別如下:

可以看出,Zero-Shot baseline給出的結果離題萬里,藉助人類偏好標籤微調後效果好一些;有監督的baseline相對好一些,經過微調後看起來就很正兒八經了。

而Reddit的原文,描述的是說服朋友空氣阻力對物體下降速度的影響。

四種情況的摘要分別如下:

Baseline依然非常離譜,而加了人類標籤偏好微調後,基本就把前面那段話的意義表述出來了。

最後,為了從數據上說明,OpenAI還找這些文本的原作者,來評價AI們生成的摘要是否準確。

從原作者評價來看,經過微調後的模型生成效果讓原作者們更為認可。

傳送門

OpenAI官方介紹博客: https://openai.com/blog/fine-tuning-gpt-2/

論文: Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. Brown, Alec Radford, Dario Amodei, Paul Christiano, Geoffrey Irving https://arxiv.org/abs/1909.08593

GitHub: https://github.com/openai/lm-human-preferences