給GPT-2加上「人類偏好」補丁,它說的話就越來越有人情味了丨代碼已開源
- 2019 年 10 月 6 日
- 筆記
OpenAI家的知名語言模型GPT-2,現在越來越「會說話」了。
774M參數的GPT-2模型,學習了人類為它編製的一共有65000個帶有人類偏好的標籤,微調後,學會了兩個「投其所好」的新技能:
一個是按照特定要求續寫,甚至寫出「神轉折」的句子;
另一個是寫文章的摘要。
這個更新受到熱烈歡迎,有人已經迫不及待的想讓GPT-2充當文案,開始接活寫文章了。
甚至,還有人跟OpenAI打趣:
你這條公布更新的推特,是不是GPT-2自己寫的?
續寫
按照特定要求來續寫,只需要補充5000個人類偏好標籤。
一種是讓GPT-2完成情緒上的要求,比如把原本嚴肅的文本,續寫成積極的情緒。
比如這段文本,看起來是個老爹訓孩子的場景:
「我是不是警告過他們了,歐文?」 「是的,爸爸,」歐文機械的回答。「我聽到你警告他們了。」 「那格特魯德和孩子們呢?」傑森追問不休。
文中這個叫傑森的爸爸,看起來實在是很兇的樣子,要怎麼把這麼一段追問轉折成一個積極的場景呢?
沒有學習過人類偏好標籤的原始GPT-2是這樣子續寫:
「我不知道。我只知道我們必須得走了,」歐文說。
好像歐文這個當兒子的還是一樣機械冷靜,一點都不積極啊?
再看學過人類偏好標籤的升級版GPT-2,簡直是個暖男:
「他們見到我很開心。我對他們很自豪。我們都這麼覺得。」
前一秒好像還是老爹要找格特魯德算賬,下一秒就變成了親密的一家人,頓時就積極向上、充滿溫情,簡直神轉折。
再看另一種,讓GPT-2完成具體描述,比如針對物理實體進行描述,也就是語文老師說的「寫實的手法」:
看這段對「菜地」的描述:
我們穿過了通往房頂的門道。這裡,我們在一個非常潮濕的玻璃結構里。地板上有長長的木槽,裏面種着很多健康的植物。我馬上認出了西紅柿、甜瓜、生菜、青豆和無數種其他植物。
沒有學習過人類偏好標籤的原始GPT-2是這樣子續寫:
我意識到儲存在木槽中的食物都是以我能感到最遠的距離收穫的。
這個……算了,GPT-2一直都是這麼抽象,不理他了,來看升級版:
空氣中充滿了泥土的芬芳,而且空氣好像被冷卻了一樣。
「泥土的芬芳」、「冷卻」都是對物理環境的詳細描述,及格了。
前面的兩個案例,無論是讓GPT-2從情感維度還是從描述維度創作,用到的人類偏好標籤都是同一波。
從結果上看,OpenAI給出的官方數據是學習過人類偏好標籤的升級版GPT-2,在這兩類任務上分別有88%和86%的次數比原始版給出的續寫要好。
寫摘要
另外的一個技能是寫摘要,完整這個技能需要60000個人類偏好標籤。
OpenAI用兩種任務來考驗這個升級版的GPT-2:
一個是給CNN和《每日郵報》這種正經媒體的文章寫摘要;
另一個是給Reddit的文本片段寫摘要。
先來看給正經媒體寫出來的摘要,原文寫的是關於讓人開心/不開心因素,列舉了讓主角Janet Street-Porter不開心的一些要素。
Zero-Shot和有監督兩種情況下,未經過微調和經過微調的摘要分別如下:
可以看出,Zero-Shot baseline給出的結果離題萬里,藉助人類偏好標籤微調後效果好一些;有監督的baseline相對好一些,經過微調後看起來就很正兒八經了。
而Reddit的原文,描述的是說服朋友空氣阻力對物體下降速度的影響。
四種情況的摘要分別如下:
Baseline依然非常離譜,而加了人類標籤偏好微調後,基本就把前面那段話的意義表述出來了。
最後,為了從數據上說明,OpenAI還找這些文本的原作者,來評價AI們生成的摘要是否準確。
從原作者評價來看,經過微調後的模型生成效果讓原作者們更為認可。
傳送門
OpenAI官方介紹博客: https://openai.com/blog/fine-tuning-gpt-2/
論文: Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. Brown, Alec Radford, Dario Amodei, Paul Christiano, Geoffrey Irving https://arxiv.org/abs/1909.08593
GitHub: https://github.com/openai/lm-human-preferences
— 完 —