給GPT-2加上「人類偏好」補丁，它說的話就越來越有人情味了丨代碼已開源 - ⎝⎛CodingNote.cc ⎞⎠

給GPT-2加上「人類偏好」補丁，它說的話就越來越有人情味了丨代碼已開源

2019 年 10 月 6 日
筆記

OpenAI家的知名語言模型GPT-2，現在越來越「會說話」了。

774M參數的GPT-2模型，學習了人類為它編製的一共有65000個帶有人類偏好的標籤，微調後，學會了兩個「投其所好」的新技能：

一個是按照特定要求續寫，甚至寫出「神轉折」的句子；

另一個是寫文章的摘要。

這個更新受到熱烈歡迎，有人已經迫不及待的想讓GPT-2充當文案，開始接活寫文章了。

甚至，還有人跟OpenAI打趣：

你這條公布更新的推特，是不是GPT-2自己寫的？

續寫

按照特定要求來續寫，只需要補充5000個人類偏好標籤。

一種是讓GPT-2完成情緒上的要求，比如把原本嚴肅的文本，續寫成積極的情緒。

比如這段文本，看起來是個老爹訓孩子的場景：

「我是不是警告過他們了，歐文？」「是的，爸爸，」歐文機械的回答。「我聽到你警告他們了。」「那格特魯德和孩子們呢？」傑森追問不休。

文中這個叫傑森的爸爸，看起來實在是很兇的樣子，要怎麼把這麼一段追問轉折成一個積極的場景呢？

沒有學習過人類偏好標籤的原始GPT-2是這樣子續寫：

「我不知道。我只知道我們必須得走了，」歐文說。

好像歐文這個當兒子的還是一樣機械冷靜，一點都不積極啊？

再看學過人類偏好標籤的升級版GPT-2，簡直是個暖男：

「他們見到我很開心。我對他們很自豪。我們都這麼覺得。」

前一秒好像還是老爹要找格特魯德算賬，下一秒就變成了親密的一家人，頓時就積極向上、充滿溫情，簡直神轉折。

再看另一種，讓GPT-2完成具體描述，比如針對物理實體進行描述，也就是語文老師說的「寫實的手法」：

看這段對「菜地」的描述：

我們穿過了通往房頂的門道。這裡，我們在一個非常潮濕的玻璃結構里。地板上有長長的木槽，裏面種着很多健康的植物。我馬上認出了西紅柿、甜瓜、生菜、青豆和無數種其他植物。

沒有學習過人類偏好標籤的原始GPT-2是這樣子續寫：

我意識到儲存在木槽中的食物都是以我能感到最遠的距離收穫的。

這個……算了，GPT-2一直都是這麼抽象，不理他了，來看升級版：

空氣中充滿了泥土的芬芳，而且空氣好像被冷卻了一樣。

「泥土的芬芳」、「冷卻」都是對物理環境的詳細描述，及格了。

前面的兩個案例，無論是讓GPT-2從情感維度還是從描述維度創作，用到的人類偏好標籤都是同一波。

從結果上看，OpenAI給出的官方數據是學習過人類偏好標籤的升級版GPT-2，在這兩類任務上分別有88%和86%的次數比原始版給出的續寫要好。

寫摘要

另外的一個技能是寫摘要，完整這個技能需要60000個人類偏好標籤。

OpenAI用兩種任務來考驗這個升級版的GPT-2：

一個是給CNN和《每日郵報》這種正經媒體的文章寫摘要；

另一個是給Reddit的文本片段寫摘要。

先來看給正經媒體寫出來的摘要，原文寫的是關於讓人開心/不開心因素，列舉了讓主角Janet Street-Porter不開心的一些要素。

Zero-Shot和有監督兩種情況下，未經過微調和經過微調的摘要分別如下：

可以看出，Zero-Shot baseline給出的結果離題萬里，藉助人類偏好標籤微調後效果好一些；有監督的baseline相對好一些，經過微調後看起來就很正兒八經了。

而Reddit的原文，描述的是說服朋友空氣阻力對物體下降速度的影響。

四種情況的摘要分別如下：

Baseline依然非常離譜，而加了人類標籤偏好微調後，基本就把前面那段話的意義表述出來了。

最後，為了從數據上說明，OpenAI還找這些文本的原作者，來評價AI們生成的摘要是否準確。

從原作者評價來看，經過微調後的模型生成效果讓原作者們更為認可。

傳送門

OpenAI官方介紹博客： https://openai.com/blog/fine-tuning-gpt-2/

論文： Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. Brown, Alec Radford, Dario Amodei, Paul Christiano, Geoffrey Irving https://arxiv.org/abs/1909.08593

GitHub： https://github.com/openai/lm-human-preferences

— 完 —

Previous post

數據備份用DG還是RMAN?

Next post

B+Tree索引原理