優秀的你,正在拼搏沒?
- 2019 年 10 月 5 日
- 筆記
生成式對抗網絡初期知識——Gan(一)
【今日知圖】
括號切換
% 括號匹配及切換
0.說在前面1.生成式對抗網絡前奏2.基本思想3.生成模型與判別模型4.生成式對抗網絡5.基本原理
0.說在前面
今天迎來了我公眾號第一篇投稿方,也就是大家所看到的的本篇文章,下面是作者介紹!
川大本科軟件工程劉瑞航,LeoLRH,研究方向,遙感圖像相關融合,現在的目的就是盡量保研,Never to be the low, fight for the best!
本篇所有歸屬權為該作者所有!下面一起來看優秀本科生對生成對抗網絡的認識!
1.生成式對抗網絡前奏
是近些年來最火的無監督學習方法之一,模型由 Goodfellow 等人在 2014 年首次提出,將博弈論中非零和博弈思想與生成模型結合在一起,巧妙避開了傳統生成模型中概率密度估計困難等問題,是生成模型達到良好的效果。
2.基本思想
囚徒困境
1950 年,由就職於蘭德公司的梅里爾 · 弗勒德和梅爾文 · 德雷希爾擬定出相關困境的理論,後來由顧問艾伯特 · 塔克以囚徒方式闡述,並命名為 「囚徒困境」。經典的囚徒困境如下:
警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人有罪。於是警方分開囚禁嫌疑犯,分別和二人見面,並向雙方提供以下相同的選擇:
- 若一人認罪並作證檢控對方(相關術語稱 「背叛」 對方),而對方保持沉默,此人將即時獲釋,沉默者將判監 10 年。
- 若二人都保持沉默(相關術語稱互相 「合作」),則二人同樣判監半年。
- 若二人都互相檢舉(互相 「背叛」),則二人同樣判監 5 年。
納什均衡與帕累托最優
如同博弈論的其他例證(詳細了解統計學習),囚徒困境假定每個參與者(即 「囚徒」)都是利己的,即都尋求最大自身利益,而不關心另一參與者的利益。那麼囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方選擇;而即使他們能交談,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇:
- 若對方沉默、我背叛會讓我獲釋,所以會選擇背叛。
- 若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。
- 二人面對的情況一樣,所以二人的理性思考都會得出相同的結論——選擇背叛。
背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡,就是雙方參與者都背叛對方,結果二人同樣服刑 5 年。 這場博弈的納什均衡。
而這顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑半年,總體利益更高,結果也比兩人背叛對方、判刑 5 年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結果二人判監均比合作為高,總體利益較合作為低。這就是 「困境」 所在。
這個例子有效地證明了:非零和博弈中,帕累托最優和納什均衡是互相衝突的。
這個例子轉換成機器學習而言,就是: 生成模型與判別模型
3.生成模型與判別模型
機器學習的任務就是學習一個模型,應用這個模型,對給定的輸入預測相應的輸出。這個模型的一般形式為決策函數 Y=f(x),或者條件概率分佈:Y=argmaxP(Y|X)。
機器學習方法又可以分為生成方法和判別方法,所利用的的模型分別稱為生成模型(Generative Model)和判別模型(Discriminative Model)。
判別方法由數據直接學習決策函數 f(X),或者條件概率分佈 P(Y|X) 作為預測模型,即判別模型。
生成方法由數據學習聯合分佈 P(X,Y),然後求出條件概率分佈 P(Y|X) 做預測的模型,即為生成模型,具體公式如下:P(Y|X)=P(X,Y)/P(X)(樸素貝葉斯公式)
相比於判別方法,生成模型更關注數據之間的內在聯繫,需要學習聯合分佈;而判別模型更關注於給定輸入 X,模型應該預測怎麼樣的輸出 Y。由生成模型可以推導出判別模型,反之則不能。
4.生成式對抗網絡
什麼是對抗生成網絡?用 Ian Goodfellow 自己的話來說:
生成對抗網絡是一種生成模型(Generative Model),其背後基本思想就是從訓練庫里獲取很多訓練樣本,從而學習這些訓練案例生成的概率分佈。而實現的方法,是讓兩個網絡相互競爭,『玩一個遊戲』。其中一個叫做生成器網絡( Generator Network),它不斷捕捉訓練庫里真實圖片的概率分佈,將輸入的隨機噪聲(Random Noise)轉變成新的樣本(也就是假數據)。另一個叫做判別器網絡(Discriminator Network),它可以同時觀察真實和假造的數據,判斷這個數據到底是不是真的。」
5.基本原理
生成對抗網絡是一個強大的基於博弈論的生成模型學習框架。該模型由 GoodFellow 在 2014 年首次提出,結合了生成模型和對抗學習思想。生成對抗網絡的目的是訓練一個生成模型 G,給定隨機噪聲向量 noise,生成符合真實數據分佈的樣本。 G 訓練信號來自於判別器 D(x)。 D(x) 的學習目標目是準確區分輸入樣本的來源(真實數據或生成數據), 而生成器 D 的學習目標是生成儘可能真實的數據,使得判別器 G 認為生成數據是真實的。整個模型使用梯度下降法進行訓練,生成器和判別器可以根據特定的任務選擇具體的模型,包括但不限於全連接神經網絡(FCN)、卷積神經網絡(CNN)、回歸神經網絡(RNN)、長短期記憶模型(LSTM)等。
