深度學習在圖像處理的應用一覽

  • 2019 年 10 月 7 日
  • 筆記

計算機視覺的底層,圖像處理,根本上講是基於一定假設條件下的信號重建。這個重建不是3-D結構重建,是指恢複信號的原始信息,比如去噪聲。這本身是一個逆問題,所以沒有約束或者假設條件是無解的,比如去噪最常見的假設就是高斯噪聲。

以前最成功的方法基本是信號處理,傳統機器學習也有過這方面的應用,只是信號處理的約束條件變成了貝葉斯規則的先驗知識,比如稀疏編碼(sparse coding)/字典學習(dictionary learning),MRF/CRF之類。下面討論基於深度學習的方法。

圖像去噪

以DnCNN和CBDNet為例介紹如何將深度學習用於去噪聲。

• DnCNN

最近,由於圖像去噪的鑒別模型學習性能引起了關注。去噪卷積神經網絡(DnCNNs)將深度結構、學習算法和正則化方法用於圖像去噪。

如圖是DnCNN架構圖。給定深度為D的DnCNN,有三種層。(i)Conv + ReLU:第一層,64個大小為3×3×c的濾波器生成64個特徵圖,然後是ReLU,這裡c表示圖像通道數,灰度圖像c = 1,彩色圖像c = 3。(ii)Conv + BN + ReLU:層2~(D-1),64個大小為3×3×64的濾波器,在卷積和ReLU之間添加BN。(iii)Conv:最後一層,c個尺寸3×3×64濾波器來重建輸出。

DnCNN採用殘差學習訓練殘差映射R(y)≈v,然後得到x = y – R(y)。DnCNN模型有兩個主要特徵:採用殘差學習來學習R(y),並結合BN來加速訓練以及提高去噪性能。卷積與ReLU結合,DnCNN通過隱層逐漸將圖像結構與噪聲干擾的觀測分開。這種機制類似於EPLL和WNNM等方法中採用的迭代噪聲消除策略,但DnCNN以端到端的方式進行訓練。

圖中的網絡可用於訓練原始映射F(y)以預測x或殘差映射R(y)以預測v。當原始映射更像是個體映射,殘差映射將更容易優化。注意,噪聲觀察y更像是潛在乾淨圖像x而不是殘差圖像v(特別是噪聲水平低)。因此,F(y)將比R(y)更接近於個體映射,並且殘差學習公式更適合於圖像去噪。

• CBD-Net

為了提高深度去噪模型的魯棒性和實用性,卷積盲去噪網絡(CBD-Net,convolutional blind denoising network)結合了網絡結構、噪聲建模和非對稱學習幾個特點。CBD-Net由噪聲估計子網和去噪子網組成,使用更逼真的噪聲模型進行訓練,考慮到信號相關噪聲和攝像頭內處理流水線。非盲去噪器(例如著名的BM3D)對噪聲估計誤差的不對稱靈敏度,可以使噪聲估計子網抑制低估的噪聲水平。為了使學習的模型適用於真實圖像,基於真實噪聲模型的合成圖像和幾乎無噪聲的真實噪聲圖像合併後訓練CBDNet。

如圖是CBDNet盲去噪架構圖。噪聲模型在基於CNN的去噪性能方面起着關鍵作用。給定一個乾淨的圖像x,更真實的噪聲模型n(x)~N(0,σ(y))可以表示為,

這裡,n(x) = ns(x)+ nc由信號相關噪聲分量ns和靜止噪聲分量nc組成。並且nc被建模為具有噪聲方差σc2的AWGN,但是對於每個像素i,ns的噪聲方差與圖像強度相關,即x(i)·σs2。

CBDNet包括噪聲估計子網CNNE和非盲去噪子網CNND。首先,噪聲估計子網CNNE採用噪聲觀測y來產生估計的噪聲水平圖σˆ(y)= FE(y; WE),其中WE表示CNNE的網絡參數。CNNE的輸出為噪聲水平圖,因為它與輸入y具有相同的大小,並通過全卷積網絡。然後,非盲去噪子網絡CNND將y和σˆ(y)都作為輸入以獲得最終去噪結果x = FD(y,σ(y); WD),其中WD表示CNND的網絡參數。此外,CNNE允許估計的噪聲水平圖σ(y)放入非盲去噪子網絡CNND之前調整。一個簡單的策略是讓ρˆ(y)=γσˆ(y)以交互的方式做去噪計算。

噪聲估計子網CNNE是五層全卷積網絡,沒有池化和批量歸一化(BN)操作。每個卷積層特徵通道32,濾波器大小3×3。在每個卷積層之後有ReLU。與CNNE不同,非盲去噪子網絡CNND採用U-Net架構,以y和σˆ(y)作為輸入,在無噪乾淨圖像給出預測x。通過殘差學習學習殘差映射R(y,σˆ(y); WD)然後預測x = y + R(y,σˆ(y); WD)。CNNE的16層U-Net架構引入對稱跳躍連接、跨步卷積和轉置卷積,來利用多尺度信息並擴大感受野。所有濾波器大小均為3×3,除最後一個,每個卷積層之後加ReLU。

將如下定義的不對稱損失引入噪聲估計子網,並與重建損失結合一起,訓練完整的CBDNet:

此外,引入一個全局變化(TV)正則化來約束σˆ(y)的平滑度,

其中∇h(∇v)表示水平(垂直)方向的梯度算子。

重建損失為

總損失函數

一些結果例子:

圖像去霧

單圖像去霧是一個具有挑戰性的病態問題。現有方法使用各種約束/先驗來獲得似乎合理的除霧解決方案。實現去霧的關鍵是估計輸入霧霾圖像的介質傳輸圖(medium transmission map)。

• DehazeNet

DehazeNet是一個可訓練的端到端系統,用於介質傳輸估計。DehazeNet將霧圖像輸入,輸出其介質傳輸圖,隨後通過大氣散射模型(atmospheric scattering model)恢復無霧圖像。DehazeNet採用CNN的深層架構,設計能體現圖像去霧的假設/先驗知識。具體而言,Maxout單元層用於特徵提取,幾乎所有與霧相關的特徵。還有一種新的非線性激活函數,稱為雙邊整流線性單元(Bilateral Rectified Linear Unit,BReLU),提高圖像的無霧恢復質量。

下圖是DehazeNet架構圖。在概念上DehazeNet由四個順序操作(特徵提取、多尺度映射、局部極值和非線性回歸)組成,它由3個卷積層、最大池化、Maxout單元和BReLU激活函數構成。下面依次介紹四個操作細節。

1) 特徵提取:為了解決圖像去霧問題的病態性,現有方法提出了各種假設,並且基於這些假設,在圖像域密集地提取與霧度相關的特徵,例如,著名的暗通道(dark channel),色調差和顏色衰減等;為此,選擇具有特別激活函數的Maxout單元作為降維非線性映射;通常Maxout用於多層感知器(MLP)或CNN的簡單前饋非線性激活函數;在CNN使用時,對k仿射特徵圖逐像素最大化操作生成新的特徵圖;設計DehazeNet的第一層如下

其中

分別代表濾波器和偏差。

2) 多尺度映射:多尺度特徵已經被證明對於去除霧度是有效的;多尺度特徵提取實現尺度不變性有效;選擇在DehazeNet的第二層使用並行卷積運算,其中任何卷積濾波器的大小在3×3、5×5和7×7之間,那麼第二層的輸出寫為

其中

包含分為3組的n2對參數, n2是第二層的輸出維度,i∈[1,n2]索引輸出特徵圖,⌈⌉向上取整數,表示餘數運算。

3) 局部極值:根據CNN的經典架構,在每個像素考慮鄰域最大值可克服局部靈敏度;另外,局部極值是根據介質傳輸局部恆常的假設,並且通常用於克服傳輸估計的噪聲;第三層使用局部極值運算,即

註:局部極值密集地應用於特徵圖,能夠保持圖像分辨率。

4) 非線性回歸:非線性激活函數的標準選擇包括Sigmoid和ReLU;前者容易受到梯度消失的影響,導致網絡訓練收斂緩慢或局部最優;為此提出了ReLU ,一種稀疏表示方法;不過,ReLU僅在值小於零時才禁止輸出,這可能導致響應溢出,尤其是在最後一層;所以採用一種BReLU激活功能,如圖所示;BReLU保持了雙邊約束(bilateral restraint)和局部線性;這樣,第四層特徵圖定義為

這裡W4 = {W4}包含一個大小為n3×f4×f4的濾波器,B4 = {B4}包含一個偏差,tmin, max是BReLU的邊際值(tmin = 0和tmax = 1) 。根據上式,該激活函數的梯度可以表示為

將上述四層級聯形成基於CNN的可訓練端到端系統,其中與卷積層相關聯的濾波器和偏置是要學習的網絡參數。

• EPDN

論文將圖像去霧問題簡化為圖像到圖像的轉換問題,並提出增強的Pix2pix去霧網絡(EPDN),它可以生成無霧圖像,而不依賴於物理散射模型。EPDN由生成對抗網絡(GAN)嵌入,然後是增強器。一種理論認為視覺感知是全局優先的,那麼鑒別器指導生成器在粗尺度上創建偽真實圖像,而生成器後面的增強器需要在精細尺度上產生逼真的去霧圖像。增強器包含兩個基於感受野模型的增強塊,增強顏色和細節的去霧效果。另外,嵌入式GAN與增強器是一起訓練的。

如圖是EPDN架構的示意圖,由多分辨率生成器模塊,增強器模塊和多尺度鑒別器模塊組成。即使pix2pixHD使用粗到細特徵,結果仍然缺乏細節並且顏色過度。一個可能的原因是現有的鑒別器在引導生成器創建真實細節方面受到限制。換句話說,鑒別者應該只指導生成器恢復結構而不是細節。為了有效地解決這個問題,採用金字塔池化模塊,以確保不同尺度的特徵細節嵌入到最終結果中,即增強塊。從目標識別的全局上下文信息中看出,在各種尺度需要特徵的細節。因此,增強塊根據感受野模型設計,可以提取不同尺度的信息。

如圖是增強塊的架構:有兩個3×3前端卷積層,前端卷積層的輸出縮減,因子分別是4×,8×,16×,32×,這樣構建四尺度金字塔;不同尺度的特徵圖提供了不同的感受域,有助於不同尺度的圖像重建;然後,1×1卷積降維,實際上1×1卷積實現了自適應加權通道的注意機制;之後,將特徵圖上採樣為原始大小,並與前端卷積層的輸出連接在一起;最後,3×3卷積在連接的特徵圖上實現。

在EPDN中,增強器包括兩個增強塊。第一個增強塊輸入是原始圖像和生成器特徵的連接,而這些特徵圖也輸入到第二個增強塊。

• PMS-Net

補丁圖選擇網絡(Patch Map Selection Network,PMS-Net)是一個自適應和自動化補丁尺寸選擇模型,主要選擇每個像素對應的補丁尺寸。該網絡基於CNN設計,可以從輸入圖像生成補丁圖。其去霧算法的流程圖如圖所示。

為了提高該網絡的性能,PMS-Net提出一種有金字塔風格的多尺度U-模塊。基於補丁圖,可預測更精確的大氣光和透射圖。所提出的架構,可以避免傳統DCP的問題(例如,白色或明亮場景的錯誤恢復),恢復圖像的質量高於其他算法。其中,定義了一個名為補丁圖(patch map)的來解決暗通道先驗(DCP)補丁大小固定的問題。

如圖是PMS-Net的架構,分為編碼器和解碼器。最初,輸入的霧圖像和16個3×3內核的濾波器卷積投影到更高維空間。然後,多尺度-U模塊從更高維數據中提取特徵。多尺度U-模塊的設計如圖左側所示。

輸入將通過幾個Multiscale-W-ResBlocks(MSWR),如下圖左側所示。MSWR的設計想法類似Wide-ResNet(WRN),通過增加網絡寬度和減小深度來改進ResNet。每塊中使用快捷方式執行Conv-BN-ReLu-Dropout-Conv-BN-ReLu這一系列操作提取信息。MSWR中多尺度概念類似Inception-ResNet,採用多層技術來增強信息的多樣性,並提取詳細信息。

多尺度U-模塊中的其他部分,Multi-Deconv模塊將信息與MSWR而不是反卷積的輸出連接在一起,因為反卷積層可以幫助網絡重建輸入數據的形狀信息。因此,通過多尺度反卷積組合,可以從網絡前層重建更精確的特徵圖。此外,Multi-Deconv執行金字塔風格並提高尺度與MSWR連接。也就是說,不同層特徵圖以不同的尺度運行去卷積(參見多尺度U-模塊圖右側)。

為保留高分辨率,MSWR和Multi-Deconv模塊的輸出直接連接。然後,特徵圖饋送到網絡更高層的Multi-Deconv模塊和解碼器。解碼器採用全局卷積網絡模塊(global convolutional network modules,GCN)。邊界細化模塊(boundary refinement,BR)也用於邊緣信息保留。上採樣操作升級尺度層。此外,採用緻密連接樣式合併高與低分辨率的信息。PMS-Net可以預測補丁圖。

下圖是一些實驗結果的分析:白色和明亮場景中去霧結果的比較;第1欄:輸入圖像; 第2欄:通過固定尺寸補丁DCP的結果; 第3欄:PMS-Net方法的結果; 第4欄:第2欄和第3欄中白色或亮部的放大; 第5欄:補丁圖; 第6-7欄:分別由DCP和PMS-Net方法估計的介質傳輸圖。

圖像去模糊

這是一種多尺度卷積神經網絡,以端到端的方式恢復清晰的圖像,其中模糊是由各種來源引起的,包括鏡頭運動、景物深度和物體運動。如圖是定義的網絡模型架構圖,稱為ResBlocks:(a)原始殘餘網絡構建塊,(b)該網絡修正的模塊化構建塊;沒有使用批量歸一化(BN)層,因為訓練模型使用的小批量(mini-batch)大小為2,比BN通常要小;在輸出之前去除整流線性單元(ReLU)有利於提高經驗性能。

設計的去模糊多尺度網絡架構見下圖所示:Bk,Lk,Sk分別表示模糊、潛在和GT清晰圖像。下標k表示高斯金字塔第k個尺度層,下採樣到1 / 2k尺度。該模型將模糊的圖像金字塔作為輸入並輸出估計的潛在圖像金字塔。每個中間尺度的輸出都訓練成清晰。在測試時,選擇原始尺度的輸出圖像作為最終結果。

用ResBlocks堆疊足夠數量的卷積層,每個尺度的感受野得以擴展。在訓練時,將輸入和輸出高斯金字塔補丁的分辨率設置為{256×256,128×128,64×64}。連續尺度之間的比例(scale ratio)是0.5。對所有卷積層,濾波器大小為5×5。因為模型是全卷積,在測試時補丁大小可能變化。

定義一個多尺度損失函數模擬傳統的粗到精方法

其中Lk,Sk分別表示在尺度層k的模型輸出圖像和GT圖像。而對抗損失函數定義為

其中G和D分別是生成器和鑒別器。最終的損失函數是

一些結果如圖所示,有幾個縮放的局部細節。

具有深度覺察和視角聚合(Depth Awareness and View Aggregation)的網絡DAVANet是一個立體圖像去模糊網絡。網絡中來自兩個視圖有深度和變化信息的3D場景線索合併在一起,動態場景中有助於消除複雜空間變化的模糊。具體而言,通過這個融合網絡,將雙向視差估計和去模糊整合到一個統一框架中。

下圖描述立體視覺帶來的模糊:(a)是與圖像平面平行的相對平移引起的深度變化模糊,(b)和(c)是沿深度方向的相對平移和旋轉引起的視角變化模糊。注意,所有複雜運動可以分解為這三個相對子運動模式。

如圖(a)所示,我們可以得到:

其中ΔX,ΔP,f和z分別表示模糊的大小、目標點的運動、焦距和目標點的深度。

如圖(b)所示,我們知道:

其中b是基線,h是左攝像頭CL和線段PtPt+1之間的距離。

如圖(c)所示,兩個鏡頭的速度vCL,vCR與相應旋轉半徑CLO,CRO成正比,即

DAVANet總體流程圖如圖所示,由三個子網絡組成:用於單鏡頭去模糊的DeblurNet,用於雙向視差估計的DispBiNet,和以自適應選擇方式融合深度和雙視角信息的FusionNet。這裡採用小卷積濾波器(3×3)來構造這三個子網絡,因為大型濾波器並不能提高性能。

DeblurNet的結構基於U-Net,如圖(a)所示。用基本殘差模塊作為構建塊,編碼器輸出特徵為輸入尺寸的1/4×1/4。之後,解碼器通過兩個上採樣殘差塊全分辨率重建清晰圖像。在編碼器和解碼器之間使用相應特徵圖之間的跳連接(skip-connections)。此外,還採用輸入和輸出之間的殘差連接。這使網絡很容易估計模糊-尖銳(blurry-sharp)圖像對之間的殘差並保持顏色一致性。還有,在編碼器和解碼器之間使用兩個空洞殘差(atrous residual)塊和一個Context模塊來獲得更豐富的特徵。DeblurNet對兩個視圖使用共享權重。

受以前DispNet模型結構的啟發,採用一個小型DispBiNet,如圖(b)所示。與DispNet不同,DispBiNet可以預測一個前向過程的雙向視差。輸出是完整分辨率,網絡有三次下採樣和上採樣操作。此外,DispBiNet中還使用了殘差塊、空洞殘差塊和Context模塊。

為了嵌入多尺度特徵,DeblurNet和DispBiNet採用Context模塊,它包含具有不同擴張率(dilated rate)的並行擴張卷積(dilated convolution),如圖所示。四個擴張率是設置為1, 2, 3, 4。Context模塊融合更豐富的分級上下文信息,有利於消除模糊和視差估計。

為了利用深度和雙視角信息去模糊,引入融合網絡FusionNet來豐富具有視差和雙視角的特徵。如圖所示,FusionNet採用原始立體圖像IL,IR,估計的左視圖DL視差,DispBiNet倒數第二層的特徵FD和DeblurNet編碼器的特徵FL,FR作為輸入,以生成融合特徵FLfuse。

為雙視角聚合,估計的左目視差DL將DeblurNet的右目特徵FR變形到左目,即為WL(FR)。不用直接連接WL(FR)和FL,而是子網GateNet生成從0到1的軟門圖(soft gate map)GL。門圖可以自適應選擇方式用來融合特徵FL和WL(FR),即選擇有用的特徵,並從另一個視角拒絕不正確的特徵。例如,在遮擋或錯誤視差區域,門圖值往往為0,這表明只採用參考視角F L的特徵。GateNet由五個卷積層組成,如圖所示,輸入是左圖像IL和變形的右圖像WL(IR)的絕對差,即| IL – WL(IR)|,輸出是單通道的門圖。所有特徵通道共享相同的門圖以生成聚合特徵:

為深度覺察,使用三個卷積層的子網絡DepthAwareNet,而且兩個視角不共享該子網絡。給定視差DL和DispBiNet的倒數第二層特徵FD,DepthAwareNet-left產生深度關聯的特徵FL。事實上,DepthAwareNet隱式地學習深度覺察的先驗知識,這有助於動態場景的去模糊。

最後,連接原始左圖特徵FL,視角聚合特徵FLviews和深度覺察特徵FLdepth生成融合的左視角特徵FLfuse。然後,將FLfuse供給DeblurNet的解碼器。同理,採用FusionNet一樣的架構可以得到右視角的融合特徵。

DeblurNet損失函數包括兩個部分:MSE損失和感知損失,即

其中

DispBiNet的視差損失函數如下:

如圖顯示的是視差對去模糊的作用:(a)(f)(g)和(h)分別表示模糊圖像、清晰圖像、預測的視差和GT視差。(b)和(e)是單目去模糊網絡DeblurNet和雙目去模糊網絡DAVANet的結果。在(c),兩個左圖像輸入,DispBiNet不能為深度覺察和視角聚合提供任何深度信息或視差。在(d)中,為了消除視角聚合的影響,不會從FusionNet中其他視圖變形該特徵。由於該網絡可以準確估計和採用視差,因此其性能優於其他方法

圖像增強

• Deep Bilateral Learning

這是一種做圖像增強的神經網絡架構,其靈感來自雙邊網格處理(bilateral grid processing)和局部仿射顏色變換。基於輸入/輸出圖像對,訓練卷積神經網絡來預測雙邊空間(bilateral space)局部仿射模型的係數。網絡架構目的是學習如何做出局部的、全局的和依賴於內容的決策來近似所需的圖像變換。輸入神經網絡是低分辨率圖像,在雙邊空間生成一組仿射變換,以邊緣保留方式切片(slicing)節點對這些變換進行上採樣,然後變換到全分辨率圖像。該模型是從數據離線訓練的,不需要在運行時訪問原始操作。這樣模型可以學習複雜的、依賴於場景的變換。

如圖所示,對低分辨率的輸入I的低分辨率副本I~執行大部分推斷(圖頂部),類似於雙邊網格(bilateral grid)方法,最終預測局部仿射變換。圖像增強通常不僅取決於局部圖像特徵,還取決於全局圖像特徵,如直方圖、平均強度甚至場景類別。因此,低分辨率流進一步分為局部路徑和全局路徑。將這兩條路徑融合在一起,則生成代表仿射變換的係數。

而高分辨率流(圖底部)在全分辨率模式工作,執行最少的計算,但有捕獲高頻效果和保留邊緣的作用。為此,引入了一個切片節點。該節點基於學習的導圖(guidance map)在約束係數的低分辨率格點做數據相關查找。基於全分辨率導圖,給定網格切片獲得的高分辨率仿射係數,對每個像素做局部顏色變換,產生最終輸出O。在訓練時,在全分辨率下最小化損失函數。這意味着,僅處理大量下採樣數據的低分辨率流,仍然可以學習再現高頻效果的中間特徵和仿射係數。

下面可以從一些例子看到各個改進的效果。如圖所示,低級卷積層具備學習能力,可以提取語義信息。用標準雙邊網格的噴濺操作(splatting operation)替換這些層會導致網絡失去很大的表現力。

如圖所示,全局特徵路徑允許模型推理完整圖像,(a)例如再現通過強度分佈或場景類型的調整。(b)如果沒有全局路徑,模型可以做出空間不一致的局部決策。

如圖所示,新切片節點對架構的表現力及其對高分辨率效果的處理至關重要。用反卷積濾波器組替換該節點會降低表現力(b),因為沒有使用全分辨率數據來預測輸出像素。由於全分辨率導圖,切片層以更高的保真度(c)逼近。

如圖所示,(b)HDR的亮度畸變,特別是在前額和臉頰的高光區域出現的海報化畸變(posterization artifacts)。相反,切片節點的導圖使(c)正確地再現(d)基礎事實GT。

• Deep Photo Enhancer

它提出一種不成對學習(unpaired learning)的圖像增強方法。給定一組具有所需特徵的照片,該方法學習一種照片增強器,將輸入圖像轉換為具有這些特徵的增強圖像。在基於雙路(two-way)生成對抗網絡(GAN)框架基礎上,改進如下:1)基於全局特徵擴充U-Net,而全局U-Net是GAN模型的生成器;2)用自適應加權方案改進Wasserstein GAN(WGAN),訓練收斂更快更好,對參數敏感度低於WGAN-GP;3)在雙路GAN的生成器採用單獨BN層,有助於生成器更好地適應自身輸入分佈,提高GAN訓練的穩定性。

如圖介紹了雙路GAN的架構。(a)是單向GAN的架構。給定輸入x∈X,生成器GX將x變換為y'= GX(x)∈Y。鑒別器DY旨在區分目標域{y}中的樣本和生成的樣本{y'= GX(x)}。為了實現循環一致性,雙路GAN被採用,例如CycleGAN 和DualGAN 。它們需要G'Y(GX(x))= x,其中生成器G'Y採用GX生成的樣本並將其映射回源域X。此外,雙路GAN通常包含前向映射(X →Y)和後向映射(Y→X)。(b)顯示了雙路GAN的體系結構。在前向傳播時,

,檢查x''和x之間的一致性。在後向傳播時,

,檢查y和y''之間的一致性。

如圖是GAN的生成器和鑒別器架構。生成器器基於U-Net,但添加全局特徵。為了提高模型效率,全局特徵的提取與U-Net的收縮部分共享前五層局部特徵的提取。每個收縮步驟包括5×5濾波、步幅為2、SELU激活和BN。對全局特徵來說,假定第五層是32×32×128特徵圖,收縮後進一步減小到16×16×128然後8×8×128。通過全連接層、SELU激活層和另一個全連接層,將8×8×128特徵圖減少到1×1×128。然後將提取的1×1×128全局特徵複製32×32個拷貝,並和低級特徵32×32×128之後相連接,得到32×32×256特徵圖,其同時融合了局部和全局特徵。在融合的特徵圖上執行U-Net的擴展路徑。最後,採用殘差學習的思想,也就是說,生成器只學習輸入圖像和標註圖像之間的差異。

WGAN依賴於訓練目標的Lipschitz約束:當且僅當它梯度模最多是1時,一個可微函數是1-Lipschtiz 。為了滿足約束條件,WGAN-GP通過添加以下梯度懲罰直接約束鑒別器相對於其輸入的輸出梯度模,

其中yˆ是沿目標分佈與生成器分佈之間的直線的採樣點。

參數λ加權原鑒別器損失的懲罰。λ確定梯度趨進1的趨勢。如果λ太小,無法保證Lipschitz約束。另一方面,如果λ太大,則收斂可能緩慢,因為懲罰可能過重加權鑒別器損失。λ的選擇很重要。相反,使用以下梯度懲罰,

這更好地反映了要求梯度小於或等於1並且僅懲罰大於1部分的Lipschitz約束。更重要的是,可採用自適應加權方案調整權重λ,選擇適當的權重,即梯度位於所需的間隔內,比如[1.001, 1.05]。如果滑動窗(大小= 50)內的梯度移動平均值(moving average of gradients)大於上限,則意味着當前權重λ太小而且懲罰力不足以確保Lipschitz約束。因此,通過加倍權重來增加λ。另一方面,如果梯度移動平均值小於下限,則將λ衰減一半,這樣就不會變得太大。這個改進,稱為A-GAN(自適應GAN)。

前面圖(a)生成器作GX而圖(b)鑒別器用作DY,得到以前圖(a)單路GAN的架構。同樣推廣A-GAN可以得到如以前圖(b)的雙路GAN架構。

• Deep Illumination Estimation

這是一種基於神經網絡增強曝光不足照片的方法,其中引入中間照明(intermediate illumination),將輸入與預期的增強結果相關聯,也加強了網絡的能力,能夠從專家修改的輸入/輸出圖像對學習複雜的攝影修整過程。基於該模型,用照明的約束和先驗定義一個損失函數,並訓練網絡有效地學習各種照明條件的修整過程。通過這些方式,網絡能夠恢復清晰的細節,鮮明的對比度和自然色彩。

從根本上說,圖像增強任務可以被稱為尋找映射函數F,從輸入圖像I增強,I ̃ = F(I)是期望的圖像。在Retinex的圖像增強方法中,F的倒數通常建模為照明圖S,其以像素方式與反射圖像I ̃相乘產生觀察圖像I:I = S * I ̃。

可以將反射分量I ̃視為曝光良好的圖像,因此在模型中,I ̃作為增強結果,I作為觀察到的未曝光圖像。一旦S已知,可以通過F(I)= S-1 * I獲得增強結果I ̃. S被模型化為多通道(R,G,B)數據而不是單通道數據,以增加其在顏色增強方面的能力,尤其是處理不同顏色通道的非線性特性。

如圖是網絡的流水線圖。增強曝光不足的照片需要調整局部(對比度,細節清晰度,陰影和高光)和全局特徵(顏色分佈,平均亮度和場景類別)。從編碼器網絡生成的特徵考慮局部和全局上下文信息,見圖上部。為了驅動網絡學習從輸入的曝光不足圖像(Ii)到相應的專家修飾圖像(I ̃)的照明映射,設計了一種損失函數,具有照明平滑度先驗知識以及增強的重建和顏色損失,見圖底部。這些策略有效地從(Ii,I ̃i)學習S,通過各種各樣的照片調整來恢復增強的圖像。值得一提的是,該方法學習低分辨率下預測圖像-照明映射的局部和全局特徵,同時基於雙邊網格的上採樣將低分辨率預測擴展到全分辨率,系統實時性好。

下圖展示了一些增強的結果例子(上:輸入,下:增強)。


參考文獻

  • 1. K Zhang et al., 「Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising」,IEEE T-IP,2017
  • 2. A Ignatov et al., 「DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks「,arXiv 1704.02470, 2017
  • 3. P. Svoboda et al., 「Compression artifacts removal using convolutional neural networks」. arXiv 1605.00366, 2016.
  • 4. B. Cai et al.,」Dehazenet: An end-to-end system for single image haze removal」. IEEE T-IP, 2016
  • 5. X. Mao, C. Shen, Y.-B. Yang. 「Image restoration using very deep convolutional encoder-decoder networks with symmetric skip connections」. Advances in Neural Information Processing Systems 29, 2016
  • 6. Z. Yan et al., 「Automatic photo adjustment using deep neural networks」. ACM Trans. Graph., 2016
  • 7. M Gharbi et al.,「Deep Bilateral Learning for Real-Time Image Enhancement」, arXiv 1707.02880, 2017
  • 8. S Nah, T Kim, K Lee,「Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring」, CVPR, 2017
  • 9. Y Chen et al.,「Deep Photo Enhancer: Unpaired Learning for Image Enhancement from Photographs with GANs」, CVPR, 2018.
  • 10. J Zhang et al., "Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks", CVPR 2018.
  • 11. S Guo et al.,「Toward Convolutional Blind Denoising of Real Photographs」, CVPR, 2019
  • 12. R Wang et al.,「Underexposed Photo Enhancement using Deep Illumination Estimation」, CVPR 2019.
  • 13. Y Qu et al.,「Enhanced Pix2pix Dehazing Network」, CVPR, 2019
  • 14. S Zhou et al.,「DAVANet: Stereo Deblurring with View Aggregation」, CVPR 2019.
  • 15. W Chen, J Ding, S Kuo,「PMS-Net: Robust Haze Removal Based on Patch Map for Single Images」, CVPR, 2019