深度學習在影像處理的應用一覽
- 2019 年 10 月 7 日
- 筆記
電腦視覺的底層,影像處理,根本上講是基於一定假設條件下的訊號重建。這個重建不是3-D結構重建,是指恢復訊號的原始資訊,比如去雜訊。這本身是一個逆問題,所以沒有約束或者假設條件是無解的,比如去噪最常見的假設就是高斯雜訊。
以前最成功的方法基本是訊號處理,傳統機器學習也有過這方面的應用,只是訊號處理的約束條件變成了貝葉斯規則的先驗知識,比如稀疏編碼(sparse coding)/字典學習(dictionary learning),MRF/CRF之類。下面討論基於深度學習的方法。
影像去噪
以DnCNN和CBDNet為例介紹如何將深度學慣用於去雜訊。
• DnCNN
最近,由於影像去噪的鑒別模型學習性能引起了關注。去噪卷積神經網路(DnCNNs)將深度結構、學習演算法和正則化方法用於影像去噪。
如圖是DnCNN架構圖。給定深度為D的DnCNN,有三種層。(i)Conv + ReLU:第一層,64個大小為3×3×c的濾波器生成64個特徵圖,然後是ReLU,這裡c表示影像通道數,灰度影像c = 1,彩色影像c = 3。(ii)Conv + BN + ReLU:層2~(D-1),64個大小為3×3×64的濾波器,在卷積和ReLU之間添加BN。(iii)Conv:最後一層,c個尺寸3×3×64濾波器來重建輸出。
DnCNN採用殘差學習訓練殘差映射R(y)≈v,然後得到x = y – R(y)。DnCNN模型有兩個主要特徵:採用殘差學習來學習R(y),並結合BN來加速訓練以及提高去噪性能。卷積與ReLU結合,DnCNN通過隱層逐漸將影像結構與雜訊干擾的觀測分開。這種機制類似於EPLL和WNNM等方法中採用的迭代雜訊消除策略,但DnCNN以端到端的方式進行訓練。
圖中的網路可用於訓練原始映射F(y)以預測x或殘差映射R(y)以預測v。當原始映射更像是個體映射,殘差映射將更容易優化。注意,雜訊觀察y更像是潛在乾淨影像x而不是殘差影像v(特別是雜訊水平低)。因此,F(y)將比R(y)更接近於個體映射,並且殘差學習公式更適合於影像去噪。
• CBD-Net
為了提高深度去噪模型的魯棒性和實用性,卷積盲去噪網路(CBD-Net,convolutional blind denoising network)結合了網路結構、雜訊建模和非對稱學習幾個特點。CBD-Net由雜訊估計子網和去噪子網組成,使用更逼真的雜訊模型進行訓練,考慮到訊號相關雜訊和攝影機內處理流水線。非盲去噪器(例如著名的BM3D)對雜訊估計誤差的不對稱靈敏度,可以使雜訊估計子網抑制低估的雜訊水平。為了使學習的模型適用於真實影像,基於真實雜訊模型的合成影像和幾乎無雜訊的真實雜訊影像合併後訓練CBDNet。
如圖是CBDNet盲去噪架構圖。雜訊模型在基於CNN的去噪性能方面起著關鍵作用。給定一個乾淨的影像x,更真實的雜訊模型n(x)~N(0,σ(y))可以表示為,
這裡,n(x) = ns(x)+ nc由訊號相關雜訊分量ns和靜止雜訊分量nc組成。並且nc被建模為具有雜訊方差σc2的AWGN,但是對於每個像素i,ns的雜訊方差與影像強度相關,即x(i)·σs2。
CBDNet包括雜訊估計子網CNNE和非盲去噪子網CNND。首先,雜訊估計子網CNNE採用雜訊觀測y來產生估計的雜訊水平圖σˆ(y)= FE(y; WE),其中WE表示CNNE的網路參數。CNNE的輸出為雜訊水平圖,因為它與輸入y具有相同的大小,並通過全卷積網路。然後,非盲去噪子網路CNND將y和σˆ(y)都作為輸入以獲得最終去噪結果x = FD(y,σ(y); WD),其中WD表示CNND的網路參數。此外,CNNE允許估計的雜訊水平圖σ(y)放入非盲去噪子網路CNND之前調整。一個簡單的策略是讓ρˆ(y)=γσˆ(y)以交互的方式做去噪計算。
雜訊估計子網CNNE是五層全卷積網路,沒有池化和批量歸一化(BN)操作。每個卷積層特徵通道32,濾波器大小3×3。在每個卷積層之後有ReLU。與CNNE不同,非盲去噪子網路CNND採用U-Net架構,以y和σˆ(y)作為輸入,在無噪乾淨影像給出預測x。通過殘差學習學習殘差映射R(y,σˆ(y); WD)然後預測x = y + R(y,σˆ(y); WD)。CNNE的16層U-Net架構引入對稱跳躍連接、跨步卷積和轉置卷積,來利用多尺度資訊並擴大感受野。所有濾波器大小均為3×3,除最後一個,每個卷積層之後加ReLU。
將如下定義的不對稱損失引入雜訊估計子網,並與重建損失結合一起,訓練完整的CBDNet:
此外,引入一個全局變化(TV)正則化來約束σˆ(y)的平滑度,
其中∇h(∇v)表示水平(垂直)方向的梯度運算元。
重建損失為
總損失函數
一些結果例子:
影像去霧
單影像去霧是一個具有挑戰性的病態問題。現有方法使用各種約束/先驗來獲得似乎合理的除霧解決方案。實現去霧的關鍵是估計輸入霧霾影像的介質傳輸圖(medium transmission map)。
• DehazeNet
DehazeNet是一個可訓練的端到端系統,用於介質傳輸估計。DehazeNet將霧影像輸入,輸出其介質傳輸圖,隨後通過大氣散射模型(atmospheric scattering model)恢復無霧影像。DehazeNet採用CNN的深層架構,設計能體現影像去霧的假設/先驗知識。具體而言,Maxout單元層用於特徵提取,幾乎所有與霧相關的特徵。還有一種新的非線性激活函數,稱為雙邊整流線性單元(Bilateral Rectified Linear Unit,BReLU),提高影像的無霧恢復品質。
下圖是DehazeNet架構圖。在概念上DehazeNet由四個順序操作(特徵提取、多尺度映射、局部極值和非線性回歸)組成,它由3個卷積層、最大池化、Maxout單元和BReLU激活函數構成。下面依次介紹四個操作細節。
1) 特徵提取:為了解決影像去霧問題的病態性,現有方法提出了各種假設,並且基於這些假設,在影像域密集地提取與霧度相關的特徵,例如,著名的暗通道(dark channel),色調差和顏色衰減等;為此,選擇具有特別激活函數的Maxout單元作為降維非線性映射;通常Maxout用於多層感知器(MLP)或CNN的簡單前饋非線性激活函數;在CNN使用時,對k仿射特徵圖逐像素最大化操作生成新的特徵圖;設計DehazeNet的第一層如下
其中
分別代表濾波器和偏差。
2) 多尺度映射:多尺度特徵已經被證明對於去除霧度是有效的;多尺度特徵提取實現尺度不變性有效;選擇在DehazeNet的第二層使用並行卷積運算,其中任何卷積濾波器的大小在3×3、5×5和7×7之間,那麼第二層的輸出寫為
其中
包含分為3組的n2對參數, n2是第二層的輸出維度,i∈[1,n2]索引輸出特徵圖,⌈⌉向上取整數,表示餘數運算。
3) 局部極值:根據CNN的經典架構,在每個像素考慮鄰域最大值可克服局部靈敏度;另外,局部極值是根據介質傳輸局部恆常的假設,並且通常用於克服傳輸估計的雜訊;第三層使用局部極值運算,即
註:局部極值密集地應用於特徵圖,能夠保持影像解析度。
4) 非線性回歸:非線性激活函數的標準選擇包括Sigmoid和ReLU;前者容易受到梯度消失的影響,導致網路訓練收斂緩慢或局部最優;為此提出了ReLU ,一種稀疏表示方法;不過,ReLU僅在值小於零時才禁止輸出,這可能導致響應溢出,尤其是在最後一層;所以採用一種BReLU激活功能,如圖所示;BReLU保持了雙邊約束(bilateral restraint)和局部線性;這樣,第四層特徵圖定義為
這裡W4 = {W4}包含一個大小為n3×f4×f4的濾波器,B4 = {B4}包含一個偏差,tmin, max是BReLU的邊際值(tmin = 0和tmax = 1) 。根據上式,該激活函數的梯度可以表示為
將上述四層級聯形成基於CNN的可訓練端到端系統,其中與卷積層相關聯的濾波器和偏置是要學習的網路參數。
• EPDN
論文將影像去霧問題簡化為影像到影像的轉換問題,並提出增強的Pix2pix去霧網路(EPDN),它可以生成無霧影像,而不依賴於物理散射模型。EPDN由生成對抗網路(GAN)嵌入,然後是增強器。一種理論認為視覺感知是全局優先的,那麼鑒別器指導生成器在粗尺度上創建偽真實影像,而生成器後面的增強器需要在精細尺度上產生逼真的去霧影像。增強器包含兩個基於感受野模型的增強塊,增強顏色和細節的去霧效果。另外,嵌入式GAN與增強器是一起訓練的。
如圖是EPDN架構的示意圖,由多解析度生成器模組,增強器模組和多尺度鑒別器模組組成。即使pix2pixHD使用粗到細特徵,結果仍然缺乏細節並且顏色過度。一個可能的原因是現有的鑒別器在引導生成器創建真實細節方面受到限制。換句話說,鑒別者應該只指導生成器恢復結構而不是細節。為了有效地解決這個問題,採用金字塔池化模組,以確保不同尺度的特徵細節嵌入到最終結果中,即增強塊。從目標識別的全局上下文資訊中看出,在各種尺度需要特徵的細節。因此,增強塊根據感受野模型設計,可以提取不同尺度的資訊。
如圖是增強塊的架構:有兩個3×3前端卷積層,前端卷積層的輸出縮減,因子分別是4×,8×,16×,32×,這樣構建四尺度金字塔;不同尺度的特徵圖提供了不同的感受域,有助於不同尺度的影像重建;然後,1×1卷積降維,實際上1×1卷積實現了自適應加權通道的注意機制;之後,將特徵圖上取樣為原始大小,並與前端卷積層的輸出連接在一起;最後,3×3卷積在連接的特徵圖上實現。
在EPDN中,增強器包括兩個增強塊。第一個增強塊輸入是原始影像和生成器特徵的連接,而這些特徵圖也輸入到第二個增強塊。
• PMS-Net
修補程式圖選擇網路(Patch Map Selection Network,PMS-Net)是一個自適應和自動化修補程式尺寸選擇模型,主要選擇每個像素對應的修補程式尺寸。該網路基於CNN設計,可以從輸入影像生成修補程式圖。其去霧演算法的流程圖如圖所示。
為了提高該網路的性能,PMS-Net提出一種有金字塔風格的多尺度U-模組。基於修補程式圖,可預測更精確的大氣光和透射圖。所提出的架構,可以避免傳統DCP的問題(例如,白色或明亮場景的錯誤恢復),恢復影像的品質高於其他演算法。其中,定義了一個名為修補程式圖(patch map)的來解決暗通道先驗(DCP)修補程式大小固定的問題。
如圖是PMS-Net的架構,分為編碼器和解碼器。最初,輸入的霧影像和16個3×3內核的濾波器卷積投影到更高維空間。然後,多尺度-U模組從更高維數據中提取特徵。多尺度U-模組的設計如圖左側所示。
輸入將通過幾個Multiscale-W-ResBlocks(MSWR),如下圖左側所示。MSWR的設計想法類似Wide-ResNet(WRN),通過增加網路寬度和減小深度來改進ResNet。每塊中使用快捷方式執行Conv-BN-ReLu-Dropout-Conv-BN-ReLu這一系列操作提取資訊。MSWR中多尺度概念類似Inception-ResNet,採用多層技術來增強資訊的多樣性,並提取詳細資訊。
多尺度U-模組中的其他部分,Multi-Deconv模組將資訊與MSWR而不是反卷積的輸出連接在一起,因為反卷積層可以幫助網路重建輸入數據的形狀資訊。因此,通過多尺度反卷積組合,可以從網路前層重建更精確的特徵圖。此外,Multi-Deconv執行金字塔風格並提高尺度與MSWR連接。也就是說,不同層特徵圖以不同的尺度運行去卷積(參見多尺度U-模組圖右側)。
為保留高解析度,MSWR和Multi-Deconv模組的輸出直接連接。然後,特徵圖饋送到網路更高層的Multi-Deconv模組和解碼器。解碼器採用全局卷積網路模組(global convolutional network modules,GCN)。邊界細化模組(boundary refinement,BR)也用於邊緣資訊保留。上取樣操作升級尺度層。此外,採用緻密連接樣式合併高與低解析度的資訊。PMS-Net可以預測修補程式圖。
下圖是一些實驗結果的分析:白色和明亮場景中去霧結果的比較;第1欄:輸入影像; 第2欄:通過固定尺寸修補程式DCP的結果; 第3欄:PMS-Net方法的結果; 第4欄:第2欄和第3欄中白色或亮部的放大; 第5欄:修補程式圖; 第6-7欄:分別由DCP和PMS-Net方法估計的介質傳輸圖。
影像去模糊
這是一種多尺度卷積神經網路,以端到端的方式恢復清晰的影像,其中模糊是由各種來源引起的,包括鏡頭運動、景物深度和物體運動。如圖是定義的網路模型架構圖,稱為ResBlocks:(a)原始殘餘網路構建塊,(b)該網路修正的模組化構建塊;沒有使用批量歸一化(BN)層,因為訓練模型使用的小批量(mini-batch)大小為2,比BN通常要小;在輸出之前去除整流線性單元(ReLU)有利於提高經驗性能。
設計的去模糊多尺度網路架構見下圖所示:Bk,Lk,Sk分別表示模糊、潛在和GT清晰影像。下標k表示高斯金字塔第k個尺度層,下取樣到1 / 2k尺度。該模型將模糊的影像金字塔作為輸入並輸出估計的潛在影像金字塔。每個中間尺度的輸出都訓練成清晰。在測試時,選擇原始尺度的輸出影像作為最終結果。
用ResBlocks堆疊足夠數量的卷積層,每個尺度的感受野得以擴展。在訓練時,將輸入和輸出高斯金字塔修補程式的解析度設置為{256×256,128×128,64×64}。連續尺度之間的比例(scale ratio)是0.5。對所有卷積層,濾波器大小為5×5。因為模型是全卷積,在測試時修補程式大小可能變化。
定義一個多尺度損失函數模擬傳統的粗到精方法
其中Lk,Sk分別表示在尺度層k的模型輸出影像和GT影像。而對抗損失函數定義為
其中G和D分別是生成器和鑒別器。最終的損失函數是
一些結果如圖所示,有幾個縮放的局部細節。
具有深度覺察和視角聚合(Depth Awareness and View Aggregation)的網路DAVANet是一個立體影像去模糊網路。網路中來自兩個視圖有深度和變化資訊的3D場景線索合併在一起,動態場景中有助於消除複雜空間變化的模糊。具體而言,通過這個融合網路,將雙向視差估計和去模糊整合到一個統一框架中。
下圖描述立體視覺帶來的模糊:(a)是與影像平面平行的相對平移引起的深度變化模糊,(b)和(c)是沿深度方向的相對平移和旋轉引起的視角變化模糊。注意,所有複雜運動可以分解為這三個相對子運動模式。
如圖(a)所示,我們可以得到:
其中ΔX,ΔP,f和z分別表示模糊的大小、目標點的運動、焦距和目標點的深度。
如圖(b)所示,我們知道:
其中b是基準線,h是左攝影機CL和線段PtPt+1之間的距離。
如圖(c)所示,兩個鏡頭的速度vCL,vCR與相應旋轉半徑CLO,CRO成正比,即
DAVANet總體流程圖如圖所示,由三個子網路組成:用於單鏡頭去模糊的DeblurNet,用於雙向視差估計的DispBiNet,和以自適應選擇方式融合深度和雙視角資訊的FusionNet。這裡採用小卷積濾波器(3×3)來構造這三個子網路,因為大型濾波器並不能提高性能。
DeblurNet的結構基於U-Net,如圖(a)所示。用基本殘差模組作為構建塊,編碼器輸出特徵為輸入尺寸的1/4×1/4。之後,解碼器通過兩個上取樣殘差塊全解析度重建清晰影像。在編碼器和解碼器之間使用相應特徵圖之間的跳連接(skip-connections)。此外,還採用輸入和輸出之間的殘差連接。這使網路很容易估計模糊-尖銳(blurry-sharp)影像對之間的殘差並保持顏色一致性。還有,在編碼器和解碼器之間使用兩個空洞殘差(atrous residual)塊和一個Context模組來獲得更豐富的特徵。DeblurNet對兩個視圖使用共享權重。
受以前DispNet模型結構的啟發,採用一個小型DispBiNet,如圖(b)所示。與DispNet不同,DispBiNet可以預測一個前向過程的雙向視差。輸出是完整解析度,網路有三次下取樣和上取樣操作。此外,DispBiNet中還使用了殘差塊、空洞殘差塊和Context模組。
為了嵌入多尺度特徵,DeblurNet和DispBiNet採用Context模組,它包含具有不同擴張率(dilated rate)的並行擴張卷積(dilated convolution),如圖所示。四個擴張率是設置為1, 2, 3, 4。Context模組融合更豐富的分級上下文資訊,有利於消除模糊和視差估計。
為了利用深度和雙視角資訊去模糊,引入融合網路FusionNet來豐富具有視差和雙視角的特徵。如圖所示,FusionNet採用原始立體影像IL,IR,估計的左視圖DL視差,DispBiNet倒數第二層的特徵FD和DeblurNet編碼器的特徵FL,FR作為輸入,以生成融合特徵FLfuse。
為雙視角聚合,估計的左目視差DL將DeblurNet的右目特徵FR變形到左目,即為WL(FR)。不用直接連接WL(FR)和FL,而是子網GateNet生成從0到1的軟門圖(soft gate map)GL。門圖可以自適應選擇方式用來融合特徵FL和WL(FR),即選擇有用的特徵,並從另一個視角拒絕不正確的特徵。例如,在遮擋或錯誤視差區域,門圖值往往為0,這表明只採用參考視角F L的特徵。GateNet由五個卷積層組成,如圖所示,輸入是左影像IL和變形的右影像WL(IR)的絕對差,即| IL – WL(IR)|,輸出是單通道的門圖。所有特徵通道共享相同的門圖以生成聚合特徵:
為深度覺察,使用三個卷積層的子網路DepthAwareNet,而且兩個視角不共享該子網路。給定視差DL和DispBiNet的倒數第二層特徵FD,DepthAwareNet-left產生深度關聯的特徵FL。事實上,DepthAwareNet隱式地學習深度覺察的先驗知識,這有助於動態場景的去模糊。
最後,連接原始左圖特徵FL,視角聚合特徵FLviews和深度覺察特徵FLdepth生成融合的左視角特徵FLfuse。然後,將FLfuse供給DeblurNet的解碼器。同理,採用FusionNet一樣的架構可以得到右視角的融合特徵。
DeblurNet損失函數包括兩個部分:MSE損失和感知損失,即
其中
DispBiNet的視差損失函數如下:
如圖顯示的是視差對去模糊的作用:(a)(f)(g)和(h)分別表示模糊影像、清晰影像、預測的視差和GT視差。(b)和(e)是單目去模糊網路DeblurNet和雙目去模糊網路DAVANet的結果。在(c),兩個左影像輸入,DispBiNet不能為深度覺察和視角聚合提供任何深度資訊或視差。在(d)中,為了消除視角聚合的影響,不會從FusionNet中其他視圖變形該特徵。由於該網路可以準確估計和採用視差,因此其性能優於其他方法
影像增強
• Deep Bilateral Learning
這是一種做影像增強的神經網路架構,其靈感來自雙邊網格處理(bilateral grid processing)和局部仿射顏色變換。基於輸入/輸出影像對,訓練卷積神經網路來預測雙邊空間(bilateral space)局部仿射模型的係數。網路架構目的是學習如何做出局部的、全局的和依賴於內容的決策來近似所需的影像變換。輸入神經網路是低解析度影像,在雙邊空間生成一組仿射變換,以邊緣保留方式切片(slicing)節點對這些變換進行上取樣,然後變換到全解析度影像。該模型是從數據離線訓練的,不需要在運行時訪問原始操作。這樣模型可以學習複雜的、依賴於場景的變換。
如圖所示,對低解析度的輸入I的低解析度副本I~執行大部分推斷(圖頂部),類似於雙邊網格(bilateral grid)方法,最終預測局部仿射變換。影像增強通常不僅取決於局部影像特徵,還取決於全局影像特徵,如直方圖、平均強度甚至場景類別。因此,低解析度流進一步分為局部路徑和全局路徑。將這兩條路徑融合在一起,則生成代表仿射變換的係數。
而高解析度流(圖底部)在全解析度模式工作,執行最少的計算,但有捕獲高頻效果和保留邊緣的作用。為此,引入了一個切片節點。該節點基於學習的導圖(guidance map)在約束係數的低解析度格點做數據相關查找。基於全解析度導圖,給定網格切片獲得的高解析度仿射係數,對每個像素做局部顏色變換,產生最終輸出O。在訓練時,在全解析度下最小化損失函數。這意味著,僅處理大量下取樣數據的低解析度流,仍然可以學習再現高頻效果的中間特徵和仿射係數。
下面可以從一些例子看到各個改進的效果。如圖所示,低級卷積層具備學習能力,可以提取語義資訊。用標準雙邊網格的噴濺操作(splatting operation)替換這些層會導致網路失去很大的表現力。
如圖所示,全局特徵路徑允許模型推理完整影像,(a)例如再現通過強度分布或場景類型的調整。(b)如果沒有全局路徑,模型可以做出空間不一致的局部決策。
如圖所示,新切片節點對架構的表現力及其對高解析度效果的處理至關重要。用反卷積濾波器組替換該節點會降低表現力(b),因為沒有使用全解析度數據來預測輸出像素。由於全解析度導圖,切片層以更高的保真度(c)逼近。
如圖所示,(b)HDR的亮度畸變,特別是在前額和臉頰的高光區域出現的海報化畸變(posterization artifacts)。相反,切片節點的導圖使(c)正確地再現(d)基礎事實GT。
• Deep Photo Enhancer
它提出一種不成對學習(unpaired learning)的影像增強方法。給定一組具有所需特徵的照片,該方法學習一種照片增強器,將輸入影像轉換為具有這些特徵的增強影像。在基於雙路(two-way)生成對抗網路(GAN)框架基礎上,改進如下:1)基於全局特徵擴充U-Net,而全局U-Net是GAN模型的生成器;2)用自適應加權方案改進Wasserstein GAN(WGAN),訓練收斂更快更好,對參數敏感度低於WGAN-GP;3)在雙路GAN的生成器採用單獨BN層,有助於生成器更好地適應自身輸入分布,提高GAN訓練的穩定性。
如圖介紹了雙路GAN的架構。(a)是單向GAN的架構。給定輸入x∈X,生成器GX將x變換為y'= GX(x)∈Y。鑒別器DY旨在區分目標域{y}中的樣本和生成的樣本{y'= GX(x)}。為了實現循環一致性,雙路GAN被採用,例如CycleGAN 和DualGAN 。它們需要G'Y(GX(x))= x,其中生成器G'Y採用GX生成的樣本並將其映射回源域X。此外,雙路GAN通常包含前向映射(X →Y)和後向映射(Y→X)。(b)顯示了雙路GAN的體系結構。在前向傳播時,
,檢查x''和x之間的一致性。在後向傳播時,
,檢查y和y''之間的一致性。
如圖是GAN的生成器和鑒別器架構。生成器器基於U-Net,但添加全局特徵。為了提高模型效率,全局特徵的提取與U-Net的收縮部分共享前五層局部特徵的提取。每個收縮步驟包括5×5濾波、步幅為2、SELU激活和BN。對全局特徵來說,假定第五層是32×32×128特徵圖,收縮後進一步減小到16×16×128然後8×8×128。通過全連接層、SELU激活層和另一個全連接層,將8×8×128特徵圖減少到1×1×128。然後將提取的1×1×128全局特徵複製32×32個拷貝,並和低級特徵32×32×128之後相連接,得到32×32×256特徵圖,其同時融合了局部和全局特徵。在融合的特徵圖上執行U-Net的擴展路徑。最後,採用殘差學習的思想,也就是說,生成器只學習輸入影像和標註影像之間的差異。
WGAN依賴於訓練目標的Lipschitz約束:當且僅當它梯度模最多是1時,一個可微函數是1-Lipschtiz 。為了滿足約束條件,WGAN-GP通過添加以下梯度懲罰直接約束鑒別器相對於其輸入的輸出梯度模,
其中yˆ是沿目標分布與生成器分布之間的直線的取樣點。
參數λ加權原鑒別器損失的懲罰。λ確定梯度趨進1的趨勢。如果λ太小,無法保證Lipschitz約束。另一方面,如果λ太大,則收斂可能緩慢,因為懲罰可能過重加權鑒別器損失。λ的選擇很重要。相反,使用以下梯度懲罰,
這更好地反映了要求梯度小於或等於1並且僅懲罰大於1部分的Lipschitz約束。更重要的是,可採用自適應加權方案調整權重λ,選擇適當的權重,即梯度位於所需的間隔內,比如[1.001, 1.05]。如果滑動窗(大小= 50)內的梯度移動平均值(moving average of gradients)大於上限,則意味著當前權重λ太小而且懲罰力不足以確保Lipschitz約束。因此,通過加倍權重來增加λ。另一方面,如果梯度移動平均值小於下限,則將λ衰減一半,這樣就不會變得太大。這個改進,稱為A-GAN(自適應GAN)。
前面圖(a)生成器作GX而圖(b)鑒別器用作DY,得到以前圖(a)單路GAN的架構。同樣推廣A-GAN可以得到如以前圖(b)的雙路GAN架構。
• Deep Illumination Estimation
這是一種基於神經網路增強曝光不足照片的方法,其中引入中間照明(intermediate illumination),將輸入與預期的增強結果相關聯,也加強了網路的能力,能夠從專家修改的輸入/輸出影像對學習複雜的攝影修整過程。基於該模型,用照明的約束和先驗定義一個損失函數,並訓練網路有效地學習各種照明條件的修整過程。通過這些方式,網路能夠恢復清晰的細節,鮮明的對比度和自然色彩。
從根本上說,影像增強任務可以被稱為尋找映射函數F,從輸入影像I增強,I ̃ = F(I)是期望的影像。在Retinex的影像增強方法中,F的倒數通常建模為照明圖S,其以像素方式與反射影像I ̃相乘產生觀察影像I:I = S * I ̃。
可以將反射分量I ̃視為曝光良好的影像,因此在模型中,I ̃作為增強結果,I作為觀察到的未曝光影像。一旦S已知,可以通過F(I)= S-1 * I獲得增強結果I ̃. S被模型化為多通道(R,G,B)數據而不是單通道數據,以增加其在顏色增強方面的能力,尤其是處理不同顏色通道的非線性特性。
如圖是網路的流水線圖。增強曝光不足的照片需要調整局部(對比度,細節清晰度,陰影和高光)和全局特徵(顏色分布,平均亮度和場景類別)。從編碼器網路生成的特徵考慮局部和全局上下文資訊,見圖上部。為了驅動網路學習從輸入的曝光不足影像(Ii)到相應的專家修飾影像(I ̃)的照明映射,設計了一種損失函數,具有照明平滑度先驗知識以及增強的重建和顏色損失,見圖底部。這些策略有效地從(Ii,I ̃i)學習S,通過各種各樣的照片調整來恢復增強的影像。值得一提的是,該方法學習低解析度下預測影像-照明映射的局部和全局特徵,同時基於雙邊網格的上取樣將低解析度預測擴展到全解析度,系統實時性好。
下圖展示了一些增強的結果例子(上:輸入,下:增強)。
參考文獻
- 1. K Zhang et al., 「Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising」,IEEE T-IP,2017
- 2. A Ignatov et al., 「DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks「,arXiv 1704.02470, 2017
- 3. P. Svoboda et al., 「Compression artifacts removal using convolutional neural networks」. arXiv 1605.00366, 2016.
- 4. B. Cai et al.,」Dehazenet: An end-to-end system for single image haze removal」. IEEE T-IP, 2016
- 5. X. Mao, C. Shen, Y.-B. Yang. 「Image restoration using very deep convolutional encoder-decoder networks with symmetric skip connections」. Advances in Neural Information Processing Systems 29, 2016
- 6. Z. Yan et al., 「Automatic photo adjustment using deep neural networks」. ACM Trans. Graph., 2016
- 7. M Gharbi et al.,「Deep Bilateral Learning for Real-Time Image Enhancement」, arXiv 1707.02880, 2017
- 8. S Nah, T Kim, K Lee,「Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring」, CVPR, 2017
- 9. Y Chen et al.,「Deep Photo Enhancer: Unpaired Learning for Image Enhancement from Photographs with GANs」, CVPR, 2018.
- 10. J Zhang et al., "Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks", CVPR 2018.
- 11. S Guo et al.,「Toward Convolutional Blind Denoising of Real Photographs」, CVPR, 2019
- 12. R Wang et al.,「Underexposed Photo Enhancement using Deep Illumination Estimation」, CVPR 2019.
- 13. Y Qu et al.,「Enhanced Pix2pix Dehazing Network」, CVPR, 2019
- 14. S Zhou et al.,「DAVANet: Stereo Deblurring with View Aggregation」, CVPR 2019.
- 15. W Chen, J Ding, S Kuo,「PMS-Net: Robust Haze Removal Based on Patch Map for Single Images」, CVPR, 2019