論文閱讀——An Integrated Enhancement Solution for 24-hour Colorful Imaging

2020 年 6 月 3 日
AI

論文鏈接： //arxiv.org/pdf/2005.04580.pdf

一、摘要

目前工業界對於24小時戶外成像這一課題的實踐是使用近紅外光(NIR)輔助的硅相機(silicon camera)。這種方式的缺點在於，白天光線充足時所成彩色圖像的對比度很差，夜間則缺乏色度。對於這一困境，當前所有解決方案都是將RGB和IR圖像分開獲取。這種方案增加了硬件開銷，並有可能受到場景限制。本文提出了一種新的集成（integrated，或者譯成完整的？）圖像增強的方法，無論白天或黑夜都能產生清晰彩色圖像。本文的關鍵在於從混合信號中將VIS(可見光譜)和NIR信息分離開，並在NIR信號的輔助下自適應地增強VIS信號。

當前24小時成像方案在日/夜中的缺陷及本文的enhancement

二、介紹與相關工作

1.1 本文貢獻Highlight：

提出一種完備的圖像增強方案，用於產生24小時高質量的彩色圖像
設計一個成像系統的原型，構建新的數據集，包含aligned RAW/VIS/NIR images
提出一個用於enhancement的端到端網絡

註：關於本文提到的integrated的解釋：
Imaging under unstable illumination is the major challenge for many imaging systems. Most existing researches focus on specific cases, rather than providing an integrated 24hour colorful imaging solution.

1.2 相關背景：

以安防系統為代表的場景往往要求圖像系統提供穩定而持續的24小時高質量成像。然而周圍環境光照的變化對圖像質量的影響為這一要求引入很大挑戰，普通的相機在光線充足的白天成像問題不大，但是夜晚由於光照原因，無法正常成像。為了克服夜晚光照不足對成像的影響，有以下幾種可行方案：

簡單地打開閃光燈或者增大曝光時間（提高成像時相機進光量，注意會導致相機拍攝幀率降低）。這種方式並不適用：①改變成像色調及曝光範圍②導致成像模糊
使用近紅外補光來「照亮」物體，進而獲取圖像。然而NIR的引入是一把雙刃劍：一方面NIR利用了硅傳感器在700-950nm波長範圍的靈敏度，使得視覺信息可以在很暗的光線被獲取；另一方面NIR會影響視覺光譜（VIS）信息從而造成彩色圖像的降質。

上述第二種方案被業界廣泛使用。為了解決其中的困境，一些致力於在圖像捕獲階段將VIS和NIR信息分開的方法被提出：

IR cut filter（紅外截止濾光片）：當攝像頭環境光線充足，切換到紅外截止濾光片，此時圖像顏色非常好，當環境光線很暗，紅外燈開啟，切換到全透濾光片，此時圖像為黑白清晰圖像。
使用特別定製的color filter array（濾色器陣列），可以直接獲取VIS信號和NIR信號。但是可能需要花費額外的精力設計類似去馬賽克之類的算法？可能存在圖像分辨率和質量受限的問題
使用兩個相機（圖像傳感器），一個獲取NIR信號，另一個獲取VIS信號

方案1和3引入了額外的硬件成本。且多個傳感器之間的精確校準也是一個挑戰。

本文方案：直接從單個普通硅相機獲取的混合信號中分離VIS和NIR信號，並利用相對穩定很多的NIR信號作為引導輸入，協助網絡對VIS信號的enhancement。

能將VIS信號和NIR信號分離的理論依據：硅相機在較大波長範圍（300-950nm）中獲得的VIS和NIR信號，在光譜上有相對比較明顯的區分，如下圖所示：

VIS信號和NIR信號的在視覺光譜上佔據的主要區間有明顯區別

三、本文方法介紹

3.1 本文中推導的成像模型：

首先，一個傳感單元的信號強度取決於接受（釋放）的電子數目，或者光強度I。接收到的光強度I則可以表示為原始入射光線I0（各個波長範圍內電子光譜、透射率等綜合作用的結果）加上兩種噪聲綜合的結果，即：

對波長範圍的積分可以近似表示為R/G/B三個離散波長數值處 $L(λ_i)t(λ_i)q(λ_i)$ 的累加結果，則混合成像模型可以簡化為：

然後作者說兩種噪聲可以分別用泊松分佈和高斯分佈來建模（雖然不知道說這個有啥用），另外在假設Sv和Sn相互獨立的基礎上，可以把模型進一步簡化：

注意 $S_v$ 和 $S_u$ 共用這一建模形式。作者得出結論，VIS信號和NIR信號的強度分別取決於VIS照度水平 $Iv$ 和NIR照度水平 $In$ 。（感覺作者上面推那麼多好像其實就是想得出這麼個結論而已…感覺公式有點強行）

3.2 本文貢獻的VIS-NIR-MIX（VNM）數據集

作者根據上面的分析，提到由於VIS信號照度水平在一天之內變化會比較大，導致 $Sv$ 也會產生劇烈變化。當 $Iv$ 不充分時 $Sv$ 的信噪比會很低。而 $In$ 就不存在該問題，由於額外的NIR補光存在，NIR在一天之內可以保持非常穩定且充足的照度水平，故NIR的信號強度也非常穩定，信噪比較高。基於這些事實，作者設計了採集數據的方案：

採集目標：①採集白天和夜晚的NIR-VIS帶噪聲混合數據，作為模型輸入；②採集白天和夜晚的NIR/VIS兩種數據，用來訓練SeperationNet，將mixed image分開；③採集高質量的VIS數據，用於訓練RestorationNet與ColorizationNet（如果夜晚採集可以通過long exposure實現）

數據採集設備

每個場景採集7張圖像：

VNM數據集構成示意

3.3 模型架構與Loss設置：

本文的Speration和Restoration模型整體結構

整體來說模型結構比較粗暴，各個模塊都由一個Unet的子網絡構成。具體來說分為四個sub-Unet：

SeperationNet：輸入為mix圖像，label為NIR圖像。用於從原始信號分離NIR信號；
PropotionNet：輸入為mix圖像，沒有直接label，預測出一個deviation prob map，然後讓mix image – prob_map * NIR圖像，得到VIS圖像，對預測的VIS圖像做監督。
這裡作者的解釋是，在採集NIR數據（比如，用一個700-850nm波長段的濾波器）時，由於該波長段除了NIR信號其實也包含部分VIS信號（見下圖），實際上採集到的「NIR信號」也是一種混合信號，只不過可能NIR信號在其中所佔據比例比較大。故可以先讓模型預測出「混合NIR信號」中純凈NIR信號的佔比，然後通過乘以這個prob map得到純凈NIR信號，再用輸入的mix信號減去純凈NIR信號，即得到了分離出的純凈VIS信號（或者是帶噪聲的VIS信號，但是不包含NIR信號？按作者的意思，純凈VIS信號+純凈NIR信號應該是等於無噪聲的mix信號）。
RestorationNet：輸入為NIR信號+分離的VIS信號的Y通道（lumination component），預測出enhanced VIS-Y，label應該是高質量的VIS圖像的Y通道；
ColorizationNet：輸入為分離的VIS信號的UV通道，預測出enhanced VIS-UV通道（chrominance component），該sub net沒有直接監督，而是將enhanced VIS-Y和enhanced VIS-UV堆疊起來轉換為RGB之後，使用高質量的VIS RGB label做監督。值得注意的是作者在預測VIS-UV時並沒有將預測結果上採樣到原圖大小，而是上採樣到原分辨率的1/4，YUV合併前再resize回去。這裡作者解釋說是瓭色彩信息相比亮度intensity信息，在空間頻率上低一些，故一定程度的壓縮可能不影響視覺感受，但是對於denoising和enhancement會有好處（為什麼？）。

Loss函數：

對於Seperation部分， $L^{v}$ 代表VIS的損失， $L^n$ 代表NIR的損失， $L_{ma}$ 代表MAE， $L_{SS}$ 代表SSIM，這裡用 $1-SSIM(I_{in},I_{out})$ 來對輸入輸出之間的結構一致性做一個監督。 $L_{sm}$ 代表一個結構上的平滑約束項，這裡沒太看懂
對於Restoration部分，v2和y分別代表高質量VIS的RGB形式和Y分量（感覺符號表示的比較奇怪），最後一項 $L_{pe}$ 代表會對預測的RGB和GT RGB做一個percepual loss，以進一步提升重建圖像的高層信息一致性。

四、信息記錄

4.1 名詞解釋：

CFA：color filter array與Bayer Filter

背景：

物體反射的光線被相機的光電傳感器接收到，但是光電傳感器只能感覺到intensity信息，對光的波長信息沒有分辨力。所以無法分辨顏色信息。為了要分辨顏色信息，需要分別用R/G/B對應波長段的濾鏡來過濾入射光並接收，以獲取R/G/B三個通道。但是這種方式使得相機中的傳感元件體積很大，成本很高。拜耳過濾器的出現解決了這一問題。

成像過程：

首先拜耳過濾器被放置於像素傳感器上方，一個顏色對應一個像素，即每個重複的模式佔據四個像素傳感器單元。

拜耳過濾器與像素傳感器的關係
經過上述濾色器陣列-像素傳感器組成的成像元件之後，生成原始數據：每個像素只有R/G/B中的一個顏色，丟失的兩種顏色需要通過去馬賽克算法來估計出來

Mosaiced raw data示意圖

與3-sensor相機的比較：

白平衡：

4.2 不理解的地方記錄

本文貢獻的數據集和代碼都未公開？
模型訓練時，輸入是白天/夜晚的mix圖像，SeperationNet的label是通過NIR pass filter和VIS pass filter得到的NIR和VIS信號。那麼 RestorationNet的label是什麼？ $L^y_{ma}$ 用的應該是long exposure的VIS信號的Y分量， $L^{v2}_{ma}$ 用的是VIS信號的RGB形式？那如果訓白天數據的話，SeperationNet的VISlabel和RestorationNet的VIS-Y label及VIS-RGB label是不是同一張圖像對應的？論文講的不太清楚。
夜晚採集的NIR數據有用嗎？文章中說白天採集的VIS和NIR數據由於SNR比較大可以忽略噪；同時NIR信號強度在白天和晚上變化不大，那是不是對同一個場景，SeperationNet都應該用白天的NIR數據？
公式9中這個形式為什麼可以描述輸入圖像和輸出圖像的structure-awareness？並不是一個歸一化的指標？
數據採集階段的LED simulation是做什麼的？
在ColorizationNet預測UV分量時作者提到由於相對空間頻率低一些可以容忍一定程度壓縮，故預測的分辨率比原土低，作者還說這樣便於去噪和enhancement，為什麼？

4.3 相關詞彙記錄：

to this end: 為此
surveillance systems：監控系統
ambient: 周圍的，環境的
superposition：疊加
meticulous calibration：精細校準

論文閱讀——An Integrated Enhancement Solution for 24-hour Colorful Imaging