影史第一片《火車進站》秒變 4K 高清,AI 預測+插值,黑白也能變「彩電」
- 2020 年 2 月 21 日
- 筆記

作者 | 蔣寶尚
責編 | 賈偉
《火車進站》是人類歷史上的第一部電影,由路易·盧米埃和奧古斯特·盧米埃於 1895 年拍攝於法國一沿海城市,整部電影只有45秒。
然而最近,在YouTube上出現了一個不一樣的「火車進站」視頻,不同在這是一部經過神經網絡增強的「百年老片」,將原有模糊的視頻直接提升到4k高清。
1、百年老片變 4K 高清
在125年前,《火車進站》這部電影採用了 35mm格式膠片製作,由於當時的放映機由手搖進行驅動,其原始幀率大概在16幀到24幀之間。

由於當時的膠片技術尚未成熟,我們可以看到畫面景物都是比較模糊的,火車在駛來的同時還帶有明顯的拖影。
但經過了神經網絡的畫面分辨率增強和插幀之後,這部老電影獲得了4K ~ 60fps的畫質。如果不是電影黑白的畫面和膠片電影獨有的畫面抖動,畫面流暢度和清晰度幾乎可以與現在的智能手機相媲美。
這部影片的修復工作是由一位名叫 Denis Shiryaev的男子完成的,其所使用的是Topaz實驗室的Gigapixel AI以及DAIN image 圖像編輯應用程序。在修復過程中,他不僅將鏡頭提高到4K,還將幀率提高到每秒60幀。

Gigapixel AI官網截圖
《火車進站》這部短片原始原片質量非常模糊,分辨率非常低。Shiryaev使用Gigapixel AI渲染後,自己為這部電影加上聲音後,觀影體驗竟然完全符合現在的標準。
根據官網介紹,Gigapixel AI軟件內嵌專有的插值算法,在分析圖像的同時能夠識別圖像的細節和結構,即使將圖像放大 600%,也能保證圖像的清晰。值得一提的是,電影中的部分圖像是通過GAN生成的。
另一方面, DAIN (Depth-Aware Video Frame Interpolation)可對電影中的幀進行預測,並將其插入現有視頻之中。換句話說, DAIN分析並映射視頻剪輯,然後在現有圖像之間插入生成的填充圖像。
為了在這段1896年的視頻中達到與4K同樣的效果,Shiryaev為電影填充了足夠多圖像,從而將「圖片放映」提高到了每秒60幀。因此,DAIN每秒會自動生成36個圖像然後添加到電影中。
除此之外,基於同樣的AI技術,神經網絡可以將一堆彩色照片轉換為黑白,然後再訓練它重建彩色原稿,訓練後的模型就可以把黑白電影,轉換成彩色。如下視頻展示的那樣。
2、DAIN基於深度學習的視頻插幀技術
將百年老片修成4K大片,深度學習技術出了不少力,更為具體的是視頻插幀技術在深度學習里的體現。
當然,深度感知視頻幀內插(Depth-Aware Video Frame Interpolation)也不是最近才出現的技術。早在2019年,此項技術的相關論文就被收錄到CVPR 2019,相關算法也已經開源在了Github上。

論文下載地址:https://arxiv.org/pdf/1904.00830.pdf
Github地址:https://github.com/baowenbo/DAIN
這篇文章的第一作者Bao Wenbo,是上海交通大學電子信息與電氣工程學院的博士生。具體工作是基於其在2018年發表的論文MEMC-Net做的改進。具體效果類似於英偉達開源的Super SloMo,即能夠從普通的視頻「腦補」出高幀率的畫面,從30fps插幀到240fps,即使放慢8倍也不會感到卡頓。

而這個新的插幀算法DAIN比英偉達的算法效果更清晰、幀率更高,可以把30fps的進一步插幀到480fps。
具體到算法層面,研究人員提出了一種通過探索深度信息來檢測遮擋的方法。

一個深度感知光流投影層來合成中間流,中間流對較遠的對象進行採樣。此外,學習分層功能以從相鄰像素收集上下文信息。
更為具體的如上圖所示,整個算法分為光流、深度、上下文特徵、插值kernel、框架合成這幾個部分。
在光流估計模塊,採用PWC-NET光流估計模型,由於在沒有監督的情況下學習光流是非常困難的,所以作者從預先訓練好的PWC-Net中初始化光流估計網絡。
在深度部分,不同於過去的網絡模型採用的是計算平均值的方式,為了處理處理遮擋區域的問題,此作者提出了一種使用深度輔助來計算tt時刻的光流融合結果。融合的權重使用的是深度值的倒數,簡單的來說就是深度值越大的像素(距離越遠的像素),在光流合成的時候所佔的權重越小。
上下文特徵部分,作者提出,在CtxSynNet論文中已經證明上下文信息(contextual feature)的加入對視頻插值有一定幫助。所以在這篇論文中,作者基於Residual block自己設計了一個提取上下文特徵的網絡,並從頭開始訓練。
插值kernel自適應warping layer部分,主要思想是通過光流找到像素的新位置後,將其新位置周圍4×4範圍內與一個特殊的kernel相乘後作為該點的像素值。這個kernel由兩部分相乘得出,一部分是我們圖像縮放時常用的雙線性插值,其中每個位置的權重只與坐標距離有關,另一部分也是一個內插值kernel,是通過網絡學習得出的。
框架合成。為了生成最終的輸出幀,作者構建了一個幀合成網絡,該網絡由3個個殘差塊組成。並將扭曲的輸入warped深度圖、warped上下文特徵、warped和插值核連接起來作為幀合成網絡的輸入。此外,還對兩個warped幀進行線性混合,並強制網絡預測地面真實幀和混合幀之間的殘差。

損失函數是真實幀和混合幀之間的殘差,這種函數名為Charbonnier Loss,是一種L1 loss的變種,只不過加了一個正則項。
所採用的訓練數據集是Vimeo90K,其有51312個三元組用於訓練,其中每個三元組包含3個連續的視頻幀,分辨率為256×448像素。具體在訓練過程,作者用網絡來預測每個三元組的中間幀(即,t=0.5)。在測試時,模型能生成任意中間幀。另外,還通過水平和垂直翻轉以及顛倒三元組的時間順序來增加訓練數據。
在具體的訓練策略中,作者使用AdaMax優化網絡,分別設置 β1 and β2為0.9 和 0.999,並將核估計、上下文提取和幀合成網絡的初始學習率設置為1e−4。由於流估計和深度估計網絡都是從預先訓練的模型初始化而來的,因此分別使用較小的學習率1e−6和1e−7。另外還對整個模型進行30個epoch的聯合訓練,然後將每個網絡的學習率降低0.2倍,並針對另外10個epoch對整個模型進行微調。
值得一提的是,作者在NVIDIA Titan X(Pascal)GPU卡上訓練模型,大約用了5天達到收斂狀態。


關於實驗結果,放兩張在不同數據集上與近年論文的優劣,這裡不做過多分析。
總的來說,作者提出了一種depth-aware視頻插幀方案,並嘗試顯式的解決遮擋區域的問題。借用PWC光流coarse-to-fine的思路,嘗試解決large motions的問題。使用學習的分層特徵和深度作為上下文信息,更好的合成中間幀。
那麼,這種類型的深度學習技術在具體的電影修復中能發揮什麼樣的作用呢?
2019年的幾部AI修復的影片或許能給我們答案。
3、《開國大典》、《決勝時刻》皆是AI修復
去年是建國70周年,除了氣勢恢宏的閱兵給人們留下了深刻的印象之外,10月下旬上映的《開國大典》也着實讓人感動了一把,這部電影展現了三次戰役勝利到開國大典的整個歷史過程。

這部電影在1989年9月21日初映,全片分為18卷,共164分鐘。由於當時的拍攝條件,重新上映必須修復畫質。
在修復過程中,製作方最大化地利用DRS修復系統的功能,把自動化修復與人工修復結合。通過AI算法,老膠片存在的收縮、捲曲等問題都可以得到解決,但是膠片的撕裂、劃痕等都需要專業的修復師一幀一幀地進行修補。

除了《開國大典》,9月份上映的《決勝時刻》也是採用了AI技術。據電影製片方爆料,這段材料來自於俄羅斯的一段彩色紀錄片,但由於年代久遠,畫質模糊,色彩失真。而經過了複雜的 4K 修復工作之後,最終呈現出這般極致的畫面體驗。

另外,《厲害了,我的國》就是中影電影數字製作基地數字修復中心主任肖搏及其團隊利用AI修復進行的一次嘗試。
為了更順利地進行修復工作,肖搏團隊開發了「中影·神思」人工智能圖像處理系統,靠計算機大數據深度學習算法,在四個月內修復增強了30萬幀圖像。利用「中影·神思」,修復一部電影的時間可以縮短四分之三,成本減少了一半。
而愛奇藝開發ZoomAI也是一款基於深度學習的視頻修復技術,此技術內部由多個模塊組成,每個模塊負責一種或者幾種畫質增強的方向,比如超分辨率,去除噪聲,銳化,色彩增強等等。每個模塊都是由一個或者多個深度學習模型組成。
綜上所述,利用卷積神經網絡和最先進的圖像識別技術,讓經典老電影重現光彩已經不是遙不可及的事情。與其他方法相比,通過基於深度學習的技術來修複電影可以節省時間和精力。經典電影的修復和數字化也能使人們能夠更方便地獲得更多文化產品。
參考文獻
https://towardsdatascience.com/neural-networks-help-upscale-conversion-of-famous-1896-video-to-4k-quality-d2c3617310fe
https://cloud.tencent.com/developer/article/1507729
https://baijiahao.baidu.com/s?id=1657837274349020022&wfr=spider&for=pc
https://blog.csdn.net/olivertai/article/details/102776724
https://www.lizenghai.com/archives/46735.html