邁入 8K 時代,AI 驅動超高清 「視」 界到來

2021 年,超高清邁入 「8K」 時代。超高清影片將帶來全新視聽體驗,但超高清生產在內容生產層面也面臨著超高清存量少、生產設備更新換代慢、製作周期成倍增加的困境。在 7 月 10 日的 Imagine 阿里雲影片雲全景創新峰會上,達摩雲資深演算法專家謝宣松,發表了《AI 技術驅動超高清 「視」 界》的主題演講,從超高清產業的生產現狀與困境出發,深度剖析 AI 技術如何驅動視聽升級,並分享了達摩院在超高清生產領域的實踐經驗,以下為演講內容整理。

image.png

超高清產業發展現狀

視覺是一個生理學辭彙。通過視覺,人和動物感知外界物體的大小、明暗、顏色、動靜,獲得對機體生存具有重要意義的各種資訊。從物理現象角度來看,也就是視網膜對光的各種感應,包括光的亮度、細節描述,還包括跟時間相關的這些資訊。而對視覺衝擊力最大的就是影片

image.png

AI 在影片方面能發揮什麼作用?

AI 在影片發揮的作用主要分成兩部分,第一部分是最基礎的,AI 對影片或者影像的理解,體現在我們影片中常見的分類、打標、檢測、分割等。AI 是與人相關的,因為人肯定一上來先理解世界,所以 AI 要發揮它的作用,第一步就是理解學習。

第二部分和生產類相關,比如生產、編輯、加工、擦除、插入等,其中 AI 在底層視覺就是發揮它的增強作用。那麼 AI 是如何在底層視覺上發揮它的作用的呢?

視覺是人類最重要的感覺,所以影片的體驗的問題是重中之重。體驗會和很多東西相關,人類也在不斷追求著體驗,第一是清晰度的追求,從 4K 到 8K,資訊包含量越來越多,細節的豐富程度也越來越高。2021 年 4k 超高清影片已經普及,並邁入 8K 高清時代。

第二是色彩,更生動的色彩,這也是影響人體驗的一個非常重要的地方。第三個則是更沉浸式的體驗。

那 AI 可以發揮些什麼作用呢?能不能在各行各業進行應用呢?

image.png

首先是超高清影片,2014 年國家發布 4K 的戰略,到現在已經過去了 7 年,4K 開始朝著更高的 8K 方向發展。在這個過程當中內容永遠是滯後的,基礎設施反而是超前的,像 4K 電視,現在消費者仍然不會去購買一台最基本配置的 4K 電視,而訊號的基礎設施已經邁向了 8K、5G

去年春節進行了第一次 8K 直播,東京奧運會、北京冬奧會都會有 8K 直播,而且 8K 的直播會越來越多。

image.png

但 8K 直播有很多困難,因為影片是完整內容生產的過程。其實有很多環節,例如素材採集,素材採集現在已經消費級別化了,1080P、4K 級別的素材採集,利用手機就可以滿足。但怎麼生產內容,拍一下影片是否就算是生產了?

其實它只是最基本最簡單的生產,對內容生產來說分兩塊:第一塊是存量的內容,從古老的黑白到後來有色畫面但解析度很低的內容。技術和人的體驗的要求越來越高,所以之後的內容製作的周期和要求越來越高。

技術在內容生產方面可以發揮巨大的價值,因為技術無外乎兩個東西,第一個降本提效,這是最根本的。第二是創新,能夠快速快捷低成本創造新的機會。

所以技術在這塊會發揮非常大作用,包括網路傳輸、終端是需要完善整個產業鏈的。而我今天所講的只是其中的一個點,但這一點也需要非常多技術來補完。

AI 技術驅動視聽升級

要提高視覺體驗,最基本的是增加可以觀察到的細節,而跟細節最相關的就是解析度,但解析度需要終端設備支援,所以這是第一點,也是最重要的。

第二是流暢絲滑的視覺體驗,目前大部分是顯示器是 60 赫茲,但也有 120 赫茲、240 赫茲、甚至 360 赫茲的顯示器,赫茲代表著螢幕每秒的刷新率,也就是每秒鐘螢幕出現影像畫面的次數。螢幕支援的赫茲數越高,每秒顯示的畫面也就越多,影片觀感也更流暢。

之前的頻寬不足,不足以支援那麼多的畫面訊號傳輸,而影片本身的幀數也達不到流暢的體驗。

當然,技術可以彌補影片自身上的不足,來提高影片的視覺體驗。

image.png

第一個是關注細節,第二關注流暢度,第三關注色彩。4K 內容是有國家明確規範的,你要想稱之為 4K 內容,你要先滿足這些條件。

從這三個層次來看,技術上追求細節可能就會出現很多瑕疵,因為這裡很多初試者,經常用 GAN 系列技術,在生產過程當中會經常出現不可控因素,導致出現瑕疵。

實話說,我一直想把視覺生產定義成可控的視覺內容生產,既能夠保證細節的還原,同時又能夠保證瑕疵的控制,這需要很核心的技術,這是第一。

image.png

第二個,演算法除了要控制超解析度以外,另外演算法的源頭是什麼?是數據,大家普遍覺得數據有兩種,低解析度和高解析度,因為低畫質和高畫質是一對的。

這些數據怎麼獲取,有很多手段。主要的辦法是用人工的方式、高成本的方式,獲取這兩種數據,能不能用技術的方式真正生產高模擬、高真實的數據對(data pair),這是未來很大的一個課題。

最後要使 AI 技術在實踐當中使用,把效果和效率上平衡做好,這本身也是個問題。

第一個要解決的是數據規模。因為 AI 的數據規模是海量的,在這些場景大家感受到的比較差的畫質,很多細節都已經損失掉了。很多模糊的東西,色彩不對的地方,AI 是無法憑空繪製出這些數據的,所以能不能設計個方案,使 AI 用演算法自動獲取真實的數據,目前,這是非常難的一個課題。

在比較早的時候大家用簡單的方式,要想追求更好一點,可能用一些數據核,使得清晰的畫面變得不清晰,然後去製造一個數據對。當然可能做了核之後加一些東西,加一些雜訊,那有了這些以後是不是就行了?其實也不行,因為所有的影片要通過編碼、解碼,在傳輸過程中又會產生很多損失。

所以怎麼模擬損失的那部分?設計一個好的演算法,對編解碼本身也是很好的,這一系列考慮下來,低質和高質的數據對可以做非常多事情,這裡面牽扯到對雜訊的分析、場景的分析,不同場景關注點的不一樣,動漫畫更關注邊緣,運動場景比較高的關注運動的動作,還有複雜的場景可能會關注很多的細節。

image.png

所以在這些方面需要做非常多的數據分析和數據生產,也許平時大家就是做一個演算法,讓一堆人打標,畫框就行了,所以在這個問題中,數據對的生成是個命題,怎麼獲取到真實的訓練數據。當然這個數據除了真實以外還要有規模,達摩院在技術這一方面花費了很多的努力。

超高清生產實踐

image.png

接下來怎麼增強?比如怎麼增強人像,我們現在比較重要的方法就是加入 GAN 系列技術進去,達摩院開源了 GPEN 的高清演算法。

在各種影片新聞中,很多人像基於這個演算法做了修復,在 B 站等各平台播放,起到了很好的 PR 作用,這些都是基於達摩院的演算法去修復的。

這裡面第一個加入了 GAN 的先驗網路也加了生成式數據發生器。基本分三大類,第一類針對內容的,當然針對特徵層面的,還有針對 GAN 層面的 Loss 在裡面,所以可以得到針對人像非常好的基礎模型。這是其中一種。

當然對真實的物理世界來說人雖然是最重要的,但文字、風景等各種細節,也需要演算法來完善增強。

image.png

關於解決流暢度的問題,在很多時候,尤其在運動變化率非常大時經常會出現瑕疵,所以怎麼在不同的尺度、出現不同的瑕疵時,檢測並彌補修復,然後提升流暢度,這需要很多的工作來完善。

除了細節增強,數據的還原、生成,還有瑕疵的檢測,差分的檢測,顏色的調準,非常多演算法可以發揮它的作用,這一系列組合起來影片才能夠完成從低清到 4K 到 8K 的演進,這本身也是個系統工程。

image.png

所以從這三個維度也無所謂傳統與不傳統的方法,大家都是利用深度學習的方法增強解析度,幀率、色彩還有細節,還有在不同場景下怎麼完善演算法更好。

有了這些演算法,形成真正可用的產品和服務還有很長的路要走,這就是系統工程要做的事情。基本來說,從原創的素材,加上 AI 視覺生產、智慧生產,畫面增強,還有內容加工,得到內容之後怎麼編輯、修改、生成封面、拆條,這裡面都可以做很多的技術來發揮作用。

圖片.gif

上圖展現了人物照片 AI 增強後的效果,利用開源的 GPEN 高清演算法實現面部增強,增強後的視覺效果很棒,但實際上還有很多難點在裡面,如果這個照片源頭非常差或者受到很嚴重的污損,要想做好的增強還是很困難的。

另外這是一個綜合的東西,可能用到面部的增強,但也不能脫離環境生產,要和背景相結合。如果是很古老的照片,還要做色彩還原,包括黑白變成彩色等。

畫質增強,當然對於影片來說更複雜,原始畫面的比較暗,但加上色彩會更加生動,再加上超分以後細節更突出,這時車不是那麼流暢,加一個差分使得汽車行駛畫面更流暢。從色彩到細節再到流暢度再加上場景增強,形成了完整的視覺增強,這是屬於影片視覺處理技術。

達摩院影片綜合增強 效果展示

//v.youku.com/v_show/id_XNTE5MTkzODIxMg==.html

最後 AI 驅動高清往前走,智慧是最基本的,達摩院是做 AI 技術的,所以能不能自適應去做事情非常重要。自適應好像很簡單,但事實上在不同的場景,AI 技術並沒有所謂的普適性的能力。

在有卡通時,有新聞人物時,有紀錄片時,我們希望 AI 能夠有適應的完整系統,用萬能的模型去處理,而不是單一的模型,使 AI 自適應的針對不同場景採用最優質的演算法。

最後自我評估這是很重要的有意思的話題,對於主觀的影片增強技術好不好,如何去評判它,本身也是很困難的事情,達摩院也會在影片增強技術投入很多的時間去做,去完善。

當然還需要系統去承載它,影片雲就是這個基礎設施平台,使得可以高效率規模化地做各種各樣 AI 影片視覺增強的任務

image.png

當然現在 AI 慢慢朝著兩個維度走,第一個走向消費者,平民百姓,為大家服務。另外深入到各行各業為大家提供降本提效,以及創新各種各樣的機會。AI 技術將基於影片雲,驅動未來的高清視界。

「影片雲技術」你最值得關注的音影片技術公眾號,每周推送來自阿里雲一線的實踐技術文章,在這裡與音影片領域一流工程師交流切磋。公眾號後台回復【技術】可加入阿里雲影片雲產品技術交流群,和業內大咖一起探討音影片技術,獲取更多行業最新資訊。