昇騰CANN論文上榜CVPR，全景影像生成演算法交互性再增強！

2022 年 3 月 22 日
筆記
CANN, CVPR, 華為雲新鮮技術分享, 影像布局, 影像生成, 昇騰AI處理器

摘要：近日，CVPR 2022放榜，基於CANN的AI論文《Interactive Image Synthesis with Panoptic Layout Generation》強勢上榜。

本文分享自華為雲社區《昇騰CANN論文上榜CVPR，全景影像生成演算法交互性再增強！》，作者：昇騰CANN 。

近日，CVPR 2022放榜，基於CANN的AI論文《Interactive Image Synthesis with Panoptic Layout Generation》強勢上榜。這為AI發燒友們開闢了一條新的影像生成之路，讓疫情肆虐下足不出戶的你，隨手選擇幾個類別的基礎元素，並做大小和位置的拖動，便能自動生成一副攝影作品，堪比專業攝影師！

CVPR全稱IEEE Conference on Computer Vision and Pattern Recognition，是電腦視覺領域三大高峰會之一，並且是唯一一個年度學術會議。在快速更新迭代的電腦學科中，CVPR已然成為了電腦視覺領域的「頂流」。

本論文基於互動式的影像生成，提出基於全景布局（Panoptic Layout）輔助影像生成的方法，即PLGAN（Panoptic Layout Generation）演算法，提高了交互場景下生成影像的品質及其穩定性。該論文在COCO-Stuff和VG兩個公開數據集和自行收集的Landscape風景數據集上，進行了實驗驗證並取得了很好的效果。目前已經在華為Atlas系列伺服器上實現了該演算法，其配備了昇騰AI處理器提供算力支援，並藉助異構計算架構CANN（Compute Architecture for Neural Networks）充分釋放硬體澎湃算力，發揮極致AI性能。

論文鏈接：//arxiv.org/abs/2203.02104

下面我們來看下對比互動式影像生成方法Grid2Im，本論文PLGAN演算法的表現效果：LINK

大多數互動式影像生成方法，都採用生成影像布局（Layout）為中間結果，來輔助最終的影像合成（例如 Grid2Im [1]）。為了解決交互場景下影像生成品質穩定性問題，我們從影像布局（Layout）構建入手。通常的影像布局（Layout）有逐像素填充的語義圖層（例如GauGAN），還有基於Bounding Box的實例影像布局（Instance Layout）。

語義圖層在空間布局上逐像素對應生成的影像，可以很好的控制需要合成的影像，但其構建比較複雜，因此大多數多模態影像生成和交互場景採用實例影像布局（Instance Layout）。然而，實例影像布局（Instance Layout）本質上是採用由不同物體的位置方框（Bounding Box）和形狀（Mask）組合而成的，不同物體的位置方框（Bounding Box）之間和形狀邊緣的不匹配，都會出現影像布局填不滿的情況，在用戶交互的場景下尤其明顯，這使得以此為條件的條件生成模型，在最終生成影像中出現偽影和雜訊，如圖1所示。因此構建一個可以解決此「區域缺失」問題的影像布局（Layout），是我們所關注的重點。

針對上述問題，我們引入全景分割[3]的概念，提出了基於全景布局（Panoptic Layout）的影像合成方法。在全景分割問題中[3]，將物體類別分為了可數類（things）和不可數類（stuff），其中可數類（things）指有特定形狀的前景類別，不可數類（stuff）指沒有特定形狀的背景類別。因此我們引入此概念，將通常的實例布局（Instance Layout）構建過程中分為Instance分支和Stuff分支分別處理可數類（things）和不可數類（stuff），如下圖所示。

Instance分支採用通常的做法，先同時生成位置方框和形狀，然後將其組合成實例布局（Instance Layout）。對於Stuff分支則使用全新的做法，直接生成填充布局（Stuff Layout），由於此結果是直接由模型通過Softmax層得到，其在整個影像空間上，不會有空缺部分，以此來解決「區域缺失」問題。因為對於不可數類別，其形狀也不是固定的，這種整體生成的方式對於類別識別來說，不會帶來很大的影響。分別生成的兩個布局，可以通過ISA-Norm層來聚合到一起，形成最後的布局（Layout）。從布局（Layout）到最終的影像生成，我們採用SOTA模型CAL2I [2]方法，得到最終的合成影像。

在實驗設計上，我們採用對公開數據集的標註資訊做擾動的方式，模擬互動式場景下的輸入，在指標和視覺對比上，都得到了SOTA（state of the art）水平，尤其在輸入擾動的情況下，生成影像的品質更加穩定。

昇騰社區同步上新基於該論文的AI試玩應用，小夥伴們在給定的畫布中，可以選擇任意元素，大海、沙灘、天空，隨心拼接拆合，然後通過華為Atlas 200DK推理，可實時生成獨一無二的真實AI風景畫，單擊LINK快速訪問。

特別福利：近期，我們也將邀請論文作者進行在線分享，歡迎關注「CANN訓練營」活動，精彩不容錯過！

參考文獻：

[1] Oron Ashual and Lior Wolf. Specifying object attributes and relations in interactive scene generation. In Proceedings of the IEEE International Conference on Computer Vision, pages 4561–4569, 2019.
[2] Sen He, Wentong Liao, Michael Yang, Yongxin Yang, Yi-Zhe Song, Bodo Rosenhahn, and Tao Xiang. Context-aware layout to image generation with enhanced object appearance. In CVPR, 2021.
[3] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Doll´ar. Panoptic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9404–9413, 2019.

點擊關注，第一時間了解華為雲新鮮技術~

Tags: CANN CVPR 華為雲新鮮技術分享影像布局影像生成昇騰AI處理器

昇騰CANN論文上榜CVPR，全景影像生成演算法交互性再增強！

VirMach 便宜 VPS

QNews

昇騰CANN論文上榜CVPR，全景影像生成演算法交互性再增強！

分享此文：

Related Posts

分支對程式碼性能的影響和優化

前端模組化之CommonJS

realme首款旗艦降噪耳機Buds Air3發布：首發349 比肩1999

《艾爾登法環》神秘區域一接觸就猝死 靜待官方修復

VirMach 便宜 VPS

QNews

熱門文章

熱門搜尋

《艾爾登法環》神秘區域一接觸就猝死靜待官方修復