資訊流場景中的電腦視覺技術應用

  • 2019 年 11 月 22 日
  • 筆記

文章作者:李習華 內容來源:碧空的cv之旅@知乎專欄

從今日頭條開始,各家公司把戰火從傳統的搜索領域燒到了資訊流領域。今年,百度在基於手百的資訊流上超過頭條;騰訊的QQ瀏覽器、QQ看點、新聞、快報、微信看一看組合在一起的資訊流也有足夠大的體量;同時,各手機廠商,也藉助端設備及設備原生瀏覽器app開始大舉進入資訊流領域。

無論從用戶時長,還是商業變現模式上來講,資訊流都有很大的優勢;另外,資訊流作為第三代的用戶獲取資訊的渠道(第一代:門戶,第二代:搜索,第三代:資訊流推薦),也有現實的用戶需求。因此成為各個資訊流app競爭的戰場,並且在可預見的將來,這個領域的競爭會更加激烈,遠沒有到寡頭形成的情況。當然,未來用戶獲取資訊的渠道、內容都會具有多樣性,各app也都會有各自的生存空間,諸侯割據。

言歸正傳,我們來討論資訊流領域的電腦視覺技術。資訊流屬於內容領域,因此在內容領域的各個環節都涉及到電腦視覺技術,包括:內容生成、內容審核、內容理解、內容分發4個主要的環節。整體流程如下圖:

本質上,內容審核和內容分發甚至是內容生成都涉及到或者說都是基於對於影像和影片不同粒度、不同層次的理解。這裡把每個部分分開更多的是方便後續對資訊流中影像、影片內容整體的流向進行說明。涉及電腦視覺技術的對象一定包含影像或者影片,我們來看幾個典型的資訊流的截圖:

圖中可以看到,涉及電腦視覺技術的主體包含:

圖文廣告中的圖片、動態jf圖; Feeds展示頁中的圖片; Feeds詳情頁中的圖片; Feeds展示頁中的影片首圖; Feeds內容頁中的影片。

事實上,feeds中涉及到的一切和圖片和影片相關的內容都是本文中涉及的對象。甚至包括廣告中涉及到的圖片、jf圖、影片等。我們通過下面的圖片來了解一下用戶通過APP瀏覽到的feeds都經過了什麼樣的大致流程。

下面對每一塊對電腦視覺技術的需求做一些梳理。

內容生成

在上圖中提到了圖文、影片內容的生成源頭,實際上不同的源頭對電腦視覺技術的需求專業度、層次也不一樣。有些技術由APP方提供,有些技術有第三方的工具提供。UGC、PGC、OGC對應不同的內容生產渠道,我們簡單的介紹一下。

UGC:用戶自己生產內容自己消費。 PGC:專業生產內容。比如我們在短影片中經常看到的電視劇的經典片段,多數是PGC生產的。 OGC:品牌生產內容,是指有一定知識和專業背景的行業人士生產內容,並且這些人士會採取相應的報酬。如平台媒體的記者、編輯,既有新聞的專業背景,也有以寫稿為職業領取報酬。

針對UGC,用戶自己產生的內容,我們說對應的電腦視覺的需求非常多。比如我們平時使用的美圖、裁剪、磨皮、各種濾鏡;用戶UGC的短影片中的各種特效背後都是電腦視覺演算法;還有一些場景,比如大疆無人機的video生成技術,實際上是對一段長度在5-10分鐘的航拍影片進行video summary,當然這其中也有挑選好的場景、挑選好的畫質等等技術。

針對PGC和OGC,有很多共性的需求。非常多的用於影像、影片處理的編輯的專業軟體背後都是強大的電腦視覺技術,甚至包括動畫、特效等等背後的技術。有一些技術需求,很隱性,舉個例子:現在有一段西遊記的影片,希望能夠快速剪輯孫悟空的影片片段,這其中這涉及到通過圖片、音頻對孫悟空的識別技術來提升剪輯效率。

針對OGC,最近發現抖音上有一些影片技術是對影片片段中的目標(logo、食品等)進行識別,然後替換成具有商業價值的廣告的技術。這背後都是電腦視覺技術在做支撐。

在內容生成領域,我們將應用到的電腦視覺技術概括如下:

內容審核

內容審核對各個公司都非常重要,從互聯網誕生的那一天起,就存在內容審核。早期基本上都是人工,目前大致是人工+機器共同來完成整體的審核任務。早期的內容審核主要是鑒黃,現在內容審核擴展到了對圖片和影片的鑒黃、暴恐識別、敏感人物識別、反感內容識別、廣告識別、廣告文本識別、違法宣傳、二維碼等非常多的維度。

本質上,內容審核是對圖片、影片內容的理解,並根據法規、以及讓互聯網更健康為基本原則對不符合要求的圖片、影片內容進過濾和分級。關於內容審核,總結起來,包含下圖中的技術和業務。

內容理解

內容理解實際上是在對圖文feeds,短影片進行結構化。目的是為了更好的做存儲,篩選,過濾,召回,以及最後的內容分發。對人而言,內容理解實際上是一個非常高級的思維活動,比如一張圖片,有些人關注構圖,有些人關注清晰度,有些人關注圖片裡面的明星是誰,有些人則關注背景當中的車的品牌,毫不誇張,一千個讀者有一千個哈姆雷特。

那對於機器而言,基於現有的電腦視覺技術,機器能做的其實比較有限,在這裡,我們列舉一下通過電腦視覺技術對影像、影片進行理解的大致技術。

1. 圖片+影片的單標籤、多標籤、caption技術:這個也是目前工業界大家都在、都會、都力爭做好的技術; 2. 圖片+影片中的粗粒度、細粒度物體識別技術:目的是為了識別到圖片+影片中更多的物體的細節;比如識別到圖片中有汽車,更需要知道汽車的車型、顏色、品牌的資訊;如果識別到人,更需要知道這個人的年齡段、穿什麼樣的衣服,如果可能,知道這個人是誰; 3. 圖片+影片場景識別技術:很多時候,場景和標籤可以合併; 4. 結合影片語音的內容理解技術,多模態識別技術; 5. 通過相似圖片、影片檢索獲得對應圖片、影片語義理解的影像搜索技術。

這個領域基本上涵蓋了電腦視覺的方方面面,也是當前電腦視覺在力爭解決的問題。總結起來,可以將對應的技術和需求概括如下:

內容分發

我們簡單介紹一下類似頭條、手百、抖音、QQ瀏覽器等產品進行內容分發的目的。本至少,會有多個目標,但不同階段會有不同的側重。某些情況,希望得到更多的用戶時長;某些情況,希望能夠獲得更多的用戶點擊、關注、轉發;有些情況,希望能夠獲得更多的商業回報。

分發技術是為了把用戶可能興趣的內容推薦給用戶。所以涉及到方方面面,包括用戶畫像、用戶的歷史行為、用戶當前處的環境,一個典型的feeds流推薦系統大致如下(示意圖):

所以電腦視覺技術在分發中的應用主要是通過對圖片、影片的理解,再結合文本內容,形成內容向量。早期,內容向量中視覺相關部分由圖片、影片的標籤組成;目前,內容向量中視覺相關部分通過深度網路學習到的特徵向量的Embedding獲得。

這裡,我提到了內容向量中視覺相關部分。其他的內容向量由文本標題、描述、以及對應影片上的用戶行為(點贊、轉發、評論等)等形成。

最後,總結一下,我們從4個部分分別簡述了feeds流中電腦視覺技術的應用場景,實際上我們發現,他涵蓋了幾乎電腦視覺領域的所以研究熱點。也包含了電腦視覺領域從低、中、高多個層次對圖片、影片內容的理解。但看似簡單的技術背後,要滿足實際的應用場景的要求,也有非常多的難點需要處理,將這些難點總結如下:

1、互聯網足夠豐富的素材內容將每一個問題都變成寬domain的問題。舉個例子,OCR識別,規範化、常見字體的OCR識別目前已經做得足夠好了,但是通過藝術字體和美術設計的OCR識別依舊很困難;甚至在廣告審核中,作弊者會嘗試非常多種的文字排版、設計方式,來欺騙AI系統,增加困難度; 2、少有的客觀評價。圖片、影片電腦視覺技術中,有部分不存在客觀的評價。比如圖片的美學評分,有人認為清晰的圖片評分高,但有些藝術、攝影圖片會故意製造模糊。比如video summary,本身也沒有客觀的標註,或者說有客觀標準的summary就不是藝術,每一個做剪輯的工作者對同一段影片剪輯出來的精彩片段是不同的; 3、業務變化、需求變化:實際上這是所有學術成果轉化到實際工業場景必須面臨的問題。學術界一般都假設研究課題被well define,大家在同樣的標準下來評比。但對於實際業務,需求、業務形態、技術的使用方式都變化很快,需要有良好的業務意識來調優; 4、如何證明業務價值:老大難的問題,因素很多…本質上,是分蛋糕的問題。