站在巨人的肩膀上談-電腦視覺走向未來
作者:Tassel
論如何看待電腦視覺的未來走向?
一、引言
我們在不知不覺中感受到電腦視覺給予的便利,如人臉識別。如果沒有深刻而持久的研究,在今天看起來習以為常的事情是無法實現的。因此,站在巨人的肩膀上談電腦視覺的未來走向,可以很明確地說,技術的產生本身就是為人民服務的,如果有更好的技術替代,新技術的產生必然會造成舊技術走向衰落。入行電腦視覺不久,看過不少技術大牛的部落格,受益匪淺,今有大牛談及技術和產品的關係即是硬體之於軟體的關係,個人表示贊同。當兩者無法以相匹配的速度發展時,便是行業瓶頸的到來。
二、電腦視覺的基本任務
電腦視覺主要解決分類、分割、定位、檢測四大基本任務。
影像分類:影像分類就是就是已有固定的分類標籤集合,然後對於輸入的影像,從分類標籤集合中找出一個分類標籤,最後把分類標籤分配給該輸入影像。目前影像分類中的難點有以下幾個方面:
1.大小變化(Scale variation):物體可視的大小通常會發生變化,比如形變等等,以及影像中物體尺度的變化。
2.視角變化(viewpoint variation):在同一個物體中,攝像機可以從多個角度進行影像獲取。
3.遮擋(Occlusion):目標物體可能被其他物體遮蓋。有時候只有物體邊緣部分是可見的。
4.類內差異(Intra-class variation):一類物體的個體之間的外形差異很大,比如椅子。這一類物體有許多不同的對象,每個都有自己的外形。
5.光照條件(Illumination conditions):在像素層面上,光照的影響非常大。
6.背景干擾(Background clutter):物體可能混入背景之中,使之難以被辨認。
影像分割:影像分割就是把影像分成若干個特定的、具有獨特性質的區域並提出感興趣目標的技術和過程。它是由影像處理到影像分析的關鍵步驟。現有的影像分割方法主要分以下幾類:基於閾值的分割方法、基於區域的分割方法、基於邊緣的分割方法以及基於特定理論的分割方法等。
從數學角度來看,影像分割是將數字影像劃分成互不相交的區域的過程。影像分割的過程也是一個標記過程,即把屬於同一區域的像素賦予相同的編號。
目標定位:如果說影像識別解決的是what,那麼,物體定位解決的則是where的問題。利用計算視覺技術找到影像中某一目標物體在影像中的位置,即定位。
目標檢測:在目標定位中,通常只有一個或固定數目的目標,而目標檢測更一般化,其影像中出現的目標種類和數目都不定。因此,目標檢測是比目標定位更具挑戰性的任務。
三、電腦視覺中的創新點
1. 人臉識別中目標物被遮擋或部分遮擋問題(當前疫情常態化戴口罩的識別問題)
2. 燈光補償和過度曝光導致目標物識別困難的問題
3. 高動態環境下的目標計數、目標追蹤等問題
諸如此類的問題還有很多,從演算法和性能層面還有待突破。
四、現狀分析
就目前電腦視覺的發展現狀分析,學術界對比工業界已是相形見絀。
從研究者的角度來說,學術研究過於依賴大數據的訓練,而訓練數據對算力要求很高,進而引出電腦硬體成本過高的問題,硬體和軟體是相輔相成的關係。從應用層面來說,目前技術落地環境較為單一,適用場景限制了產品的研發和推廣應用。人工智慧的興起,使得多數人都在討論AI技術如何落地,我們可以預言的是,電腦視覺在未來與機器人結合,賦予機器人「眼睛」,這裡所談及的機器人可以是服務機器人、特種機器人、無人駕駛、AR等等。