站在巨人的肩膀上談-計算機視覺走向未來
作者:Tassel
論如何看待計算機視覺的未來走向?
一、引言
我們在不知不覺中感受到計算機視覺給予的便利,如人臉識別。如果沒有深刻而持久的研究,在今天看起來習以為常的事情是無法實現的。因此,站在巨人的肩膀上談計算機視覺的未來走向,可以很明確地說,技術的產生本身就是為人民服務的,如果有更好的技術替代,新技術的產生必然會造成舊技術走向衰落。入行計算機視覺不久,看過不少技術大牛的博客,受益匪淺,今有大牛談及技術和產品的關係即是硬件之於軟件的關係,個人表示贊同。當兩者無法以相匹配的速度發展時,便是行業瓶頸的到來。
二、計算機視覺的基本任務
計算機視覺主要解決分類、分割、定位、檢測四大基本任務。
圖像分類:圖像分類就是就是已有固定的分類標籤集合,然後對於輸入的圖像,從分類標籤集合中找出一個分類標籤,最後把分類標籤分配給該輸入圖像。目前圖像分類中的難點有以下幾個方面:
1.大小變化(Scale variation):物體可視的大小通常會發生變化,比如形變等等,以及圖像中物體尺度的變化。
2.視角變化(viewpoint variation):在同一個物體中,攝像機可以從多個角度進行圖像獲取。
3.遮擋(Occlusion):目標物體可能被其他物體遮蓋。有時候只有物體邊緣部分是可見的。
4.類內差異(Intra-class variation):一類物體的個體之間的外形差異很大,比如椅子。這一類物體有許多不同的對象,每個都有自己的外形。
5.光照條件(Illumination conditions):在像素層面上,光照的影響非常大。
6.背景干擾(Background clutter):物體可能混入背景之中,使之難以被辨認。
圖像分割:圖像分割就是把圖像分成若干個特定的、具有獨特性質的區域並提出感興趣目標的技術和過程。它是由圖像處理到圖像分析的關鍵步驟。現有的圖像分割方法主要分以下幾類:基於閾值的分割方法、基於區域的分割方法、基於邊緣的分割方法以及基於特定理論的分割方法等。
從數學角度來看,圖像分割是將數字圖像劃分成互不相交的區域的過程。圖像分割的過程也是一個標記過程,即把屬於同一區域的像素賦予相同的編號。
目標定位:如果說圖像識別解決的是what,那麼,物體定位解決的則是where的問題。利用計算視覺技術找到圖像中某一目標物體在圖像中的位置,即定位。
目標檢測:在目標定位中,通常只有一個或固定數目的目標,而目標檢測更一般化,其圖像中出現的目標種類和數目都不定。因此,目標檢測是比目標定位更具挑戰性的任務。
三、計算機視覺中的創新點
1. 人臉識別中目標物被遮擋或部分遮擋問題(當前疫情常態化戴口罩的識別問題)
2. 燈光補償和過度曝光導致目標物識別困難的問題
3. 高動態環境下的目標計數、目標追蹤等問題
諸如此類的問題還有很多,從算法和性能層面還有待突破。
四、現狀分析
就目前計算機視覺的發展現狀分析,學術界對比工業界已是相形見絀。
從研究者的角度來說,學術研究過於依賴大數據的訓練,而訓練數據對算力要求很高,進而引出計算機硬件成本過高的問題,硬件和軟件是相輔相成的關係。從應用層面來說,目前技術落地環境較為單一,適用場景限制了產品的研發和推廣應用。人工智能的興起,使得多數人都在討論AI技術如何落地,我們可以預言的是,計算機視覺在未來與機械人結合,賦予機械人「眼睛」,這裡所談及的機械人可以是服務機械人、特種機械人、無人駕駛、AR等等。