從「生態光學」取經,伯克利曹穎提出解決物體遮擋問題方案,登PNAS

  • 2022 年 10 月 20 日
  • AI
「向傳統視覺研究尋求破局之法」成為了近年來電腦視覺領域的一大趨勢。將傳統視覺技術與深度學習方法結合有望構建更為魯邦的下一代視覺模型。

近日,著名電腦視覺、神經科學學者曹穎在美國科學院院刊 PNAS 上發表研究論文,基於 J.J.Gibson 的「生態光學」和微分拓撲學提出了一種新的影像分割與目標跟蹤框架,對電腦視覺和生物視覺研究具有巨大的啟發意義。

作者丨曹穎、Thomas Tsao

編譯丨OGAI

編輯丨陳彩嫻

我們所生活的世界由物體、地面和天空組成。視覺感知需要解決兩個基本的問題:

(1)將視覺輸入分割成離散的單元;

(2)考慮可能由於物體變形、視角變化和動態遮擋導致的外觀變化,跟蹤分割出的單元。當下的電腦視覺分割和跟蹤方法都需要進行學習。

那麼,機器可以無需學習就分割出對象並進行跟蹤嗎?

本文作者指出,從環境表面反射的光線的數學結構產生了恆常性表面的自然表徵,這種表徵為分割和跟蹤任務提供了一種解決方案。

本文描述了如何根據連續的視覺輸入生成這種表面的表徵。對於一些合成的背景雜亂的影片,儘管物體出現了嚴重的外觀變化,本文提出的方法可以在無需學習的情況下分割出物體,並持續跟蹤它們。

靈長類動物的視覺系統可以將由視網膜接收的影像流組成的視覺輸入轉換為對穩定、離散物體的感知訊號,而人們尚未充分研究清楚這種感知組織過程。從傳統上說,這一過程被分解為兩個獨立的問題:(1)分割問題。將某張影像中的視覺像素分組為不同的物體(2)跟蹤問題。識別出不同影像中外觀產生變化的物體。

這兩個問題都極具挑戰性。如圖 1 所示,分割任務是非常困難的。因為距離較遠、顏色不同、紋理不一的像素可能屬於同一個物體,而相鄰的、具有相同顏色/紋理的像素可能屬於不同的物體(圖 1A)。而對於跟蹤任務而言,由於物體變形、視角變化或動態遮擋,同一物體的外觀可能發生劇烈變化(圖 1B)。

圖 1:目標分割和跟蹤任務面臨的挑戰,以及 Gibson 提出的解決方案框架。

傳統的電腦視覺研究通常通過基於影像強度、顏色和紋理的區域增長方法來解決分割問題,這些方法依賴於從單幅影像中提取的屬性。

近年來的大多數影像分割工作的則採用了基於深度學習的方法。以往的工作主要通過概率化的動力學建模或「基於檢測的跟蹤」來解決跟蹤任務,最近的方法則結合了深度學習技術。

雖然早期用於分割和跟蹤的學習方法是有監督的,需要大型有標籤的訓練集,但最近許多無監督方法湧現了出來。本文從計算的角度探索了分割和持續跟蹤目標能力的起源,表明在原則上可以在不學習、有監督或無監督的情況下解決該問題。

作為對基於影像的分割和跟蹤方法的補充,基於幾何的方法將視覺視為一個逆向的圖形學問題。在該框架下,視覺系統通過將三維圖形模型反轉,根據影像推理出三維表面。然而,由於在透視投射到視網膜上的過程中失去了深度的維度,因此這種反向推理過程不完全受約束,這意味著根據經驗廣泛學習是必要的。

本文證明了,如果輸入某個場景的影像序列,其中觀察者或物體都在移動,根據影像推理三維曲面的問題實際上是完全受限的。本文通過數學分析和計算實驗證明,只要滿足以下兩個自然的假設:

(1)世界是由物體組成的,即具有局部恆定光照的平滑紋理表面的離散集合

(2)動物從移動的觀察點觀察世界,就可以在不需要學習的情況下,實現對環境中每個離散表面的分割和持續跟蹤。

本文的計算實驗僅限於合成影片,但本文提出的方法也適用於高品質的影像,可以很容易地擴展到自然條件下。

本文本質上從數學上實現了心理學家 J. J. Gibson 的「視覺感知的生態學方法」。Gibson 指出,理解人類視覺的關鍵是在 3D 環境和人眼之間插入一個「環境光學陣列場」。

如圖 1C 所示,空間中一點的環境光學陣列由來自環境中被照亮的表面通過該點的光線的 2D 分布組成。環境光學陣列場是由一套被 Gibson 稱為「生態光學」的定律支配的,這些定律可以解釋視覺感知的大部分現象:「與其完全從神經系統的角度解釋感知,我希望在一定程度上從光本身進行解釋。生態光學就是一種解釋的方式」。在 Gibson 提出視覺生態光學方法後的幾十年里,這個重要的概念在電腦視覺界引起了越來越多的關注。

本文用精確的數學術語表述了 Gibson 的理論並實現了計算。數學分析表明,物體表面資訊可以通過兩種拓撲結構(立體微分同胚映射的偽變換群和無窮小增長邊界集冗餘地表示為光學陣列場。從生態光學的角度來看,視覺是一個完全受約束的適定性問題。環境光學陣列場的視覺環境中包含將物體感知為離散的、持久的單元的完整資訊。


1

物體的表面表徵

與味覺和觸覺不同,視覺使動物無需直接接觸就能感受環境。在視覺中,遠端刺激(環境中的物體)和近端刺激(視網膜上的光)之間的鏈接是環境表面反射的光,在每個觀察點上形成了 Gibson 提出的「光學陣列」。

圖 2:目標分割與跟蹤的拓撲解決方案

給定一個包含多個物體的複雜場景(圖 2A),分割任務旨在識別物體邊界(boundary)。我們可以從影像中所有邊緣(edge)的圖開始(圖 2B)開始進行分割,物體的邊界應該是這些邊緣的子集。關鍵的難點在於,有些邊緣是「紋理邊緣」(如圖 2A中貼紙的邊緣),而有些邊緣是真正的物體邊緣(如圖 2A 中蘋果的邊)。本文證明了場景的相近視角之間轉換的資訊可以用來區分這兩種類型的邊緣。

具體而言,如果一個空間區域包含一個表面的圖塊,那麼從附近的觀測點獲取的兩個圖塊彼此將是微分同胚的。也就是說,人們可以通過像拉伸和彎曲橡膠片一樣來配准它們(圖 2C)。

本文展示了如何通過迭代的優化方案,用一組局部 Gabor 感受野動態地進行仿射變換,消除兩個圖塊之間的變換(見圖 5)來計算這種微分同胚映射。然而,如果一個圖塊包含一個物體邊緣,那麼在邊緣的一側,圖塊將是微分胚性的,而在另一側則不是。因為從一個角度看,背景的一部分是可見的,而從另一個角度看則是不可見的,這導致了微分同胚映射的「單側失效」(圖 2D)。

在視覺心理物理學中,這種現象被稱為「達芬奇立體視覺」。這提供了一種有效的方法來區分紋理邊緣和真實的物體邊緣:對於每個邊緣元素,確定邊緣每側的微分同胚映射。物體的邊界僅在一側伴隨微分同胚映射。此外,我們可以將其視為擁有邊緣的一側(圖 2E)。通過在整個影像中重複這個過程,我們可以將一個邊緣圖轉換為一個真正有資訊量的物體邊界圖(圖 2F)。

一旦以這種表面表徵框架對分割任務建模,電腦視覺中最困難的問題之一——持續目標跟蹤,就變得十分簡單了。

如圖 2G 所示, 我們可以通過查看這兩個圖圖塊是否通過一系列重疊的表面圖塊(如圖 2H 和 2I)相連來判斷兩個離散的圖塊是否屬於同一個不變的表面。因此,在表面表徵框架中,一個不變的物體構成了表面圖塊的等價類,其中等價關係由表面重疊定義。

重要的是,解決分割的相同的微分同胚映射機制讓我們可以計算這些表面重疊,從而連接(即跟蹤)同一曲面隨時間變化的不同視圖。即使一個表面的外觀經歷了劇烈的變形(例如,一匹馬的前視圖和後視圖),只要只要連續的視圖之間存在局部微分同胚關係,跟蹤過程就可以很容易地將視圖連接起來。



2

從數學理論視角看表面表徵

在這裡,本文從數學上表達生態光學的規律。我們表明,用於解決分割和不變性問題的數據,以及更普遍地用於獲得視覺表表徵的數據,在動物的近端視覺環境中是充分且冗餘的。

分割和不變性問題可以被形式化定義為:確定從一系列觀測點看到的兩個圖塊是否屬於同一個物理表面。在單視圖場景下,上述定義對應於分割問題。在一段時間內連續的一系列視圖的場景下,這對應於跟蹤問題。該問題依賴於一個關鍵屬性——表面連續性,這是一種拓撲性質,而不是基於影像的性質,利用從不同角度拍攝的成對影像計算,而不是從單個影像中計算而來。

本文引入兩個拓撲空間:一個用於描述環境中的 3D 物體(遠端刺激),另一個用於描述從這些物體反射並匯聚在環境中的每個觀測點的光線(近端刺激)。本文研究了這兩個空間之間的映射關係,證明了前一個空間中物體的拓撲組織資訊在後一個空間中準確地表徵。換而言之,對不變的物體的視覺感知是可能的。

圖 3:通過立體微分同胚映射對局部和全局的表面近鄰性進行編碼。

如圖 3 所示,局部表面連續性的性質是根據「從不同視角拍攝的一對影像之間存在/不存在一種特定類型的映射來指定的,即「立體微分同胚映射」。這為拓撲影像分割提供了關鍵要點(見圖 3 A-C)。如果兩個曲面表示都包含由立體微分同胚映射相關的部分,則它們是同一物體的兩個表面表示,這種全局拓撲特性提供了不變性的關鍵要點(見圖 3D)。

圖 3 的具體解釋如下:

(A)將點 P 投影到極坐標系中的射線空間 S(O) 中,r=(θ,φ)。

(B)遠端歐氏空間的表面鄰近性在近端視覺空間中被準確編碼。如果一個點的鄰域是環境中一個相鄰局部表面圖塊(例如,包含字母「A」的表面圖塊)的透視投影,則可以根據該鄰域找到一個到相鄰射線空間的立體微分同胚映射。相交的射線對對應於轉換空間 S(O_1) × S(O_2) 中的立體光線對。

(C)遠端歐氏空間中的表面離散性在近端視覺空間中被準確地編碼。我們無法為包含遮擋輪廓的點的射線空間中的鄰域找到與相鄰的射線空間的微分同胚映射。射線空間中 O_1 處的這樣輪廓段用垂直的品紅短線標記;它是一個在透視投影下摺疊的物體的射線空間影像,構成了一個無窮小的增長。這是因為,隨著觀測點在所有者一側進行任何變化,(例如,移動到 O_2),輪廓都會增長。也就是說,邊界兩側的影像(兩條深綠色的垂直線)現在是正則的,沒有交點。

如下圖所示,遮擋輪廓的所有者由增長部分另一側確定。由於射線空間中所有不在遮擋輪廓中的點都具有表示局部表面圖塊的鄰域,遮擋輪廓提供了環境表面的緊湊而完整的表示。

圖 3 附:遮擋輪廓是增長部分的邊界。B 是 O 點視角的一個摺疊點,但對於 O ‘ 是正則點。

(D)遠端歐氏空間的表面持久性在近端視覺空間中被準確編碼。在 O_1 和 O_4 處的射線空間中的圖塊 A 和 C 代表同一相鄰環境表面的某些部分,因為它們由重疊的立體鄰域鏈連接,相當於 CC(Ω)。

其中,O_1 處的圖塊 A 和 O_2 處的圖塊 A 是 MS(Ω) 等價的。O_2 處的圖塊 B 和 O_3 處的圖塊 B,、O_3 處的圖塊 C 和O_4 處的圖塊 C 也是等價的。O_2 處的圖塊 A 和 O_2 處的圖塊 B 是重疊的,O_3 處的圖塊 B 和 O_3 處的圖塊 C 也是重疊的。

因此,在 O_1 處包含圖塊 A 的 MS(Ω)-等價類與在 O_3 處包含影像修補程式 B 的 MS(Ω)-等價類相關聯,後者可以進一步與在 O_4 處包含圖塊 C 的 MS(Ω)-等價類相連。因此,O_1處的圖塊 A 與 O_4 處的圖塊 C 是 CC(Ω) 等價的。該方案使同一全局表面的截然不同的視圖(例如,圖1 B 中馬的三個視圖)可以被視為屬於同一全局持久性表面。



3

表面表徵的演算法實現和實驗

正如幾何光學描述了物體上的點是如何通過光映射為影像平面上的點一樣,生態光學從拓撲上描述了三維歐氏空間中物體表面的重要結構(例如,連續性、空間分隔、部分重疊等性質)如何通過光映射為視覺空間中光線的拓撲結構:常規組件、透視映射、遮擋輪廓、增加/刪除遮擋輪廓周圍的部分、MS(Ω) 等價類和 CC(Ω) 等價類。

生態光學理論描述了動物視覺環境的物理事實,該理論並不依賴於視覺系統的存在。本文展示了一個在環境中移動的視覺系統如何通過計算利用視覺空間中光線的拓撲結構來感知視覺環境的拓撲,即感知離散的、不變的單元。

分割和不變目標跟蹤的計算方法

給定某個場景的影片幀的序列,其中觀測者和物體都在移動,我們需要根據表面連續性分割每一幀,為不同幀中統一物體的表面組件賦予同樣的標籤。

圖 4:拓撲學分割和跟蹤的計算實現。

我們首先使用標準的邊緣檢測演算法找到強度邊緣,例如,Canny邊緣檢測器(圖4A)。由於空間上分隔開來的表面之間的邊界影像可能具有不同的強度,我們假設在自然的觀測條件下,遮擋的輪廓(occluding contour)主要與強度邊緣相關。接著,我們隨機選擇一組已識別邊緣的鄰域進行進一步的拓撲分析。這些鄰域是從連續的幀中成對提取的(圖 4B)。

接下來,關鍵的步驟是,基於在分段邊緣段每側分別執行的連續幀之間的微分同胚映射檢測(圖 4 B-D),將邊緣段分類為紋理邊緣或遮擋邊緣,然後識別每個遮擋邊緣的所有者。根據數學理論,在紋理邊緣處,兩側計算的微分同胚映射是相同的;而在物體邊緣處,擁有該邊緣的鄰域與下一幀的中的該鄰域是微分同胚的,但另一側的鄰域則不是微分同胚的。

將紋理邊緣與物體邊緣區分開後,就可以識別出物體邊緣的所有者,並計算出連續幀的每個鄰域上的微分同胚性。這樣一來,我們就可以進行物體分割和跟蹤了

我們首先計算一個「超分割」映射,該映射為每個以輪廓為邊界的組件分配不同的標籤(圖 4D 左)。然後,為了計算分割圖,我們簡單地通過將任何純紋理區域(即毗鄰紋理邊緣但從來不擁有單側區域)的標籤重新分配為其相鄰的雙側所有者的標籤來擦除紋理邊緣(圖 4D 中)。

完成分割後,計算物體跟蹤圖的最後一步就變得很簡單了:確定持久性表面——包含圖塊的物體分割圖組件,與前一幀的單側所有者或純紋理微分同胚(圖 4D 中),並為每個持久性表面分配與前一幀(圖 4D 右)相同的標籤。注意,在這裡,我們再次使用了在分割階段執行的微分同胚檢測。

從廣義上講,本文提出的場景分割和跟蹤技術包含以下三組主要的步驟:

(1)邊緣提取和超分割圖的計算

(2)微分同胚映射關聯的計算

(3)利用關聯資訊,為超分割圖的組件重新分配標籤

微分同胚映射的計算

圖 5:計算微分同胚映射

對微分同胚映射的計算過程如圖 5 所示:

(A)為了計算以某一點為中心的兩個圖塊之間的微分同胚映射,我們將兩個圖塊投影到一組 Gabor 感受野 g_i(i = 1,…,18) 上,涉及 6 個方向和 3 個空間頻率。(圖 A 左上)由於透視投影的幾何約束和亮度恆定約束,我們通過放射變換 將兩個圖塊在局部關聯起來,對應於全微分同胚的泰勒級數展開中的第一項,從而得到了能量函數 E_i 的方程。為了計算該變換,我們求解 使 E = 0 的參數。(圖 A 右上)我們用牛頓法求解方程,需要計算導數矩陣 E_0。(圖 A 下)我們需要反過來計算 Gabor 感受野對仿射變換的每個參數的導數,將其稱為「Lie germ 感受野」。

(B)一對影像幀,左側綠色框中的部分以某個紋理輪廓上的點為中心;右側紫色框中的部分以遮擋輪廓上的點為中心,對應於圖 4C 所示的兩個相同的鄰域。為了給仿射變換計算提供足夠的支援,我們將圖塊的中心向左或向右移動。(左下)分別計算出在 i 幀和 i+1 幀之間計算的左右鄰域的仿射變換 T_1 和 T_2 的六個參數。這六個參數相等,意味著分隔兩個鄰域的輪廓是紋理輪廓。(右下)在不同的邊緣點上進行相同的計算,得到左右鄰域的仿射變換 T_3 和 T_4 。這六個參數不相等,這意味著分隔兩個鄰域的輪廓是一個遮擋輪廓。

(C)在遮擋輪廓處,前景側擁有輪廓。為了確定輪廓所有者,我們計算仿射變換 T3 和 T4。第 i 幀影像中圖塊的左右部分如第 1 列所示,變換後的圖塊的左右不分如第 2 列所示。第 i+1 幀中,圖塊的左右部分如第 3 列所示。輪廓所有者的第 2 列和第 3 列應該相同,被遮擋的一邊的第 2 列和第 3 列則對應於導致差異的增長/刪除的邊界。第四列底部的過程顯示了輪廓線右側的刪除邊界,意味著輪廓的所有者在左側。第 4 列中的差異被投影到 Gabor 感受野上,因此邊緣的差異被忽略了。

實驗結果

為了測試本文提出的系統,作者生成了一個包含 160 幀動態場景和四個物體的影片序列。這些物體經歷了嚴重的變形、視角變化和部分遮擋,而且,每個物體都包含一個內部的紋理輪廓為分割過程帶來挑戰。

圖 6:在包含多個對象的合成數據集中分割並跟蹤物體,儘管由於物體變形、視角變化和動態遮擋造成了嚴重的外觀變化。

通過前饋掃描所有幀,我們得到一個完整的場景圖,其頂點包含跨空間/時間的超級割組件,其邊緣對應於跨空間/時間的這些表面組件之間的連通性。

分割和跟蹤系統在每一階段處理後的輸出如圖 6A 所示。第 1 行顯示了四個不同時間點的輸入影像。第 2 行顯示了超分割圖。第 3 行顯示了物體的分割圖。第 4 行顯示物體跟蹤圖。第 5 行顯示了在計算不變的物體圖之後,通過反向掃描計算的修正後的物體跟蹤圖。

有了這個場景圖,我們就可以重新遍歷這些幀,並為屬於場景圖中相同聯通組件的分割圖中的每個表面分配相同的標籤。這使不同的表面組件隨著時間的推移在分割任務中被識別為同一對象的一部分。

這個場景圖的不同組件對應於不同的不變對象。圖 B 顯示了根據合成數據集計算出的場景圖的四個連通的組件,對應於三片樹葉和熊。每個頂點對應一個不同的超分割組件。A 中所示幀對應的每個圖分量的頂點用彩色表示。

實驗結果表明,本文提出的跟蹤方法對由於物體變形、視角變化和動態遮擋造成的形狀變化具有魯棒性。在圖 6 C 中,四張影像分別來自拓撲分割和跟蹤工作流程的不同處理階段,從左到右依次為:視覺輸入、超分割圖、區分出紋理圖塊的跟蹤到的表面組件、去除掉紋理圖塊的跟蹤到的表面組件。每個影像對應的四種不同的深度網路如圖所示。通過拓撲分割和跟蹤,可以將雜亂的輸入影像轉換/鏈接到獨立表面的無遮擋表徵。



4

討論與結語

本文展示了如何通過視覺表面表徵的生成將分割和不變性問題從一個需要特殊技巧或黑盒深度學習的不合理挑戰轉變為一個容易解決的問題。

在本文中,我們假設世界是由具有平滑紋理表面的物體組成的,動物從移動的觀察點觀看世界,並證明了有可能基於上述假設解決分割和不變跟蹤環境中每個離散表面的問題。

本文提出的理論解釋了如何從環境的透視投影中以不變的方式提取表面表徵,即相鄰表面組件的拓撲標籤及其形狀和位置的幾何描述。本文證明了通過檢測遮擋輪廓(帶有可見表面的空間上的分隔資訊)可以將影像分割成獨立的表面,通過檢測微分同胚性(帶有從不同視角可見的表面之間的重疊關係資訊)可以完成對影像序列中的不變表面的跟蹤。此外,本文不僅證明了該方法在數學上的有效性,而且證明了它在合成影片目標分割和不變跟蹤方面的計算效果。

人們普遍認為,影像沒有遮擋、表面、輪廓等資訊,只有像素的集合,而感知的目標就是「解讀」這些數據。本文展示了視覺系統如何返璞歸真地感知拓撲結構(遮擋、表面、輪廓等)。對這些拓撲結構的感知不需要依賴於觀察者的解釋,可以通過提取到的資訊直接指定這些拓撲對象及其在嚴格的數學意義上的關係。

為此,我們需要擴展透視投影的概念。透視投影通常被認為是從三維空間中的一點到影像平面上一點的映射。然而,為了理解真實彎曲物體的分割和不變跟蹤,需要完成如下步驟:(1)將透視投影視為從物體的 2D 表面到 2D 射線空間的映射(2)進一步放大焦點,從 2D 曲面如何投影到單個射線空間,延伸到如何投影到射線空間的場。

Gibson 的表面感知理論啟發了本文的研究。Gibson 觀察到,表面的連續性是由保序變換(光學陣列中用於連續性的可用資訊可以被描述為保持了鄰接順序),以及與增長/刪除事件相關的遮擋輪廓確定的。

Nakayama 等人進一步發展了表面表徵的概念,並通過巧妙的心理物理實驗展示了它對人類視覺的重要性。他們發現了一種令人驚訝的心理物理現象:立體圖的增長/刪除足以產生表面分離的感覺。他們將這種 3D 感知形式稱為「達芬奇立體視覺」,以與「Wheatstone 立體視覺」進行對比,後者涉及對雙眼可視點深度的感知。

上述兩種立體視覺都是通過匹配一對影像中的點來表示的。但是分割和目標跟蹤的問題本質上需要對點的鄰域進行分組。因此,為了使這兩個問題在數學上和計算上易於處理,我們必須用基於微分拓撲的「生態光學」來取代用來解釋達芬奇和 Wheatstone 立體視的幾何光學。

來自生態光學的拓撲概念為視覺研究中的許多經典思想提供了新的視角。例如,由於表面 3D 距離不連續,遮擋輪廓通常被視為是強度不連續的。另一方面,我們的定義甚至不包括「強度」。

在我們的框架中,遮擋輪廓只是透視投影中的一個奇異點,其相關屬性是無窮小的增長邊界;這樣輪廓的概念是影像分割的基礎。另一個例子是,不變性通常被視為與目標學習相關的問題。在我們的框架中,不變性被數學化地表述為表面的透視影像之間的等價關係,關鍵的等價關係是表面重疊,計算等價的機制是局部微分同胚檢測。

對電腦視覺研究的影響

拓撲表面表徵理論對電腦視覺具有重要意義。該理論強調了為人工視覺系統配備介於像素和對象標籤之間的顯式中間表面表徵的重要性。此外,該理論闡明了表面重疊是實現目標跟蹤的關鍵數學特性。相比之下,大多數用於跟蹤的電腦視覺演算法假設被跟蹤對象在幀之間應該是「相似的」。

目前的電腦視覺影片分割方法大致可以分為以下三種。

(1)基於檢測的跟蹤。首先在單個幀內分割出獨立的對象,然後通過某種相似度量將分割的對象實例跨幀連接起來。60 多年前,Bela Julesz 就認識到通過檢測來跟蹤人類感知的不足之處:人類對物理現實的感知主要是由影像之間的透視變換決定的,而不是由單張影像中的形式決定的。

(2)嘗試直接使用光流作為輸入來進行影片分割。

(3)端到端訓練的深度網路,將影片作為輸入並逐幀輸出對象檢測結果。

雖然其中一些電腦視覺方法與本文提出的拓撲表面表徵理論相關,但它們的實現通常依賴於「特定的假設」(例如,物體構成具有相似運動模式的像素集群,這對非剛性物體無效)或「黑箱深度學習方法」,而該方法沒有利用使光流生成對象標籤的原理。儘管如此,現有的方法在跟蹤真實世界影片中對象的基準測試上取得了不錯的性能,獲得了關於如何結合學習方法構建魯棒的分割和跟蹤系統的思路。

我們相信,通過結合數學化的表面表徵框架,這種系統可能會變得更加強大,理由包括以下四點:

(1)表面表徵闡明了需要學習的是什麼。

(2)表面保證使我們可以以一種系統的方式,實現基於時空相鄰性的物體識別的自我監督學習。

(3)表面表示可能受益於專門的前端硬體。

(4)表面表示將分割、跟蹤和三維表面重建統一為一個連貫的框架。

對生物視覺研究的影響

本文研究結果不僅對構建新的人工視覺系統有重要意義,而且對理解生物視覺也有重要意義。目前,科學家們對早期影像處理的神經機制(如邊緣檢測、運動檢測、以及非常高級的物體識別機制)都有詳細的了解。然而,現有研究缺乏對中間加工步驟的理解,這些步驟解釋了一個物體最初如何出現在視覺系統中:一組邊緣如何被不變地轉換成一組與特定物體關聯的物體輪廓。本文提出的解決方案為神經科學研究勾畫出了一條解決該問題的道路,在探究感知分組的簡單神經關聯之外,要研究視覺表面表徵的詳細工作機制。

本文提出的解決分割和不變跟蹤的計算必須是局部的,因此可以在視網膜視覺區域完成。每個對象的不變標籤通過不同視角的局部微分同胚性在整個對象中傳播。要創建一個對象圖,需要一個基本的神經機制來表示圖內的連接。這個聚合訊號由什麼組成仍然是未知的。

值得注意的是,最近的一項研究表明,不變的視覺表面表徵機制可能是靈長類動物所獨有的。靈長類動物大腦中存在拓撲表面表徵的一個生理學證據是「邊界所有權細胞」的發現,它顯示了對輪廓某側的所有者的選擇性,這是一個關鍵的拓撲特徵。本文提出的理論認為,邊界所有權細胞的輸出應該隨著時間的推移整合,以生成不變的物體標籤,影響視覺資訊從感知到符號的基本轉換。

本文提出的生態光學理論不是一種隨意的新視覺模型,它在數學上是必然成立的。理論的每一部分都對英語計算目標和機制。該理論的簡單性和必要性為視覺研究提供了一個新的方向:詳細了解大腦是如何完成表面表徵。

原文鏈接://www.pnas.org/doi/10.1073/pnas.2204248119

更多內容,點擊下方關註:
掃碼添加 AI 科技評論 微訊號,投稿&進群:

雷峰網