對比學習下的跨模態語義對齊是最優的嗎?—自適應稀疏化注意力對齊機制 IEEE Trans. MultiMedia
論文介紹:Unified Adaptive Relevance Distinguishable Attention Network for Image-Text Matching (統一的自適應相關性可區分注意力網絡)IEEE Trans. MultiMedia
主要優勢:
1)首次提出一種自適應的相關性區分注意力學習框架。在對比學習的相對概念下,通過將注意力閾值也統一到學習過程,實現一種相互提升的優化方式,能夠在學習更具備對齊區分性的特徵嵌入同時,獲取最優的注意力區分閾值。
2)通過自適應學習的最優相關性閾值,將之前的稠密冗餘跨模態注意力對齊,優化為稀疏精確的,進一步提升對齊精度。
3)通過自適應學習的最優相關性閾值,將之前的全片段圖文相似度計算,優化為相關部分計算,進一步消減計算耗時。
一、前言
圖像文本匹配任務定義:也稱為跨模態圖像文本檢索,即通過某一種模態實例, 在另一模態中檢索語義相關的實例。例如,給定一張圖像,查詢與之語義對應的文本,反之亦然。具體而言,對於任意輸入的文本-圖像對(Image-Text Pair),圖文匹配的目的是衡量圖像和文本之間的語義相似程度。
圖1 圖文匹配的輸入和輸出
核心挑戰:圖像文本跨模態語義關聯致力於彌合視覺模態和語言模態之間的語義鴻溝,目的是實現異質模態(底層像素組成的圖像和高層語義向量表示的文本)間的準確語義對齊,即挖掘和建立圖像和文本的跨模態語義一致性關聯對應關係。
現狀分析:在訓練過程中如何約束?通常使用的方法是結構化排序損失,約束的是相似度相對大小,其中匹配樣本對被拉到一起,而不匹配對被推開。在圖像文本匹配領域,大家通常採用的損失函數為:三元組排序損失(Triplet Ranking Loss),其的基本思想就是約束匹配的圖文對相似度相對於不匹配圖文對相似度高。為了提升訓練效率,相對於匹配的圖文對,我們僅約束最相關的不匹配圖文對,即最難負例:
\begin{equation}\label{E2}
S(U, V) > S(U, V』) , \quad S(U, V) > S(U』, V).
\end{equation}
其中$S(U, V)$為匹配的圖文對,而$S(U, V』) $和$S(U』, V)$表示不匹配的圖文對。
如何實現圖像文本的語義對齊?現有工作可以大致分為兩類:1)全局關聯:以整個文本和圖像作為對象學習語義關聯;2)局部關聯:以細粒度的圖像顯著區域和文本單詞作為對象學習語義關聯。早期的工作屬於全局關聯,即將整個圖像和文本通過相應的深度學習網絡映射至一個潛在的公共子空間,在該空間中圖像和文本的跨模態語義關聯相似度可以被直接衡量,並且約束語義匹配的圖文對相似度大於其餘不匹配的圖文對。然而,這種全局關聯範式忽略了圖像局部顯著信息以及文本局部重要單詞的細粒度交互,阻礙了圖像文本語義關聯精度的進一步提升。因此,基於細粒度圖像區域和文本單詞的局部關聯受到廣泛的關注和發展,並快速佔據主導優勢。對於現有的圖像文本跨模態語義關聯範式,核心思想是挖掘所有圖像片段和文本片段之間的對齊關係。
圖2 圖文匹配的發展現狀
交叉注意力網絡SCAN通過區域和單詞之間的相互關注機制來捕捉所有潛在的局部對齊,並激發出了一系列工作。跨模態交叉注意力旨在挖掘所有圖像區域和文本單詞之間的對齊關係,通過局部語義對齊來推理整體相關性。得益 於細粒度的模態信息交互,基於交叉注意力的方法取得顯著的性能提升,並成為當前圖像文本跨模態語義關聯的主流範式。
圖3 跨模態交叉注意力範式SCAN
現有局部關聯範式問題分析:
圖4 動機示意圖,現有注意力對齊範式的相關性區分是靜態固定的,不能自適應動態的相關性學習過程。不可避免的導致次優的特徵嵌入學習(不能最大化的分開相關和不相關跨模態特徵)和引入干擾噪聲(不能準確的排除無關語義)
對於給定的圖像$V$和文本$U$,我們將圖像表示為$V=\{v_j | j\in[1, n], v_j \in \mathbb{R}^{d}\}$,其中$n$為圖像顯著區域的個數,將文本表示為$U=\{u_i | i\in [1, m], u_i \in \mathbb{R}^{d}\}$,其中$m$為文本單詞的個數。然後,現有方法通常利用注意力機制來挖掘模態間的共享語義,並通過共享語義衡量圖文的相似程度$S(U, V)$:
\begin{equation}\label{E1}
S(U, V) = \frac{1}{m}\sum_{i=1}^{m}R(S^{V}_{i},u_{i}) + \frac{1}{n}\sum_{j=1}^{n}R(S^{U}_{j},v_{j}),
\end{equation}
其中$S^{V}_{i}$表示圖像中與第$i$個檢索單詞$u_{i}$相關的共享語義,$S^{U}_{j}$則表示文本中與第$j$個檢索區域$v_{j}$相關的共享語義, $R(\cdot)$表示相似度衡量函數。
共享語義$S^{V}_{i}$和$S^{U}_{j}$分別是基於跨模態注意力機制的圖像和文本相關片段的聚合:
\begin{equation}\label{E3}
S^{V}_{i}=\sum_{j=1}^{n}w_{i,j}v_{j}, \quad S^{U}_{j}=\sum_{i=1}^{m}w_{j,i}u_{i},
\end{equation}
其中$w_{i,j}$和$w_{j,i}$分別是聚合圖像區域和文本單詞的注意力權重。具體的,在現有通用注意力範式中,注意力權重是根據『單詞-區域』對的相似度$s_{ij}=cosine(u_{i}, v_{j}), i=1,\ldots, m, j=1,\ldots, n$計算,首先採用經驗性閾值零來抹除負的單詞-區域』對相似度,通常利用ReLU操作:
\begin{equation}\label{E4}
\hat{s}_{ij}=\left\{\begin{array}{l}{s_{ij}, \quad if \quad s_{ij} > 0,} \\ {0, \ \ \quad if \quad s_{ij} \leq 0,}\end{array}\right.
\end{equation}
其中小於0的相似度$s_{ij}$被置零,然後通過Softmax歸一化操作得到注意力權重。
然而,現有通用注意力範式完全忽略了在圖文相似度的相對大小關係約束下,潛在相關性閾值在訓練過程中並不是絕對固定的。 現有方法將閾值的相關性區分與特徵嵌入學習孤立,不能使模型在學習過程中自適應準確地區分變化的相關和不相關『單詞-區域』相似度分佈,這不利於學習更具判別性的圖像/文本嵌入特徵,也會導致不相關語義對共享語義的干擾。 因此,統一特徵嵌入學習和相關閾值,以明確區分相關和不相關的片段,是迫切需要的。
二、總體框架
圖5 總體框架圖
總體框架如圖5所示,其包含兩個主要模塊組成聯合優化框架:自適應相關性可區分學習模塊和跨模態注意力匹配模塊。
通過這兩個模塊,將特徵嵌入學習和相關性閾值納入到一個統一的框架,並且在訓練過程中相互促進。在前向優化過程中,第一個模塊旨在根據相關和不相關『單詞-區域』片段的相似度分佈自適應地學習最優相關性閾值。同時,第二個模塊旨在藉助相關性閾值實現更好的匹配性能,在其後向優化過程中,將改進特徵嵌入學習以產生更具區分性的片段特徵,因為學習的閾值可以顯式的促進相關和不相關分佈的分離.
具體而言 ,在第一個模塊中,為解決「如何自適應學習最優的相關性區分?」問題,我們提出了一種新的自適應學習方法,即對相關和不相關『單詞-區域』對的相似度分佈進行連續建模,然後最小化區分錯誤概率來求解最優閾值,這將顯示區分和分離兩個分佈。在第二個模塊中,為解決「如何在注意力匹配中整合最優相關性區分?」問題,所提框架有兩個新穎的方面,即:(1)使用學習的相關性閾值排除不相關的內容片段,注意力可以更精確地關注相關片段,極大地促進語義對齊學習,達到更好的匹配精度; (2) 在圖文相似度計算階段,學習的相關性閾值可以避免不相關查詢的計算,大大減少和緩解了現有圖文匹配方法的檢索耗時。
下面簡單介紹兩個模塊的實現思路,具體實現請見論文。
1) 自適應相關性可區分學習模塊
為了明確區分相關和不相關的『單詞-區域』片段對的相似度,我們首先需要對兩種類型的片段對的相似度進行採樣並構造為:
\begin{eqnarray}
\mathcal{S}^{+}_{k} =[s^{+}_{1}, s^{+}_{2}, s^{+}_{3}, \ldots, s^{+}_{i}, \ldots],\label{E5}\\
\mathcal{S}^{-}_{k} =[s^{-}_{1}, s^{-}_{2}, s^{-}_{3}, \ldots, s^{-}_{i}, \ldots],\label{E6}
\end{eqnarray}
其中$\mathcal{S}^{+}_{k}$和$\mathcal{S}^{-}_{k}$可以認為是相關和不相關『單詞-區域』片段對的標籤,它們在訓練過程中動態更新的,$ k\in [1, b]$表示一個訓練小批次中的更新索引(是批量大小)。
然後,我們可以估計關於『單詞-區域』相似度$s$的相關分佈$F^{+}_{k}(s)$和不相關分佈$F^{-}_{k}(s)$。 我們期望找到一個最優閾值,以最小的錯誤概率區分兩個分佈:
\begin{equation}\label{E7}
t_{k} = \min_{\{t\}} \ \mathcal{P}_{error}(F^{+}_{k}( s), F^{-}_{k}( s), t),
\end{equation}
其中學習的相關性閾值$t_{k}$ 根據訓練中的兩個不同分佈進行自適應調整。 此外,在學習過程中,我們還利用動量更新策略來平滑不同更新索引的閾值:
\begin{equation}\label{E8}
t_{k} = \alpha t_{k} + (1-\alpha)t_{k-1},
\end{equation}
其中$t_{k-1}$是前一次更新的學習閾值,$\alpha$為平滑超參數。
2)跨模態注意力匹配模塊
在基於注意力的匹配過程中,顯式最優相關性區分閾值可以很容易地被整合到一個統一的學習框架,使閾值可以調整特徵嵌入學習,便於學習更具備區別性的片段特徵,從而更好地區分相關和不相關語義。我們的目標是準確地找到模態之間的共享語義來衡量圖像-文本的相似性,這反映在兩個檢索方向上,即文本到圖像text-to-image $(U-V)$和圖像到文本image-to-text $(V-U)$。與通用的注意範式不同,我們利用生成兩個掩碼以提高圖像-文本匹配性能,包括提高準確性和減少檢索時間。
首先,為了聚合相關內容以形成共享語義,我們採用學習閾值$t_{k}$,通過設計內容掩碼函數$Mask_{c}^{t_{k}}(\cdot)$的注意力權重為:
\begin{equation}\label{E13}
\begin{aligned}
S^{V}_{i}&=\sum_{j=1}^{n} Mask_{c}^{t_{k}}(w_{i,j})v_{j},\\
S^{U}_{j}&=\sum_{i=1}^{m} Mask_{c}^{t_{k}}(w_{j,i})u_{i},
\end{aligned}
\end{equation}
其目的是使模型只關注大於相關閾值的片段,過濾掉其他不相關片段的干擾,實現稀疏化注意力對齊。 這允許模型在學習過程中根據相關和不相關的分佈邊界自適應地聚合共享語義,這與現有的總是使用經驗閾值零的方法完全不同。
其次,我們通過設計查詢掩碼函數$Mask_{q}^{t_{k}}(\cdot)$進一步區分查詢片段的相關性,從而圖文相似度的計算寫為:
\begin{equation}\label{E14}
\begin{aligned}
S(U, V) =& \frac{1}{m}\sum_{i=1}^{m} Mask_{q}^{t_{k}}(R(S^{V}_{i},u_{i}))+ \\
& \frac{1}{n}\sum_{j=1}^{n} Mask_{q}^{t_{k}}(R(S^{U}_{j},v_{j})),
\end{aligned}
\end{equation}
其目標是避免無關查詢片段的相似度計算$R(\cdot)$,這與現有的冗餘計算所有片段查詢相似度的方法完全不同。
三、創新和優勢
(1)主要創新點。與現有的孤立相關性閾值和特徵嵌入學習的方法不同,我們將它們整合到一個統一的聯合優化框架中,這是這項工作的主要創新點。 本質上,它利用自適應學習的閾值來促進學習更具備判別性的特徵,同時也使用這些特徵來學習最優相關性閾值,這是一個相互促進的聯合優化過程,從而產出更易區分相關和不相關的片段。 此外,我們沒有使用隱式的經驗閾值零,而是利用顯式和最優相關性閾值來設計精細的掩碼函數,可以準確地排除不相關的內容/查詢片段,從而提高精度和效率。
(2)圖文相似性推理過程。所提框架是一個端到端的優化網絡。我們強調學習到的特徵嵌入空間和相應的最優閾值是共現的,就如同一把鎖(即特徵嵌入空間)和其對應的鑰匙(即最優閾值)。 因此,在推理階段,我們可以直接使用最優閾值,無需重新學習,因為嵌入空間已經確定。 因為,在帶來顯著性能提升的同時,最優的相關性閾值學習不會在相似度檢索推理階段帶來任何的資源開銷,驗證了其簡單卻有效。
(3)泛化和可解釋性。通常,由於圖文匹配中的排序損失約束了相關性和不相關性之間的相對關係,在學習過程中,真正的潛在相關性閾值並不是絕對固定的,這意味着孤立相關性閾值的問題在現有圖文匹配通用注意力中是普遍存在的。 我們提出的自適應相關性可區分學習是解決這個問題的一種廣義輔助方法,可以很容易地與現有的跨模態注意技術集成。 此外,注意力的可解釋性得到進一步增強,因為我們可以明確區分相關和不相關的片段。
(4)檢索耗時和計算成本。在相似度測試階段,我們的框架不需要額外計算學習閾值,而且可以大大減少無關查詢片段的相似度計算(減少約 67%)。 因此,對於整體計算複雜度,我們可以減少$R(\cdot)$上 67% 的計算負擔。 當$R(\cdot)$和大多數方法一樣是餘弦相似度時,它的計算複雜度是$\mathcal{O}(d)$,其中$d$是特徵維度。 雖然包括了對片段相似度的最大操作,但我們有片段數$m\ll d$和 $n \ll d$,因此它們的計算負擔非常小。 根據實驗,與現有的方法相比,我們可以將檢索耗時相對減少約 50%-73%。
四、參考論文
Zhang, Kun, Mao, Zhendong, Liu, Anan, Zhang, Yongdong (2022). Unified Adaptive Relevance Distinguishable Attention Network for Image-Text Matching. IEEE Transactions on Multimedia. preprint, DOI : 10.1109/TMM.2022.3141603, 2022.
筆者的目的是分享新觀點和知識,引用需說明出處,禁止任何形式的抄襲!