NAACL 2019 | 注意力模仿:通過關註上下文來更好地嵌入單詞
- 2019 年 11 月 13 日
- 筆記

作者 | 梁夏
編輯 | 唐里
下面要介紹的論文選自NAACL2019,
論文標題:Attentive Mimicking: Better Word Embeddings by Attending to Informative Contexts 論文地址:https://arxiv.org/abs/1904.01617
在稀疏上下文資訊的情況下,很難得到較高品質的低頻單詞嵌入,「模仿」被認為是一種可行的解決方案:通過給定標準演算法的詞嵌入,首先訓練模型出現頻次高的單詞的嵌入,然後再計算低頻單詞的詞嵌入。在本文中,我們引入了注意模仿模型,該模型不僅僅能夠可以體現單詞的表面形式,同樣還可以訪問所有可用的上下文,並學會使用最有用和最可靠的上下文來計算詞嵌入。在對四項任務評估中,我們發現對於低頻和中頻單詞,注意力模仿比以前的工作更出色。因此,注意力模仿可以改進辭彙中大部分包括中頻詞的嵌入。
1. 研究背景
詞嵌入在自然語言處理(NLP)中取得了巨大的性能提升。然而,嵌入方法通常需要對單詞進行多次觀察才能為其學習到更好的表示形式。克服這種限制並改進低頻單詞的嵌入的一個方法是將表層資訊納入學習範圍。這裡可以採取一步或者兩步的方法來解決,首先,在單詞級別上訓練嵌入模型,然後使用表層資訊對詞嵌入要麼微調,要麼重新計算。後者可以通過訓練模型來實現,複製(或模仿)原始嵌入。然而,這些方法僅在單詞的含義至少可部分根據其形式來預測時才有效。
一個密切相關的研究路上是新詞嵌入,目標是從小部分單詞觀察中獲取以前未出現過的單詞嵌入。儘管大多數現代方法專門使用上下文資訊用於此任務。最近介紹了形式-上下文模型,並表明從表面形式和上下文進行聯合學習可帶來更好的表現。
本文中討論的關鍵在於,通常一個詞的上下文中只有很少一部分能提供關於其含義的有價值的資訊。然而,當前的技術水平將所有的上下文視為相同作用。我們通過引入一種更智慧的機制來解決這個問題:我們不是使用所有的上下文,而是通過關注來選擇一個資訊更為豐富的上下文的子集進行學習。這個機制基於以下觀察:在許多情況下,給定單詞的可靠上下文往往彼此相似。我們將此結構稱為注意力模仿(AM)。
我們的貢獻如下:(i)介紹了注意力模仿模型。通過關注最有用的上下文,它可以為低頻和中頻單詞生成高品質的嵌入。(ii)我們提出了一種基於VecMap的新式評估方法,使我們能夠輕鬆評估低頻和中頻單詞的嵌入品質。(iii)我們發現,注意力的模仿可以改善各種數據集上的單詞嵌入性能。
2. 相關工作
訓練表面形態模型以模擬詞嵌入的方法包括基於詞素和字元級別,在微調方面,可用通過引入一個高斯模型,該模型將詞形態資訊整合到單詞嵌入中。使用一組特定語言的規則重新計算嵌入。直接將表面形態資訊集成到嵌入學習中的模型包括fastText、LexVec和Charagram。雖然許多學習嵌入新詞的方法利用上下文資訊的同時也使用了注意力機制。但他們的注意力是在上下文內(選擇單詞),而不是橫跨上下文(選擇上下文)。他們的注意力僅限於單詞類型和單詞之間的距離,而不是我們注意力模仿模型中可用的更複雜的因素,例如與單詞表面形態資訊的交互。
3. 注意力模仿
3.1 上下文模型
在上下文模型(FAM)中需要一個維度為d的嵌入空間,將高品質的嵌入向量

分配給高頻單詞,給定一個低頻或者新單詞w以及該詞出現的一組上下文c,FCM模型可以在給定的向量空間中為單詞w計算出一個合適的嵌入

,這是通過計算出兩個不同的嵌入實現的,其中一種嵌入僅使用表面形態資訊,而另一個則是使用了上下文資訊。表面形態嵌入是通過對模型學習的一組n-gram嵌入進行平均而獲得的;上下文嵌入是通過對c上下文中單詞的所有嵌入求平均值而獲得的。然後使用權重係數α和大小為d × d的矩陣A組合這兩個嵌入,從而形成形態上下文嵌入。

其中加權係數α是兩個嵌入的係數,其模型為:

其中

, b ∈ R是可學習參數,σ表示為sigmoid函數。
3.2 上下文注意力機制
FCM同樣關注一個詞的所有上下文,但通常只有很少的上下文實際上適合推斷某個單詞的含義。引入注意力模仿(AM)來解決這個問題:我們允許模型根據上下文的"可靠性"的度量來為上下文分配不同的權重。為此令C = {C1,…,Cm},其中每個Ci是單片語。我們將FCM的上下文嵌入替換為加權嵌入

其中

是Ci 中單詞嵌入的平均值,α則是衡量上下文的可靠性。為了獲得有意義的可靠性衡量標準,關鍵在於可靠的上下文通常與許多其他上下文表達一致。
我們考慮一個詞w,其中w的十分之六的上下文中包含涉及體育的單詞,由於這種高度相關的上下文,因此可以合理地假設與w來自同一域,同時,與體育無關的剩下的十分之四的上下文資訊較少。我們將兩個上下文的相似性定義為:

其中

是一個可學習的參數,同時我們將上下文的可靠性定義為:

其中

是一個歸一化參數,確保權值之和為1,該模型通過從大型語料庫中隨機抽取單詞w和上下文C來訓練模型並模仿w的原始嵌入,即是最小化原始嵌入和v(w,C)的平方距離。
4.實驗
在我們的實驗中,我們遵循維基百科語料庫(WWC)的設置並使用它來訓練所有的嵌入模型。為了獲取FCM和AM的訓練實例(w,c),我們根據WWC的頻率對單詞和上下文進行取樣,僅使用至少出現100次的單詞。我們使用Gensim中的skipgram嵌入訓練FCM和AM。
我們的實驗設置在兩個方面與Schickand Schutze (2019)不同
(1)我們沒有使用固定數量的上下文表示C,而是隨機取樣1到64個上下文
(2)我們將訓練輪數固定為5輪
對於第一個不同,我們希望模型在少數可用上下文以及在大量可用上下文兩種情況下都能夠生成高品質的嵌入,對於第二個固定輪數僅僅是因為我們的評估函數沒有針對訓練輪數進行優化。
為了更好的評估模型,我們應用了一種新的內在評估方法,該方法通過將嵌入空間轉換為公共空間來對其進行比較(第4.1節)。我們還將在三個單詞級下游任務(第4.2節,第4.3節,第4.4節)中測試模型,以證明其通用性。
4.1 Vecmap
我們介紹了一種新穎的評估方法,該方法通過將WWC中的常用詞降取樣為固定的出現次數來顯式評估低頻和中頻詞的嵌入。然後,我們將從原始語料庫獲得的skipgram嵌入與通過在降取樣語料庫上訓練的某種模型學習的嵌入進行比較。使用VecMap將兩個嵌入空間轉換為一個公共空間, 我們提供除降取樣詞外的所有詞作為映射字典。從直覺上講,模型從少量觀察值推斷嵌入的效果越好,其嵌入與該公共空間中的嵌入的相似性就越高。因此,我們通過計算模型嵌入和skipgram嵌入之間的平均餘弦相似度來衡量模型的品質。作為基準線, 我們在縮小樣本的語料庫上訓練skipgram和fastText。然後我們在skipgram上訓練Mimick、FCM和AM。
我們還嘗試了一種變體,將降取樣後的單詞放入訓練集中,這樣一來,該模型就可用完全從無到有地學習這些單詞,而且還可以利用他們的原始嵌入。因此我們希望該變體僅在單詞不太稀疏的情況下才有用,即其原始嵌入已經具有不錯的性能。表1顯示了對於頻次低於32的單詞,FCMand AM的表現比所有基準線都要好得多,而主要關注語法資訊的Mimick的表現則相對較差。在給定四個或者更多上下文的情況下。AM給FCM帶來了的持續的提升。在訓練過程中包括降取樣單詞的變體在32次或更多次觀察中仍然表現出勝過skipgram,但對於不那麼頻繁的單詞,其表現卻比默認模型差。

4.2 情感詞典
我們集成辭彙詞典和NRC情感詞典,得到具有二元情感標籤的單詞訓練集。在這些數據的基礎上,訓練了一個基於嵌入的logistic回歸模型來對單詞進行分類。在評估中,我們使用了SemEval2015Task 10E,其中0代表負面情感,1代表正面情感。並且使用斯皮爾曼相關係數來衡量相似度。
我們在skipgram 和fastText詞嵌入中訓練邏輯回歸模型,並且使用模仿模型計算出的嵌入來替換skipgram嵌入。表2顯示,對於低頻和中頻詞,AM再次優於所有其他模型。

4.3 實體輸入
我們使用實體數據集,用於預測單詞的細粒度命名實體類型,我們使用與第4.2節中相同的設置來訓練邏輯回歸模型,並對測試集中在WWC中出小於等於100次的所有單詞進行評估。基於4.1節中的結果,AM僅改進了少於32次出現的單詞的表示,我們還嘗試了AM + skip的變體,在實驗中用

= 32的0之間的線性縮放函數。表3 給出了在單詞頻率範圍中accuracy和micro F1,根據以前的實驗結果,在高達16次實驗中,AM的性能大大優於基準線。值得注意的是,skipgram和AM的線性組合迄今為止獲得了最佳的總體結果。

4.4 Chimeras 數據
Chimeras(CHIMERA)數據集由成對單詞和常規單詞對的相似度得分組成。CHIMERA為每個虛構詞僅提供六個上下文,因此對於評估我們的模型不是理想的。儘管如此,我們仍然可以使用它來分析FCM(無注意)和AM(有注意)的區別。由於虛構單詞的表面形式是隨機構建的,因此我們將自己局限於FCM和AM的上下文部分(稱為FCM-ctx和AM-ctx)。使用Herbelot和Baroni(2017)的測試集,並使用FCM-ctx和AM-ctx將給定的相似度得分與相應單詞嵌入的餘弦相似度進行比較,以獲取虛構單詞的嵌入。表4給出了我們模型和各種基準線的斯皮爾曼係數;我們沒有添加Mimick的結果,因為它對新穎單詞的結果完全基於其表面形式。雖然AM在2-4個句子中的表現比以前的方法差,但與目前發布的6個句子的最佳結果相比,它有了很大的提高。同時,上下文關注始終對於結果有所提高:無論上下文數量如何,AM-ctx的性能都優於FCM-ctx。

儘管在有許多可用上下文的情況下上下文注意的效果更加明顯,但我們仍對CHIMERA的一個示例性實例進行定量分析,以更好地了解AM。我們考慮表5中出現的組成詞「petfel」,是由「saxophone」和「harmonica」組合而來,該模型最多涉及句子(2)和(4),同樣的,從那些句子獲得的嵌入非常相似。此外,在所有四個句子中,這兩個句子最適合於簡單的平均模型,因為它們包含資訊豐富的常用詞,例如「instrument」,「chimes」和「music」。

5. 總結
我們介紹了注意力模仿機制,並得出注意內容豐富且可靠的上下文可以改善低頻和中頻單詞的表示形式,從而適用於各種任務。在以後的工作中,研究單詞層面的注意力機制是否可以進一步改善模型的性能。此外,該架構是否也有益於不同於英語的其他語言。