ICLR 2020必看! 「自然語言處理(NLP)」金融情感分析FinBERT模型(含源碼)!!
- 2020 年 2 月 13 日
- 筆記
喜歡我們,點擊上方AINLPer,關注一下,極品乾貨即刻送達!
引言
本次文章主要是BERT預訓練模型在金融情感分析中的應用。
當前許多情感分類在產品或電影評論數據集中獲得了很高的分數,但是在金融領域中,這些方法的性能卻大大落後。 出現這種差距的原因是行業專用語言表達,它降低了現有模型的適用性,並且缺乏高品質的標記數據來學習特定領域的積極和消極的新上下文。在沒有大量訓練數據集的情況下,遷移學習可以成功地適應新領域。本文探討了NLP遷移學習在金融情感分類中的有效性。本文提出了一個基於BERT的語言模型FinBERT,它將一個金融情緒分類任務在FinancialPhrasebank數據集中的最新性能提高了14個百分點。
正文開始
1
文章主要看點
1、引入FinBERT,這是一個基於BERT的語言模型,用於金融NLP任務。並在在兩個金融情感分析數據集(FiQA、Financial PhraseBank)上得到了比較好的效果。
2、使用另外兩個預訓練語言模型ULMFit和ELMo進行金融情感分析,並將其與FinBERT進行比較。
3、對模型的幾個方面做了進一步的實驗研究,包括:進一步的預訓練對金融語料庫的影響,防止災難性遺忘的訓練策略,以及僅對模型層的一小部分進行微調以減少訓練時間,而不會顯著降低性能。
2
文章主要內容
背景介紹
由於每天都要產生數量空前的文本數據,因此分析來自醫學或金融等不同領域的大量文本非常重要。然而,在這些專業領域中應用監督的NLP方法(如文本分類)比應用於更一般的語言要困難得多。其兩個主要困難因素為: 1)利用複雜神經網路的分類方法需要大量的標記數據,而標記特定領域的文本片段需要昂貴的專業知識。2)在一般語料庫上訓練的NLP模型不適用於監督任務,因為特定領域的文本有專門的語言和獨特的辭彙和表達。
NLP遷移學習方法是解決上述問題的有效方法,也是本文研究的重點。遷移模型背後的核心思想是,首先在非常大的語料庫上訓練語言模型,然後使用從語言建模任務中學的權重初始化下游模型,其中初始化層的範圍可以從單個單詞嵌入層到整個模型。這種方法應該減少所需的標記數據的大小,因為語言模型通過預測下一個單詞,以一種無監督的方式在一個非常大的未標記語料庫上學習語言語法和語義。通過在特定於域的未標記語料庫上進一步對語言模型進行預訓練,該模型可以學習目標域文本中的語義關係,該語義關係可能與普通語料庫的分布有所不同。
在本文中,主要探索使用微調預訓練語言模型BERT的有效性。 並使用Malo等人創建的金融情感分類Financial PhraseBank數據集以及Maia等人的FiQA Task-1情感評分數據集進行驗證。
模型介紹
BERT是一種由一組Transfer疊加而成的語言模型。它以一種新穎的方式定義了語言建模。BERT不是根據之前的單詞預測下一個單詞,而是隨機選擇所有token的15%作為mask。在最後一個編碼器層之上的辭彙表上有一個softmax層,可以預測被掩膜的token。BERT訓練的第二個任務是「下一個句子預測」。給定兩個句子,該模型預測這兩個句子是否相有關係。
繼先前關於在特定領域上進一步對語言模型進行預訓練的有效性的工作(Howard&Ruder,2018)之後,我們嘗試了兩種方法:第一種是在特定領域下,即在較大金融語料庫上對BERT語言模型進行了預訓練。第二種方法是只對訓練分類數據集中的句子進行預處理。通過在tokens最後一個隱藏狀態之後添加一個稠密層來進行情緒分類。這是將BERT用於任何分類任務的推薦實踐(Devlin et al.2018) 。然後,在標記的情感數據集上訓練分類器網路。主要訓練流程圖如下圖所示:
雖然本文的重點是分類,但我們也在具有連續目標的不同數據集上實現了具有幾乎相同架構的回歸。這裡的唯一區別是損失函數採用的是均方誤差而不是交叉熵損失。正如Howard & Ruder(2018)所指出的,採用這種微調方法會有災難性遺忘問題。因為當模型試圖適應新任務時,微調過程可能會迅速導致模型「忘記」來自語言建模任務的資訊。為了解決這一現象,我們採用了Howard & Ruder(2018)提出的三種技術:傾斜三角形學習率(slanted triangular learning rates)、有區別微調(discriminative fine-tuning)和逐步解凍(gradual unfreezing)。
3
實驗結果
實驗準備
為了進一步優化FinBert,文章使用了一個叫做TRC2-financial的金融語料庫(它是路透社TRC21的一個子集,後者由路透社在2008年至2010年間發表的180萬篇新聞文章組成)。本文使用的主要情感分析數據集Financial PhraseBank。該數據集由從LexisNexis資料庫中隨機挑選的4845個英語句子組成,其中這些句子由16名具有金融和商業背景的人進行注釋。FiQA Maia數據集等是為WWW 』18會議金融觀點挖掘和問題解答Challenge3創建的數據集。我們使用任務1的數據,其中包括1,174個金融新聞標題和推文及其相應的情感評分。
基準線方法對比
在對比實驗中,我們考慮了三種不同方法的基準線:基於GLoVe 的LSTM分類器、基於ELMo 的LSTM分類器和ULMFit分類器。這裡使用召回得分來進行評價。在Financial PhraseBank數據集上的對比結果如下:
其中LPS、HSC和FinSSLX的結果取自各自的論文。
FiQA情感數據集的結果如表3所示。本文模型在MSE和R2方面都優於最先進的模型。
預訓練對分類器性能的影響
我們比較了三種模型:1)沒有進一步的預訓練(Vanilla BERT表示),2)在分類訓練集上進一步的預訓練(FinBERT-task表示),3)在特定領域語料庫上進一步的預訓練,TRC2-financial (FinBERT-domain表示)。模型通過損失、準確性和測試數據集上的宏觀平均F1分數進行評估。結果見表4,但是可以發現,進一步在金融領域語料庫上進行預處理的分類器表現最好,但差異不是很大。
災難性遺忘性能評估
我們嘗試了四種不同的設置:無調整(NA)、只使用傾斜三角形學習率(STL)、傾斜三角形學習率和漸進解凍(STL+GU)以及(STL+DFT),並進行了有區別的微調。實驗結果發現應用這三種策略可以在測試損失和準確性方面產生最佳性能。實驗結果可見下圖: