今日 Paper | 梯度剪切;命名實體識別;自然語言處理;免強度函數學習等

  • 2020 年 2 月 21 日
  • 筆記

目錄

  • 梯度剪切可以加速梯度下降
  • 完成命名實體識別的雙向LSTM+CRF結構
  • 完成命名實體識別的神經網路結構
  • 自然語言處理(幾乎)從頭開始
  • 免強度函數學習的時間點過程

梯度剪切可以加速梯度下降

論文名稱:Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity

作者:Jingzhao Zhang /Tianxing He /Suvrit Sra /Ali Jadbabaie

發表時間:2019/9/26

論文鏈接:https://openreview.net/forum?id=BJgnXpVYwS

在神經網路的訓練過程中對梯度進行剪切是最近越來越流行的一個趨勢,但很多人都不清楚這種做法為什麼有效。這篇論文就給出了理論解釋以及證明,證明了梯度剪切確實對網路訓練有幫助作用。

作者們從實際網路的訓練過程中的平滑性出發,進行了仔細的分析和推理,證明了梯度剪切和梯度正則化兩種常見方法都可以比傳統的固定步驟大小的梯度下降收斂得更快。作者們也做了進一步的解釋,並在常見的網路訓練設定下通過實驗驗證了他們的理論。

這篇論文得到了審稿人的一致好評,被ICLR2020接收為口頭報告論文。

完成命名實體識別的雙向LSTM+CRF結構

論文名稱:Bidirectional LSTM-CRF Models for Sequence Tagging

作者:Zhiheng Huang /Wei Xu /Kai Yu

發表時間:2015/8/9

論文鏈接:https://arxiv.org/pdf/1508.01991.pdf

核心問題:這篇論文是完成命名實體識別的工作,這是一系列使用RNN結構並結合CRF層進行NER的工作的文章之一。

創新點:本論文的創新點是使用了雙向LSTM+CRF作為網路模型,這種創新的意義都是結構上的創新,很多時候模型的效果就是結構上的創新。

研究意義:證明BI-LSTM-CRF模型可以有效地利用過去和未來的輸入資訊。

完成命名實體識別的神經網路結構

論文名稱:Neural Architectures for Named Entity Recognition

作者:Guillaume Lample /Miguel Ballesteros /Sandeep Subramanian /Kazuya Kawakami

發表時間:2016/4/7

論文鏈接:https://arxiv.org/pdf/1603.01360.pdf

推薦原因

核心問題:本文是完成是nlp領域中經典的命名識別識別的問題,本論文可以說是承上啟下的作用,它的做法改變了之前的做法,並且之後的很多任務都是使用這樣的基本結構。

創新點:先前的使用的核心模型都是CNN,本文中使用RNN代替CNN,並且搭建了一套RNN+CRF的模型結構,這種模型結構效果不錯

研究意義:通過實現效果,在英語、荷蘭語、德語以及西班牙語上使用LSTM-CRF的實驗都證明了能夠獲得較好的NER性能,並且在沒有任何人工標註特徵的條件下,在英語上獲得非常好的性能。

自然語言處理(幾乎)從頭開始

論文名稱:Natural Language Processing (Almost) from Scratch

作者:Ronan Collobert /Jason Weston /Leon Bottou /Michael Karlen /Koray Kavukcuoglu /Pavel Kuksa

發表時間:2011/1/10

論文鏈接:http://jmlr.org/papers/volume12/collobert11a/collobert11a.pdf

推薦原因

本文所解決得核心問題:這個論文提出了一種深度神經網路得方法來完成多種nlp任務,比如詞性標註、組塊、命名實體識別和語義角色標記。

研究重點:本文算是很早使用深度學習得方法來做類似得任務,它比機器學習得優勢就是不懂手動得來構建特徵,並且不需要根據任務得不同構建不同得特徵。它通過兩個網路模型來完成,一個網路模型用於提取局部的特徵,另外一個網路模型用於提取全局特徵。

研究意義:本文使用得核心思想是多任務訓練得思路,具體來說先訓練好word embedding,然後使用該詞向量完成之後得子任務,並且取得了良好得表現。

這篇文章核心使用得是卷積神經網路,其實有些時候我發現在文本領域,卷積神經網路取得的效果也是不錯得。

免強度函數學習的時間點過程

論文名稱:Intensity-Free Learning of Temporal Point Processes

作者:Shchur Oleksandr /Biloš Marin /Günnemann Stephan

發表時間:2019/9/26

論文鏈接:https://arxiv.org/abs/1909.12127

推薦原因

時間點過程是一類有效的用於建模連續時間域的非同步事件序列方法。該方法在事件預測,因果分析,圖建模等方向有著廣泛的應用。使用該方法的一個核心問題是條件強度函數的設計。然而簡單的指定強度函數(指數分布族等)會造成模型表達能力有限,複雜的方式又會造成強度函數中survival積分項計算困難,需要藉助數值方法求解。本文另闢蹊徑,不再建模強度函數,而是分別提出基於流的方法和混合高斯的方法直接建模條件概率。最後的實驗在時間序列預測等任務上達到或者超過了目前的sota, 並且所提出方法非常適合用於學習序列embedding和缺失資訊情況下的序列問題。