【論文筆記】基於LSTM的問答對排序

2019 年 10 月 11 日
筆記

【導讀】本篇論文使用時間門同步學習文本對之間的語義特徵，在 Quasi Recurrent Neural Network (QRNN) 模型的基礎上進行創新，提出新的模型Cross Temporal Recurrent Network （CTRN）。論文通過對問題和答案對的遺忘門和輸出門的信息中獲益，從而學習QA的聯合序列對。

QRNN

通過結合LSTM和CNN的特徵構成的QRNN，其結合了RNN和CNN的特徵：

像CNN一樣，基於時間步維度和minibatch維度上進行並行計算
像RNN一樣，允許輸出依賴之前的元素，即過去時間依賴性

與LSTM和CNN一樣，QRNN可以分解為2個組件：卷積和池化

與LSTM相比，並行化提高了QRNN的速度，因此作者論文中提出的模型基於QRNN，因為門是預先學習的，它能夠容易的在兩個QRNN之間對齊時間門。而在LSTM中對齊時間門可能非常麻煩且低效。更重要的一點是QRNN的時間門具有關於整個序列的全局信息而LSTM不具有全局信息。

卷積

給一組長L的序列，每個向量的維度為m，QRNN的卷積內部結構遵循如下公式：

X表示維度為m，長度為L的序列，都是R^{k×n×m}的張量，*表示是以k為寬度的序列維度上的窗口滑動。

池化

Bradbury et al. 2016在論文中池化部分提到了3種方案：f-pooling（動態平均池化）、fo-pooling（基於動態平均池化）、ifo-pooling，本篇論文作者提到了fo-pooling（基於動態平均池化），具有一個獨立的輸入門和遺忘門：

用公式表示：

這裡，c_t表示為神經元狀態，h_t表示為隱藏狀態，f_t,o_t分別表示為t時刻的遺忘門和輸出門。

CTRN

作者在論文中提出的模型為 Cross Temporal Recurrent Network （CTRN）

Embedding+Projection Layer

模型輸入包括兩部分（問題q和答案a對），通過embedding層輸出一個n維向量，然後通過projection layer輸出m維向量

Quasi-Recurrent Layer （即QRNN網絡）

輸入L個向量，並經過3個1D卷積運算獲得矩陣Zs,Fs,Os，s={q,a}

Light weight Temporal Crossing(LTC)

LTC是作者模型的創新點，在QRNN的基礎上進行延伸，在這一層中，有兩個CTRN cell，分別是CTRN-Q，CTRN-A，分別代表問題和答案兩個部分。從圖中可以看出這層中CTRN cell的出入包括5部分，拿CTRN-Q來說，一部分來自自身卷積的輸出zq，fq，oq，另一部分來自answer的卷積輸出oa，f_a，具體情況如下所示：