深度學習注意力機制-Attention in Deep learning-附101頁PPT

  • 2019 年 10 月 7 日
  • 筆記

導讀

Amazon網路服務機器學習負責人 Alexander J. Smola 在ICML2019會議上做了關於深度學習中的注意力機制的報告,詳細展示了從最早的NWE到最新的Multiple Attention Heads的相關內容。

作者 | Alex Smola, Aston Zhang

編譯 | Xiaowen

報告主要分為六個部分:

1. Watson Nadaraya Estimator(NWE):最早的非參數回歸(Nonparametric Regression)的工具之一,更具體地說是最早核回歸技術(Kernel Regression Technique)由Nadaraya和Watson兩人同時於1964年獨立的提出。

2. 池化 Pooling

  • 單目標 – 從池化 pooling 到注意力池化 attention pooling
  • 層次結構 – 分層注意力網路 Hierarchical attention network

3. 迭代池化 Iterative Pooling

  • 問答 Question answering / 記憶網路 memory networks

4. 迭代池化與生成器 Iterative Pooling and Generation

  • 神經機器翻譯

5. 多頭注意力網路 Multiple Attention Heads

  • Transformers / BERT
  • Lightweight, structured, sparse

6. 資源

完整PPT下載

請關注專知公眾號(點擊上方藍色專知關注)

  • 後台回復「ADL」 就可以獲取完整版《Attention in Deep learning》的下載鏈接~

1. WNE

2. Pooling

3. Iterative Pooling

4. Iterative Pooling and Generation

篇幅有限,僅截取部分內容,完整內容請下載PPT查看。

5. Multiple Attention Heads

篇幅有限,僅截取部分內容,完整內容請下載PPT查看。

6. Resources