深度學習注意力機制-Attention in Deep learning-附101頁PPT
- 2019 年 10 月 7 日
- 筆記
導讀
Amazon網路服務機器學習負責人 Alexander J. Smola 在ICML2019會議上做了關於深度學習中的注意力機制的報告,詳細展示了從最早的NWE到最新的Multiple Attention Heads的相關內容。
作者 | Alex Smola, Aston Zhang
編譯 | Xiaowen

報告主要分為六個部分:
1. Watson Nadaraya Estimator(NWE):最早的非參數回歸(Nonparametric Regression)的工具之一,更具體地說是最早核回歸技術(Kernel Regression Technique)由Nadaraya和Watson兩人同時於1964年獨立的提出。
2. 池化 Pooling
- 單目標 – 從池化 pooling 到注意力池化 attention pooling
- 層次結構 – 分層注意力網路 Hierarchical attention network
3. 迭代池化 Iterative Pooling
- 問答 Question answering / 記憶網路 memory networks
4. 迭代池化與生成器 Iterative Pooling and Generation
- 神經機器翻譯
5. 多頭注意力網路 Multiple Attention Heads
- Transformers / BERT
- Lightweight, structured, sparse
6. 資源
完整PPT下載
請關注專知公眾號(點擊上方藍色專知關注)
- 後台回復「ADL」 就可以獲取完整版《Attention in Deep learning》的下載鏈接~
1. WNE





2. Pooling













3. Iterative Pooling








4. Iterative Pooling and Generation








篇幅有限,僅截取部分內容,完整內容請下載PPT查看。
5. Multiple Attention Heads









篇幅有限,僅截取部分內容,完整內容請下載PPT查看。


6. Resources




