NVIDIA Faster Transformer:作者帶你揭秘BERT優化
- 2019 年 10 月 5 日
- 筆記
2017 年 12 月 Google 在論文「Attention is All You Need」中首次提出了 Transformer,將其作為一種通用高效的特徵抽取器。至今,Transformer 已經被多種 NLP 模型採用,比如 BERT 和 XLNet,這些模型在多項 NLP 任務中都有突出表現。
在 NLP 之外,TTS,ASR 等領域也在逐步採用 Transformer。可以預見,Transformer 這個簡潔有效的網路結構會像 CNN 和 RNN 一樣被廣泛採用。雖然 Transformer 在多種場景下都有優秀的表現,但是在推理部署階段,其計算性能卻受到了巨大的挑戰:以 BERT 為原型的多層 Transformer 模型,其性能常常難以滿足在線業務對於低延遲(保證服務品質)和高吞吐(考慮成本)的要求。因此,一個高效的 Transformer 前向計算方案,既可以為在線業務帶來降本增效的作用,也有利於以 Transformer 結構為核心的各類網路在更多實際工業場景中落地。
NVIDIA GPU 計算專家團隊針對 Transformer 推理提出了性能優化方案:Faster Transformer。
據介紹,Faster Transformer 是一個 BERT Transformer 單層前向計算的高效實現,其程式碼簡潔明了,後續可以通過簡單修改支援多種 Transformer 結構。目前,Faster Transformer的優化集中在編碼器(encoder)的前向計算(解碼器 decoder 開發在後續特性規劃中)。底層由 CUDA 和 cuBLAS 實現,支援 FP16 和 FP32 兩種計算模式,其中 FP16 可以充分利用 Volta 和 Turing 架構 GPU 上的 Tensor Core 計算單元。
不久之前,機器之心曾發文對NVIDIA 開源的 Faster Transformer 進行了簡要介紹。為向讀者更細緻的解讀Faster Transformer背後的優化原理與細節, 9 月 26 日,NVIDIA 中國區 GPU 計算專家團隊高級工程師將來帶一場線上分享,詳解 Faster Transformer。
Faster Transformer 綜述
直播時間:2019 年 9月26 日 20:00—21:30
分享主題:Faster Transformer 綜述
分享嘉賓:賈曉瑩,NVIDIA 中國區 GPU 計算專家團隊高級工程師

賈曉瑩,2017 年博士畢業於香港科技大學,隨後加入 NVIDIA GPU 計算專家團隊,從事 NLP,CTR 以及 ASR 的模型在 GPU 上的高效推理實現及優化。
在本次直播中,你將了解到以下內容:
- Faster Transformer 背後的優化原理及細節;
- 如何通過CUDA和cuBLAS在最新架構的GPU上實現高性能的Transformer Encoder。
點擊閱讀原文,註冊後即可預約直播。
NVIDIA GPU計算專家團隊致力於為中國客戶提供基於GPU系統的最快解決方案,工作內容涉及影片影像處理、語音識別和合成、自然語言處理、推薦系統等各個方面,通過程式碼優化、模型優化和Pipeline優化,提供端到端的解決方案。本團隊開源了若干原型項目,幫助用戶評估GPU可以帶來的業務收益,並通過進一步開發集成,利用GPU為用戶降低成本,提高效率。