[NLP] Reformer: The Efficient Transformer 2020 年 7 月 1 日 筆記 1.现状 (1) 模型层数加深 (2) 模型参数量变大 (3) 难以训练 (4) 难以fine-tune 2. 单层参数 … Continue Reading