XLNet模型第一作者杨植麟：NLP落地的四个技术阶段

2019 年 10 月 5 日
筆記

作者 | Recurrent.ai

来源 | RecurrentAI（ID:gh_0382adb3c10e）

近日，Recurrent.ai 联合创始人、XLNet 模型第一作者杨植麟，受邀在 CSDN 主办的 2019 AI 开发者大会发表演讲。在演讲中，杨植麟首先从学术角度，详细介绍了 XLNet 模型的核心设计思想和原理，然后站在创业者的角度，介绍了自然语言处理（NLP）在企业服务领域落地的四个技术阶段。

XLNet 模型：在两种研究方向之间重新架一座桥

自从 2018 年 10 月 Google 发布 BERT 预训练模型以来，NLP 领域的发展就进入了快车道。2019 年 6 月，杨植麟作为第一作者，由卡内基梅隆大学（CMU）与 Google Brain 团队携手推出的 XLNet 模型，在 20 项 NLP 任务中超过 BERT 模型，且在其中 18 项任务中拿到最优成绩（State-Of-The-Art，SOTA），包括机器问答、自然语言推断、情感分析和文档排序等。XLNet 模型成为 NLP 领域备受关注的重要学术成果。

杨植麟在演讲中提到，XLNet 论文已经被人工智能领域的顶级会议 NeurIPS 2019 接收为 Oral 论文，将获得 15 分钟的登台演讲时间。据了解， NeurIPS 2019 共收到 6743 篇论文，接收 1428 篇，其中 Spotlight 论文（5分钟演讲时间）164 篇，占比 2.4%；最重要的 Oral 论文仅 36 篇，占比 0.5%。

对于 XLNet 模型的原理，杨植麟介绍，当前 NLP 领域的预训练方法可以分为自回归（Auto-Regressive，AR）和自编码（Auto-Encoding，AE）两个阵营，XLNet 模型的核心设计思想是结合两者各自的优势，同时摒弃两者各自的缺陷。

“XLNet 比较有意思的地方是，它在语言建模（Language Modeling）和预训练（Pretraining）这两种研究方向之间重新架了一座桥。过去，这两种方向高度一致，更好的语言建模可以带来更好的预训练结果。但是当 BERT 这种双向模型出来之后，情况变得不一样，因为语言建模有个致命问题，只能对单向的上下文进行建模。”杨植麟分析道，“XLNet 模型把自回归思想泛化，泛化之后的语言模型可以处理双向上下文。因此，如果语言建模水平有提升，就可以将成果运用到预训练过程中，从而在两者之间重新架起一座桥。”

NLP 落地：从定制化开发到规模化量产

杨植麟今年夏天从卡内基梅隆大学（CMU）博士毕业，博士期间他在 NLP 学术领域取得了多项世界级成绩。在剑桥大学人工智能研究员 Marek Rei 公布的机器学习和 NLP 领域论文统计数据中，杨植麟连续入选 2017 年、2018 年顶级会议和期刊的第一作者排行榜，全球范围内仅有 3 名学者能连续两年入选。

在 NLP 学术领域硕果颇丰的杨植麟，选择进入产业界，联合创立了面向企业服务领域的 NLP 创业公司 Recurrent.ai。他如何看待 NLP 技术的落地？

“前几年，在计算机视觉领域，新的模型算法刷榜之后，国内出现了一批独角兽级别的创业公司。所以在 BERT、XLNet 等模型出来之后，很多人会问这些算法模型在产业界，会不会发生类似计算机视觉领域的事情，产生一批 NLP 领域的独角兽公司。”针对现场很多人心中的疑问，杨植麟分享了他的思考，他认为 NLP 的落地需要经过四个技术阶段，能否产生 NLP 领域的独角兽公司，也就取决于谁能率先突破这四个阶段的技术挑战。

四个技术阶段分别是：

手动的、定制化的 NLP：基于规则、人工模型架构调优。
手动的、通用的 NLP：引入预训练模型。
半自动的、通用的 NLP：引入 AutoML 实现自动调参。
自动的、通用的 NLP：将人整合为流水线的一部分，实现自动化。

“国内企业服务市场，大约 90% 的 NLP 技术处在第一阶段。第二阶段是将 XLNet 这样通用的预训练模型，用在不同的任务上面，只需要手动微调参数。第三阶段是引入 AutoML 实现自动调参，将算法和模型自动化，这个阶段对于做学术而言足够了，因为数据集是现成的，但是对于产业落地还不够。因为做产业时，拿到的数据就是未标注的，需要解决怎么标、标多少等问题。第四阶段，就是把人（标注员）整合为流水线的一部分，如果需要扩展场景，只需要增加人力即可。”杨植麟详细分享了他的看法。

总结起来，杨植麟分享的 NLP 四个技术阶段，就是从当前主流的“定制化开发”到“规模化量产”的必经之路。

这也是 Recurrent.ai 正在做的事。杨植麟强调：“Recurrent.ai 所采用的 AutoAI 架构，最大优势是底层架构是统一的，基于统一的底层架构，就可以规模化、可复制地支持不同类型的上层应用。”

杨植麟还分享了 Recurrent.ai 已落地的几个典型应用场景：

通过帮助企业分析销售与客户的海量历史对话数据，进行销售意向打分排序，提升销售转化率；
通过分析客户咨询的高频问题及对应的高转化回复话术，了解用户心声，通过调整沟通策略，提高意向客户成单率；
通过自动结构化呈现客户画像，帮助销售人员依据客户的不同，使用定制的开场白，并且减少重复问题，进一步提升高分线索成单率。

“NLP 落地的最大痛点，从十年前到现在都没有解决的问题，就是这个行业一直是高度定制化的。”杨植麟总结道，“而现在，随着预训练技术和 AutoML 技术的成熟，面向企业服务领域的 NLP 技术有机会实现规模化量产，只有实现规模化量产，才有机会诞生独角兽级别的 NLP 创业公司。”

(*本文为AI科技大本营转载文章，转载请联系作者)

XLNet模型第一作者杨植麟：NLP落地的四个技术阶段

VirMach 便宜 VPS

QNews

XLNet模型第一作者杨植麟：NLP落地的四个技术阶段

分享此文：

Related Posts

学生时代所学的一些 C 语言知识点回顾（3）——再议指针的声明与使用

Docker 入门：Dockerfile

腾讯云 MySQL 云数据库快速初始化的方法步骤

Pytorch autograd,backward详解

VirMach 便宜 VPS

QNews

熱門文章

熱門搜尋