XLNet模型第一作者杨植麟:NLP落地的四个技术阶段

  • 2019 年 10 月 5 日
  • 筆記

作者 | Recurrent.ai

来源 | RecurrentAI(ID:gh_0382adb3c10e)

近日,Recurrent.ai 联合创始人、XLNet 模型第一作者杨植麟,受邀在 CSDN 主办的 2019 AI 开发者大会发表演讲。在演讲中,杨植麟首先从学术角度,详细介绍了 XLNet 模型的核心设计思想和原理,然后站在创业者的角度,介绍了自然语言处理(NLP)在企业服务领域落地的四个技术阶段。

XLNet 模型:在两种研究方向之间重新架一座桥

自从 2018 年 10 月 Google 发布 BERT 预训练模型以来,NLP 领域的发展就进入了快车道。2019 年 6 月,杨植麟作为第一作者,由卡内基梅隆大学(CMU)与 Google Brain 团队携手推出的 XLNet 模型,在 20 项 NLP 任务中超过 BERT 模型,且在其中 18 项任务中拿到最优成绩(State-Of-The-Art,SOTA),包括机器问答、自然语言推断、情感分析和文档排序等。XLNet 模型成为 NLP 领域备受关注的重要学术成果。

杨植麟在演讲中提到,XLNet 论文已经被人工智能领域的顶级会议 NeurIPS 2019 接收为 Oral 论文,将获得 15 分钟的登台演讲时间。据了解, NeurIPS 2019 共收到 6743 篇论文,接收 1428 篇,其中 Spotlight 论文(5分钟演讲时间)164 篇,占比 2.4%;最重要的 Oral 论文仅 36 篇,占比 0.5%。

对于 XLNet 模型的原理,杨植麟介绍,当前 NLP 领域的预训练方法可以分为自回归(Auto-Regressive,AR)和自编码(Auto-Encoding,AE)两个阵营,XLNet 模型的核心设计思想是结合两者各自的优势,同时摒弃两者各自的缺陷。

“XLNet 比较有意思的地方是,它在语言建模(Language Modeling)和预训练(Pretraining)这两种研究方向之间重新架了一座桥。过去,这两种方向高度一致,更好的语言建模可以带来更好的预训练结果。但是当 BERT 这种双向模型出来之后,情况变得不一样,因为语言建模有个致命问题,只能对单向的上下文进行建模。”杨植麟分析道,“XLNet 模型把自回归思想泛化,泛化之后的语言模型可以处理双向上下文。因此,如果语言建模水平有提升,就可以将成果运用到预训练过程中,从而在两者之间重新架起一座桥。”

NLP 落地:从定制化开发到规模化量产

杨植麟今年夏天从卡内基梅隆大学(CMU)博士毕业,博士期间他在 NLP 学术领域取得了多项世界级成绩。在剑桥大学人工智能研究员 Marek Rei 公布的机器学习和 NLP 领域论文统计数据中,杨植麟连续入选 2017 年、2018 年顶级会议和期刊的第一作者排行榜,全球范围内仅有 3 名学者能连续两年入选。

在 NLP 学术领域硕果颇丰的杨植麟,选择进入产业界,联合创立了面向企业服务领域的 NLP 创业公司 Recurrent.ai。他如何看待 NLP 技术的落地?

“前几年,在计算机视觉领域,新的模型算法刷榜之后,国内出现了一批独角兽级别的创业公司。所以在 BERT、XLNet 等模型出来之后,很多人会问这些算法模型在产业界,会不会发生类似计算机视觉领域的事情,产生一批 NLP 领域的独角兽公司。”针对现场很多人心中的疑问,杨植麟分享了他的思考,他认为 NLP 的落地需要经过四个技术阶段,能否产生 NLP 领域的独角兽公司,也就取决于谁能率先突破这四个阶段的技术挑战。

四个技术阶段分别是:

  1. 手动的、定制化的 NLP:基于规则、人工模型架构调优。
  2. 手动的、通用的 NLP:引入预训练模型。
  3. 半自动的、通用的 NLP:引入 AutoML 实现自动调参。
  4. 自动的、通用的 NLP:将人整合为流水线的一部分,实现自动化。

“国内企业服务市场,大约 90% 的 NLP 技术处在第一阶段。第二阶段是将 XLNet 这样通用的预训练模型,用在不同的任务上面,只需要手动微调参数。第三阶段是引入 AutoML 实现自动调参,将算法和模型自动化,这个阶段对于做学术而言足够了,因为数据集是现成的,但是对于产业落地还不够。因为做产业时,拿到的数据就是未标注的,需要解决怎么标、标多少等问题。第四阶段,就是把人(标注员)整合为流水线的一部分,如果需要扩展场景,只需要增加人力即可。”杨植麟详细分享了他的看法。

总结起来,杨植麟分享的 NLP 四个技术阶段,就是从当前主流的“定制化开发”到“规模化量产”的必经之路。

这也是 Recurrent.ai 正在做的事。杨植麟强调:“Recurrent.ai 所采用的 AutoAI 架构,最大优势是底层架构是统一的,基于统一的底层架构,就可以规模化、可复制地支持不同类型的上层应用。”

杨植麟还分享了 Recurrent.ai 已落地的几个典型应用场景:

  • 通过帮助企业分析销售与客户的海量历史对话数据,进行销售意向打分排序,提升销售转化率;
  • 通过分析客户咨询的高频问题及对应的高转化回复话术,了解用户心声,通过调整沟通策略,提高意向客户成单率;
  • 通过自动结构化呈现客户画像,帮助销售人员依据客户的不同,使用定制的开场白,并且减少重复问题,进一步提升高分线索成单率。

“NLP 落地的最大痛点,从十年前到现在都没有解决的问题,就是这个行业一直是高度定制化的。”杨植麟总结道,“而现在,随着预训练技术和 AutoML 技术的成熟,面向企业服务领域的 NLP 技术有机会实现规模化量产,只有实现规模化量产,才有机会诞生独角兽级别的 NLP 创业公司。”

(*本文为AI科技大本营转载文章,转载请联系作者)