「回顾」从语言智能到行业智能

2019 年 11 月 22 日
筆記

谢谢大家！很高兴能够有机会和大家聊一聊我们深度好奇最近的一些工作，和我们对自然语言处理与理解的一些思考，顺便说一下我们可能是唯一没有做智能客服的公司，下面开始我的演讲。

一、自然语言理解之难

1.1自然语言解析

大家都知道自然语言理解是NLP中的核心的问题，是重中之重。那么我们就来聊一聊为什么自然语言处理这么有用，为什么又这么难。首先我们定义一下自然语言理解是什么，一直以来业界都没有一个关于它的很好的定义，那我们就用一个最简单的描述来解释它：我们把一段自然语言描述成一个机器可读的数据结构，它可以是一个图，也可以是一个逻辑表达式等等。只要后面的机器可以读这个数据结构，我们就认为它可以跟后面的业务逻辑进行对接，而这种程度的映射，我们就称它已经完成了自然语言的理解。自然语言理解里面有两个最基本的要求：首先是我们需要它有一个有足够的覆盖和同时不过于泛化的表示体系，它需要能够精确的执行我们希望它执行的东西；同时，关于映射本身，我们希望它可以通过有限的数据学习可以得到一个具有足够容错性的集合，也就是说这个映射本身也必须是可以被学习的。

1.2自然语言处理难在哪

那自然语言处理为什么这么难呢?我对此做了几个最简单的总结，自然语言处理有四个最为核心的困难：

自然语言处理中有复杂灵活的表示方式；自然语言中存在长距离的逻辑关联；自然语言理解过程中存在对知识的大量依赖；语义表示形态设计本身就很困难。

这里还有两个我们提出的核心观察：

第一个是：自然语言理解中的大量灵活性，很难通过传统的符号逻辑来充分表达；第二个观察是：自然语言处理中的符号行为，很难通过传统的深度学习来解决。比如果我们一边阅读，一边需要浅层或者较为有深度的逻辑推理，这就很难通过传统的深度学习来实现。

二、神经符号系统：The way to go

2.1学习范式的局限

由于当前语义分析的学习范式是存在很大局限性的，语义解析长期以来都是通过语法分析的形式如CCG来进行，这种严重依赖语法分析的方式存在较强的不确定性，它的训练数据往往也比较少无法有效的利用间接的监督信号。那如果我们大家现在都在做深度学习，可产生的效果也只是弥补了部分的问题，可它同时还有下面的不足：比如说不擅与处理语言中长距离的依赖关系、很难将人类常识或领域知识有效的加入进去、缺乏执行效率、缺乏严格性和可解释性缺乏符号性的泛化性能等等。

2.2符号主义和联结主义

我们想说的一个核心的问题就是，我们要把符号智能和深度学习神经网络来做一个融合，这就是所谓的神经符号系统。符号系统用来处理离散的结构性的表示、操作具有清晰精确高效率的优点，这个符号系统指的就是我们传统的专家系统；而神经网络则是用来处理连续的表示、操作以及知识，其具有模糊可处理可学习、不确定、不可解释等特性，但它不善于处理图结构、变量、递归和指代等问题形式；通常我们会说端到端的系统也是如此，从头至尾，这个系统最后可能真的帮助你解决了某个问题，但往往你是不清楚他是怎么帮助你解决问题的。当我们把这个技术用到特定的领域比如说法律和金融时，这就会带来一定的问题:即我们虽然知道输入也知道输出，但是我们不知道系统的推理是不是符合知识和逻辑，也许只是在数据推动下得到的某一个特殊情况而已，这是它很大的缺陷；通常大家会说符号主义和联结主义的结合是一个蔓延了几十年的讨论，自从第一代的神经网络被提出之后，大家都在思考是不是可以把之前我们的传统意义上的AI的符号智能与新兴的神经网络结合起来；下图清晰的表示了符号主义和联结主义的多层面比较，这三个层面指出了符号主义和联结主义的主要区别和可结合的点：

图 1 符号主义和联结主义的比较

2.3神经和符号融合的基本原则

既然二者都有各自的优缺点，那么接下来我们来讨论如何将它们很好的结合起来，我们认为基本上有三个原则：

第一个原则是我们要形成符号和神经交流的界面和闭环：如下图所示，比如说我们有一个向量，它经过一个神经网络比如说它是经过一个分类器，得到一个分类的结果放入一个规则引擎得到它的一个另外的符号表示最为一个输出，这个符号运算再经过嵌入层之后又得到了一个向量表示，这样我们就完成了一个闭环，我们要做的首先是建立符号和神经两边交流的界面，让神经可以调用符号、可以控制符号、可以读得懂符号，同时呢也要让符号能调用、控制、读得懂神经，这就是第一个原则；

图 2 形成符号和神经的交流界面及闭环

第二个原则是我们要形成符号和神经间的并列及对偶：在我们复杂的系统中，经常会有大量的符号通入和这个神经通路的对偶，它们之间因为有各自的特点；如说，神经网络可以用BP反向传播算法来学习，所以它是不是可以一边学习一边来教这个符号系统呢？即让符号系统明白什么是它应该做的事情。同样，符号系统在它的工作过程中也会完成总结反馈给神经系统，即刚才它学到了什么东西，这样就能够得到一个比单独使用两个通路都要好的一个结果。还有一种情况是我们有大量的符号知识，也就是我们人类总结出的各种各样的规则。那么问题来了，我们怎样去告诉神经网络我们人已经学习到了这么多有用的东西，是不是这些有用的东西可以直接告诉机器而不需它再次花费重复的时间去学习了呢？这个里面就有规则知识的消化和我们从符号知识与神经网络知识之间相互转化的过程；

图 3 形成符号和神经之间的排列和对偶

最后一个原则是由于我们有这么多它们之间的交流对偶和并列关系，故若要满足第三个原则我们就需要一个中央的调控机制去做选择控制和规划：这是一个相对比较复杂的系统，因此我们一定要保证中央调控机制的完备性只有这样才能很好的去选择、控制和规划。

图 4 完备的中央调控机制去选择控制和规划

三、面向对象的神经规划（OONP）

3.1 面向对象的神经规划概要

我们说了这么多的它们的这个能解决的问题和基础的设计原则，我们有没有一个好的实践把符号和神经网络结合起来呢？这是我下面要说的，也是我们深度好奇的研究小组在过去一年多以来的工作总结：面向对象的神经规划（Object-Oriented Neural Programming）首先它是借用了借用面向对象编程思想，利用解析出来的实体组成对象和对象间的关系，构成结构清晰的图谱；那每个对象都是一个类的实例化，类的概念规定了其具有的内部属性和外部的关系和可执行的操作，以及与其他对象的链接关系类型。面向对象神经规划所要做的工作就是我们可以一边阅读、一边理解，总而言之，这是一个持续的决策过程，也是一个不断构建和完善图谱的过程，这和我传统的阅读理解是一个完全不同的过程。首先我们要做一个比较全的解析，也就是我们不是针对某一个问题或者是某一个点去做解析，而是我们要基本上复现整个文本的故事，把它完善成一个近乎信息完备的知识图谱；其次，这个过程是一边去读一边去构建的过程，我们之所以这么做，是因为，第一它是一个我们人可以做的过程，第二是说当我们的故事足够复杂之后，当我们文本的叙述方式足够复杂之后这就成为了一个必须的过程。我们不是要去构建单个的点，我们是要构建一个整个的复杂的图，那我们对图上面和文本中靠后的信息的构建和复原是需要靠前面的阅读和理解来完成的：也就是说，当我们去理解一个复杂的故事的时候我们往往需要把这个故事前面的理解加到推理的过程中来去理解下面的故事。

3.2 面向对象的神经规划架构

这是一个基本的架构，下图可以看到这是一个比较复杂的事物，我们有一个中央的调控器，我们把它叫做Reader，它有三种不同的Memory，第一个是对象记忆，它是一个既有神经又有符号的基本格式；第二个叫做矩阵记忆，它是一个类似神经图灵机的这么一个可微连续的记忆；第三个是Action History因为他是一个决策过程，它会把过去的一些操作都记录起来，因此我们可以从它这些操作里面去理解我们对文章的结构和一些离散的这种划分是否合理。

图 5 面向对象的神经规划之边阅读边理解的组织架构

我们进一步去看看中央控制器里面有什么东西，可以发现它里面既有这些偏符号的符号处理器同样也有神经网络的中央控制器，它们之间有复杂的通信关系。下面是一个实例，内容是Tom偷了两辆车，一辆白色奥迪和一辆宝马，他把这两辆车卖给John但是他只买了其中的一辆；这个动画就演示了系统一边读一边进行理解的过程，通过下图我们可以清晰的看到每在一些关键的点上它都会有一些关键的动作，这些动作是由Action进行触发的，它们会帮助系统不断的丰富知识图谱，等待系统读结束，知识图谱的构建也就相应的结束了。这个例子的自然语言理解共涉及了22步操作，它涉及了两个事件，一个是偷窃一件是销赃，然后两个人物，一个Tom一个John，两辆车，一辆奥迪一辆宝马所以说事件之间的关系也是蛮复杂的，宝马这个车即使被偷窃的东西也是被销赃的东西；

图 6 面向对象的神经规划边阅读边理解的实例过程

四、深度好奇：从技术到产品

4.1深度好奇的技术布局

我们说了那么多很拽的技术，下面我们说说能够用它来干什么。我们深度好奇的战略布局是以整个自然语言理解为核心，同时我们也会有一个基于以OONP为框架的知识理解技术体系；它能够做的其实是大概三件事情：第一是复杂的文本理解；第二是对话系统。对话系统和复杂文本理解中最核心的一个是对话理解。同时我们也可以做文本生成，因为它可以看作是理解的逆过程。在此基础之上我们做了一系列产品：在公安领域，我们通过分析公安们在刑侦过程中的案情文本来记录和学习这个案件，在此之前公安可以拥有一些人工智能技术比如说视频和人脸识别，但这些信息都是一些片面的，不能够系统的去透彻的理解案情，我们在案情分析辅助决策方面为他们节省时间和提高效率；在金融领域呢，我们也有面向金融安全的基于人工智能的自然语言交互程序等。

图 7 深度好奇的技术布局示意图

4.2深度好奇项目案例分析

接下来看一些项目案例：

第一个案例是公安案情的结构化分析引擎，它可以生成人、事、物的知识图谱，以及多达220个标签，其准确率高达95%，我们把此引擎接入某公安信息平台，提供串并案和犯罪预测的信息基础；第二个案例是视频平台的语音调度，提供语音视频的调度系统，该系统支持实时的高精度的对特定城市的摄像头的语音调用和语音控制，这其中也包括对视频内容和地理信息的推理和查找。

图 8 案情解析引擎

法律方面的案例是，裁判文书解析，这一块大家应该是比较熟悉的，在这一块我们人工智能的应用比较多，我们提供民事和刑事案件的判决文书解析和一些争议焦点进行提取，在这些基础之上，提供对多种形式的检索，经测试准确率高达97%。

图 9 裁判文书解析

金融方面的案例是这个面向P2P的智能视频审核系统，我们开发用于视频审核的智能系统可以实现实时的无人自动对话和审核，对高风险的操作进行穷追不舍的追问，以便辅助发现各种、可能存在的欺诈；可替代用于审核的大部分人工的工作，并提供用于后期风控的基础数据，这显著的降低了骗贷和逃贷的风险。

图 10 智能视频审核

五、总结

最后总结一下，我们认为自然语言理解在自然语言处理这个行业中的定位是一切智能产品融合的基础，同时我们也认为自然语言理解是一个非常非常困难的问题，因此它需要新的范式。我们正在孜孜以求的研究神经符号系统，则能够将它与我们熟悉的深度学习和类似规则的符号智能相结合，我们认为这种方案是实现复杂文本理解的唯一正确的到道路。

我的分享就到这里。谢谢大家！

作者介绍：

吕正东博士深度好奇™创始人 – CTO

· 留美计算机博士，新疆公共安全实验室首席专家，深度学习领域（尤其是自然语言处理方向）的国际权威。

· 2013年初创立华为诺亚方舟实验室的深度学习团队，从零开始建立软件及硬件平台，并在两年内带领诺亚方舟实验室在神经语言智能领域成为国际一流的研究机构。

· 2016年创立人工智能技术公司深度好奇，将包括神经符号模型在内的多项前沿技术应用于法律、公安、金融领域，大幅提升行业效能。其中，深度好奇的最新研究工作“面向对象的神经规划（OONP）”率先提出了复杂篇章理解的技术框架，获得学界和产业界的高度评价。

· 在2017年《人工智能杂志》关于神经语言智能的权威综述中引用的大中华区的十项工作中，吕博士及其团队的四项贡献获得了高度评价。

· 多项基于深度学习的自然语言处理技术专利的发明人，专利覆盖了语义匹配、问答、多轮对话和自动短信回复等。

——END——

3AI-Pioneer2018-深度好奇(1).pdf

分享嘉宾：吕正东 深度好奇™创始人 – CTO

内容来源：AI先行者大会《从语言智能到行业智能》

出品社区：DataFun

注：欢迎转载，转载请注明出处。

「回顾」从语言智能到行业智能

1.1自然语言解析

1.2自然语言处理难在哪

2.1学习范式的局限

2.2符号主义和联结主义

三、面向对象的神经规划（OONP）

3.1 面向对象的神经规划概要

4.1深度好奇的技术布局

4.2深度好奇项目案例分析

VirMach 便宜 VPS

QNews

「回顾」从语言智能到行业智能

1.1自然语言解析

1.2自然语言处理难在哪

2.1学习范式的局限

2.2符号主义和联结主义

三、面向对象的神经规划（OONP）

3.1 面向对象的神经规划概要

4.1深度好奇的技术布局

4.2深度好奇项目案例分析

分享此文：

Related Posts

【5min+】保持程序健康的秘诀！AspNetCore的HealthCheck

当初为了有机会进大厂，狠心复习了这9门核心知识点，熬夜整理成思维导图送给大家

了解Vuex状态管理模式的理解强化指南

⭐Mapbox GL JS学习探索系列（4） – Marker重叠解决方案

VirMach 便宜 VPS

QNews

熱門搜尋