机器学习与网络安全基础篇(五)信息论基础

  • 2019 年 10 月 8 日
  • 笔记

信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化,最初是用于研究在一个含有噪声的信道上用离散字母表来发送消息,例如通过无线电来传输通信。

什么叫应用数学?高中至大学时期的一些数学公式微积分都是纯粹的数学公式,应用数学是将数学的式函数应用在我们的实际的生活中解决我们现实中的问题。

在机器学习中,信息论被应用在连续的形变量上。

如果一个事件是连续的,有一定的形变,通过信息论的一些理论知识公式我们可以从中提取到一些信息,在机器学习中是比较重要的。

信息论的基本论调:一个不太可能的事件发生需要比一个非常可能的事件发生,产生更多的信息。

一个不太可能的事件要发生的时候,它是需要很多复杂因素的构成,一个经常发生的事件就不太需要很多非常复杂的构成。比如住在沿海地区的朋友,会碰到台风,台风一年有几回,台风需要在海洋上会积累大量的能量,形成低压气旋,往我们的沿海地区高速的移动,这个时候大家就遇到了台风。但是在海面上随便吹的那种海风,你随便到海边都可以感受的到的,就是一个经常可以发生的事件,不需要积累能量随随便便就可以发生,所以它信息论的基本论调是与我们生活中的现象是相互符合的。

下面几句话中哪一句话容易引起你的注意:

今天白天

今天白天是晴天

今天白天是晴天,但会伴有微风

今天白天是晴天,但会伴有舒适的微风,黄昏时分风就停了。

今天白天是晴天,但会伴有舒适的微风,黄昏时分风就停了,夜间可能会有点凉。

今天白天是晴天,但会伴有舒适的微风,黄昏时分时分风就停了,夜间可能会有点凉,你得多穿点衣服。

今天白天是晴天,但会伴有舒适的微风,黄昏时分时分风就停了,夜间可能会有点凉,你得多穿点衣服,晚饭要认真吃。

随着信息量的增加,产生一件事情的概率越来越低。但是哪一句话能引起你的注意这就是一个问题,有的人可能是到这里黄昏时分风就停了,这句话他觉得是最能引起他注意的,有的是人可能就觉得到这里做最后一句,是最能引起他的注意的,那么这就是我们学习人工智能的一个巧妙的地方。

我们人工智能要达到的结果是根据信息论的过程生成一些语句,但是生成语句的结果是思维定势,而是结合前后关系选择一个恰当的结果输出,所以按照信息论来缔造的这样一个AI可能是最好的选择。

如果想通过这种想法来量化信息,需注意以下几点:

1、非常可能发生的事件信息量比较少,极端情况下,确保总能够发生的事件应该没有信息量的。

2、较不可能发生的事件具有更高的信息量

3、独立事件应具有增量的信息

脑科病人的大脑受到了创伤,可能引起运动区域出现问题,比如手拿不起东西,这个时候医会让他做一些物理治疗,比如尝试用手来抓一些轻的东西,在不断地尝试中大脑会有一个自己的修复过程,半年或一年之后可以抓起东西了,他可以拿起一个水杯,自己来喝一口水。在这个过程中,物理治疗其实是一个连续事件。每一次抓东西的时候受到前一次的经验的影响,让大脑神经去适应抓东西的过程,随着抓的次数越来越多,几千次几万次,神经就已经能够恢复成恢复到像正常人那样。但是如果我们把恢复过程抽离出来,假设病人的神经根本无法恢复,每次都拿不起来那就永远都不会拿起来。

对于一个连续性事件来说,能量是可以传递积累的,信息量也是可以积累的,但是非连续性事件属于离散事件是单独的,这个信息量就不能积累了。

自信息

一个事件(消息)本身所包含的信息量,由事件的不确定性决定的。即随机事件Xi发生概率为P(xi),则随机事件的自信息量定义为:

公式中的log表示自然对数, I(x)的单位是奈特(nats)。奈特是以1/e的概率观测到一个事件时获得的信息量。如果用以2为底的对数,单位是比特(bit)或者香农(shannons)。

香农熵与微分熵

自信息只处理单个的输出。我们可以用香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化:

H(x)=EXP[I(x)]=EXP[logP(x)]

一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。当x 是连续的,香农熵被称为微分熵(differential entropy)。

KL散度

如果我们对于同一个随机变量x 有两个单独的概率分布P(x) 和Q(x),我们可以使用KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异。KL散度又称为相对熵。

DKL(P||Q)=EXP[logP(x)logQ(x)]

KL散度的物理意义可以理解为:在离散型变量的情况下,KL 散度衡量的是,当我们使用一种被设计成能够使得概率分布Q 产生的消息的长度最小的编码,发送包含由概率分布P 产生的符号的消息时,所需要的额外信息量。

一个和KL 散度密切联系的量是交叉熵(cross-entropy),它和KL 散度很像但是缺少左边一项:

H(P,Q)=H(P)+DKL(P||Q)=EXPlogQ(x)

通常用来衡量分布P与Q之间的距离,这个距离不是对称的距离。

比如伞度P是一个电报机圆形的,它只能生产这种圆形的电报,如果我们设计一种新的Q兼容,P是近似于P的分布。

KL散度的方向会选择反映了每一种应用优先考虑哪一种的选择。

交叉熵

在P的概率分布下求Q(x)分布的信息的期望值。

针对Q来最小化交叉熵等价于最小化KL散度, 因为H(P,Q)的第一项与Q无关。

H(P,Q)=H(P)+DKL(P||Q).

H(P,Q)=ExPIQ(x)=ExPlogQ(x).

信息粒子论描述了一种事物形成过程——即所有物质皆由源物质构成,源物质携带信息,并且这种信息的量为固定值。信息量的携带,可以控制物质的变化,形成各种物质。

信息粒子论首次出现于2009年9月13日,由华裔科学家戈瑟姆-贾提出,并且在第二年在强子对撞机之中获得了部分证实。但是他的一套理论依然存在争议,即便如此,他的数学模型依然让部分物理学家相信,这也许可以解释出为为什么这个宇宙更加偏好正物质。

比如一个苹果,构成它的部分是苹果的小的圆细胞,细胞里面是原子分子,这种情况是在大自然中是存在的。在我们在深度学习的时候,很多深度学习的教程里面,会有一张图,科学家已经证实一个现象,就你看到一幅画面,如果很短的时间,比如说0.1几秒或以上你只会是记录几个像素,再长一点时间比如0.18秒就可以记录到边缘,对物体边界的区分,这个是脑神经电的传输,电信号的传输距离是要短于你对面这张桌面的。

信息子

只要这个东西携带信息,它就可以被进一步拆解,最终拆解为信息子。信息子一开始是杂乱无章地分布在四维空间,当三维空间中的分子摩擦碰撞产生能量逃逸到四维空间中,这个能量就启动了四维空间中信息子的规则排布,排布好的信息子就产生了大量的这种信息。

这个信息就可以产生信息,它会回归到三维空间中释放能量,引起其他分子的碰撞摩擦,如此循环下去。

相关内容推荐:

机器学习与网络安全(一)基础知识

机器学习与网络安全(二)开发环境创建

机器学习与网络安全(三)线性代数

机器学习与网络安全(四)概率学基础