工作中我常用的分析算法

  • 2019 年 10 月 6 日
  • 筆記

统计性描述经常用到散点图

统计性描述更为侧重单变量的描述,即描述X、X与X之间的关系,在通过X去描述Y的时候,我更关心X与Y间存在何种关系,此时便需要借助散点图去印证X与Y相关的内在一致性,并通过方差、协方差过渡到统计相关的本质。

散点图是唯一一个能够描述变量与变量间相关关系的图形,在实际我的工作中出镜频率非常高,它很好的过渡了描述性统计与推论性统计之间的鸿沟

检验与方差分析几乎不用

概率理论部分涉及到假设检验,由此可以过渡到差异性分析。

其实T检验和方差分析都可以看成是差异类的分析方法,差异分析能够帮忙回答就是你我之间有无区别的问题,其实,工作中几乎不太会使用到差异化分析,但是作为统计学的基本底层框架,熟悉并掌握还是非常有必要,不一定能用到,但是你要会

不同领域相关分析侧重不同

依据不同的分析环境,相关分析会有完全不同的分析思路,不同领域中对同一种方法的使用、视角、判断以及应用完全不同。

传统的市场分析领域中,数据收集成本昂且非常强调精度,相关分析并不能解决精度上的问题,甚至连经常遇到的事物的因果关系都很难说清,因此大家并不会将相关分析作为最终的分析结论,相关分析仅仅是预分析的一小部分。

数据挖掘领域中,相关分析便显得非常重要。例如捆绑销售案例,冬瓜和拖布捆绑在一起营销效果会比较好,也许根本无从知晓其背后的真正原因,对于商家而言关注的只是盈利商品组合,其背后的原因似乎也并不是特别重要。为什么不追本溯源的去问其背后的为什么呢?如果非要深究其背后的原因,便需要通过线下调查、数据分析、人力投入等等种种工作,这便涉及到了昂的分析成本,数据挖掘领域中控制成本是一个很重要的问题。

线性回归的Y你不一定能拿到

以二元线性回归为例,回归公式为:

Y=b0+b1*x1+b2*x2+u

其中Y是由实物转化为统计问题的结构,通常用来表示具体的需求,实际建回归模型时最主要的两个问题,一是Y的可获取性(能不能拿到Y),另一个是如何量化Y,这两个问题涉及到你的现实问题能不能转化成统计学问题并加以处理。

如果某天领导要求分析客户的信用情况,能不能实现呢?

如果所在电商行业,那么可以第一时间拒绝,理由是X质量差、Y不易获得且无法量化。通常银行业中则能够实现,银行业中指标获取便利。

逻辑回归太重要

逻辑回归模型的方程式与线性回归类似,区别在于Y的量化特征不同。通常,Y有0-1类型、多分类类型、计数类型等,不同的量化特征决定使用的建模方法不同。

Y为0-1类型逻辑回归模型,其统计方法使用非常,与其相比其他所有的方法都稍显逊色 ,0-1类型的逻辑回归可以解决非常多的预测类问题,例如客户会不会流失、公司会不会倒闭、明天会不会下雨等等

需要注意的是,不同的量化方案也意味着业务环境不同,如果将Y量化成0-1分类,说明当前业务环境非常紧凑,Y为当务之急要解决的问题,例如客户流失过于严重时可以将Y定义为0-1的形式。反之,如果当前的需求是开发新兴市场,那么Y的定义可以不必如此激烈严格

因子分析害怕过拟合

T检验、F检验、回归、逻辑回归均针对Y进行分析,针对庞大的X的分析则需要用到降维的思想将X进行压缩,通常2-15个影响因素是合理的,如果超出此范围,工作中便很难论证模型的科学性,因此将变量压缩至合理的数量范围便变得非常重要,使用的方法便是主成分与因子分析。

因子也可以叫做主成分,两者本质相同,市场分析中利用问卷调查消费者潜在行为时经常会用到因子分析。当然,弊端当统计量过多时会带来模型过拟合的问题,模型一旦过拟合则会导致后续问题无法处理。

什么是过拟合?例如Y为明天要不要去逛街如果你要顾忌明天的天气、明天的交通状况、明天穿的衣服颜色、明天能不能吃早饭等等等等,顾忌的因素这么多,干脆不要去了,这,就是过拟合

聚类分析做的是市场细分

主成分分析是没有Y的,针对的是庞大的X间的分析,即分析的是样本的列,而聚类分析则分析的是行

针对行的分析与针对列的分析不同,列表示各种变量,而行表示人的特征或是行为特征,商业中对行较为关注,而研究领域中对的分析尤为看重。

聚类做的事情就是市场细分,即将相似特征的事物聚合在一起,对聚合后的每一组进行描述,即对每一组的特征进行细分,细分的过程即贴标签,标签非常有意思,京东叫做京东画像,淘宝叫做千人千面计划。其实市场细分也具有局限,其仅仅能对客户进行描述,例如一个人站在奢饰品店的门口,有经验的店员第一眼能够看出她的穿衣背包档次从而给这个人进行定位,这便是市场细分,但是,这个人会不会进店买东西店员则无从知晓,如何判断买与不买,这便是后续的客户价值分析。

客户价值分析

客户价值分析领域常用的模型为RFM模型,例如某人在京东下了第一单,发现物流服务、线上购物体验、客服服务都很好,于是后续接连下单购买多次,通常,单量、购买时间长短、消费金额这三个指标是客户价值模型的核心衡量指标

其实,市场细分也好、判别归属也好,都基于客户价值模型,市场细分主要是针对X的分析,客户价值主要是针对Y的分析判别模型主要针对的是X与Y的分析,他们归根结底,都是一套的数据挖掘方法流。

对应分析与联合分析

对应分析与联合分析是市场分析与数据挖掘领域中使用较为广泛的方法。

对应分析针对X的模型的延伸,例如可以将对应分析看成是主成分模型的延伸,主要解决四象限的问题。例如可以以收入数据作为X、幸福感数据作为Y画图,会发现一三象限的数据随着收入的增加幸福感也会增加,符合常规认知,但是二四象限的数据便不符合常理了收入高为什么不幸福?收入低的人有什么可快乐的呢?通过后续分析你就会发现,其中涉及到人的一种特质-即安全感。原来,收入高但是不幸福的人很可能是缺少了安全感,那么可以将安全感这一特质放入其中,处理后发现数据基本分布在了一三象限,那么,这个过程中涉及到的异常客户便是值得你后续重点关注的有价值客户,很可能,他们身上,蕴藏着巨大的空白市场

Y的模型延伸出来的方法便是联合分析,主要解决的是产品的结构问题,例如新买了笔记本,开始选择这个型号是因为喜欢它的颜色,然而随着时间的推移我的口味也随之升级,我开始关注内存、性能。当客户对商品的满意度下降,反映了这个商品的结构已经不再合理,联合分析便是实时的监控产品的结构属性特征,判断出最优组合,分辨出商品的主打特性与附庸特性,是一种对新产品潜在属性的预测,是回归分析的延伸方法。

时间序列分析强调预测

前面的分析都是基于横截面数据进行的分析,横截面数据强调结构性问题时间序列则强调预测,实际工作中用到的也不是很多。

生存分析

客户价值分析中,当客户向右流动时称为客户转换,可以利用判别分析进行分析处理,当客户向左流动时,则称为客户流失,这时利用的是生存分析进行处理。