无限偿债之数据分析统计学的笔记

无限偿债之数据分析统计学笔记

 

 

统计学的本质

统计分析的目的

收集数据、整理分析数据和由数据得出结论的一组概念、原则和方法

 

描述统计:利用表格。图形或者数值(数值特征)来展示和刻画数据中的信息

 

推断统计:利用样本获得的数据对总体的性质进行估计或者检验,总体的性质通常用概率模型。

 

统计分析的相关概念

4种测量尺度

 

 

 

定类和定序合并为分类变量

定距和定比合成连续变量。

分类变量的描述方法只能用频次统计、对于连续变量的描述统计方法即可以使用频次统计,也可以使用均值,标准差。

均值

算数平均

几何平均:在计算多年的平均增长率时,复增长率

调和平均:可能用在数据中较多数值聚集在最小值附近,原因可能是因为调和哦英俊相对于算数,几何最小。

调整平均:是指从上限值和下限值中去掉一定比例后的数据剩下的算数平均值。可以去一定比例的最大值和最小值的原因是因为这些值很可能是异常值。

中位数和众数

中位数:当一组序列数据之间差异较大时,导致平均值代表性较弱可通过中位数来表示数据的集中趋势

 

平均值、中位数通常运用子啊连续变量中,即数值型变量数据;众数既可以用子啊连续变量也可以用在分类变量。

 

极差和标准差

衡量离散趋势,数据离散趋势代表了数据中包含的信息量。

 

  1. 如果希望比较两种数据的离散趋势,不能直接比较两组数据的标准差,因为两组数据的数量和均值不同。通常选用离散系数进行比较,离散系数等于标准差除以均值
  2. 标准差计算公式中有的除以n,有的除以n-1,当计算总体数据标准差时除以n,通过样本数据计算总体标准差时除以n-1,原因是认为增大标准差,以提高代表性