计算机更喜欢清单型数据表!!!

 

清单型or报表型

日常办公常常会见到两种类型的Excel数据表:清单型和报表型。如下图所示,你觉得哪张表格更好?(注:数据是假数据)

表格示例

你可能会想:表3最清楚啊!表2次之,表1数据最冗余,比如语文写了8遍,太浪费了!

没错,从人的视角看这三张表格,确实如此。但是计算机更“喜欢”表1这种清单型的数据表。

可以简单分析一下他们的优缺点:

清单型

  • 【优】数据表是结构化的,每一列是一种类型的数据,而每一行是一条完整的记录,这便于计算机处理,如进行筛选、排序等;
  • 【缺】数据量多的时候,会存在很多冗余的存储,也不方便人来阅读。

报表型

  • 【优】有合并的单元格,数据呈现更清晰美观、便于人阅读;
  • 【缺】难以用计算机来处理分析。

数据分析是要交给计算机来做的,所以,在设计Excel数据表结构时,建议设计成清单型数据表。当然很多数据平台导出的数据表也都是清单型的,如问卷平台的数据表。

故:清单型数据表更适合用计算机做数据分析

筛选and排序

当清单型数据表每行的记录增多时,数据表往往会很“长”。在大数据面前,如何利用计算机快速获取、查看自己想看的数据呢?筛选排序是两种基本的数据处理方法。无论是图形界面的应用软件,还是编程语言,都能很好对清单型数据表进行筛选排序。下面就以Excelpython两种方式简单处理清单型数据。

1.筛选出各班数学成绩

Excel的筛选

Excel筛选清单型数据

Python的筛选

import pandas as pd
# 读取Excel数据表
df = pd.read_excel("数据实例.xlsx")

# 筛选学科列为数学的数据
mathDF = df[df['学科']=='数学']
Python筛选清单型数据

2.对各班数学成绩进行降序排序

Excel的排序

Excel排序清单型数据

Python的排序

# 对数学的平均分降序排序
mathDF.sort_values(by='平均分', ascending=False)
Python添加排序功能

统计and so on​ 

筛选和排序可以说是从清单型数据表中获取有用数据的基本方法。基于筛选和排序的数据,便可以进行各类数据的统计、计算等等。