计算机更喜欢清单型数据表!!!
- 2022 年 2 月 7 日
- 筆記
- python自动化办公
清单型or报表型
日常办公常常会见到两种类型的Excel数据表:清单型和报表型。如下图所示,你觉得哪张表格更好?(注:数据是假数据)
你可能会想:表3最清楚啊!表2次之,表1数据最冗余,比如语文写了8遍,太浪费了!
没错,从人的视角看这三张表格,确实如此。但是计算机更“喜欢”表1这种清单型的数据表。
可以简单分析一下他们的优缺点:
清单型
-
【优】数据表是结构化的,每一列是一种类型的数据,而每一行是一条完整的记录,这便于计算机处理,如进行筛选、排序等; -
【缺】数据量多的时候,会存在很多冗余的存储,也不方便人来阅读。
报表型
-
【优】有合并的单元格,数据呈现更清晰美观、便于人来阅读; -
【缺】难以用计算机来处理分析。
数据分析是要交给计算机来做的,所以,在设计Excel数据表结构时,建议设计成清单型数据表。当然很多数据平台导出的数据表也都是清单型的,如问卷平台的数据表。
故:清单型数据表更适合用计算机做数据分析。
筛选and排序
当清单型数据表每行的记录增多时,数据表往往会很“长”。在大数据面前,如何利用计算机快速获取、查看自己想看的数据呢?筛选
和排序
是两种基本的数据处理方法。无论是图形界面的应用软件,还是编程语言,都能很好的对清单型数据表进行筛选
和排序
。下面就以Excel
和python
两种方式简单处理清单型数据。
1.筛选出各班数学成绩
Excel的筛选
Python的筛选
import pandas as pd
# 读取Excel数据表
df = pd.read_excel("数据实例.xlsx")
# 筛选学科列为数学的数据
mathDF = df[df['学科']=='数学']
2.对各班数学成绩进行降序排序
Excel的排序
Python的排序
# 对数学的平均分降序排序
mathDF.sort_values(by='平均分', ascending=False)
统计and so on
筛选和排序可以说是从清单型数据表中获取有用数据的基本方法。基于筛选和排序的数据,便可以进行各类数据的统计、计算等等。