【Python自動化Excel】pandas處理Excel數據的基本流程
- 2022 年 1 月 9 日
- 筆記
這裡所說的pandas
並不是大熊貓,而是Python的第三方庫。這個庫能幹嘛呢?它在Python數據分析領域可是無人不知、無人不曉的。可以說是Python世界中的Excel。
pandas庫
處理數據相比於Excel,有一個極大的優點:數據
和處理邏輯
是分離的。基於這一點,便可以實現Excel數據處理的自動化,對於重複繁瑣的數據分析,pandas
一次編寫腳本便「終身受益」。反觀Excel,遇到重複的任務還得一遍一遍地輸入公式、拖動填充柄。
pandas處理Excel數據的基本流程
pandas處理Excel數據的基本流程
從基本流程來看,這個數據處理過程,就是對原數據進行加工,生成新數據的過程。原始Excel文件
就像是原材料
,生成Excel文件
就像是新產品
。而pandas中就是這個加工廠,加工廠的處理邏輯就是根據具體需求來編寫的程式碼。可以從下面的實例中來理解這過程。
實例演示
實例需求描述:
實例描述
動圖演示:
pandas中的常用方法簡介
一、讀取Excel文件
import pandas as pd
df = pd.read_excel(io,header=0)
常用參數介紹:
-
io
:需要傳入Excel文件的路徑。該參數沒有默認值,不能為空 -
header
:可以指定從Excel中的哪一行開始讀取數據。默認為0,從第一行開始。
read_excel()演示
二、數據處理
DataFrame類型
DataFrame
是pandas
庫中的重要數據類型,可以叫做:數據框,好比放數據的架子,由行和列組成。其實跟Excel工作的表很類似,都是二維的。
DataFrame結構示意圖
實際DataFrames數據表
篩選
簡單的數據篩選,只需要輸入列名,也叫「鍵」
數據篩選
計算
計算演示
按照年齡分類:cut()函數
按年齡分類
三、寫入Excel文件
df.to_excel("./生成的Excel文件名.xlsx")
-
第一個參數:生成的Excel文件路徑。
-
index
:生成的Excel文件中是否需要index列,默認為True