­

數據處理是萬事之基——python對各類數據處理案例分享(獻給初學者)

  • 2019 年 12 月 19 日
  • 筆記

作者Nature

出品AI機器思維

練上一萬個小時每個人都會成為專家——重複是學習之母!

Pandas是python中一個強大的數據分析和處理模組工具,通過此模組能快速、靈活的處理數據,為複雜的數據分析提供基礎分析功能。對資料庫或Excel表,如包含了多列不同數據類型的數據(如數字、時間、文本)以及矩陣型或二維表等這些原始數據都需要首先處理才能應用分析。

一個好的數據科學家同時也是一個好的數據處理科學家,有效的數據是萬事之基,業務數據分析中數據需要經歷如下幾個階段的工序如:清洗原始數據、轉換與特殊處理數據、分析和建模、組織分析的結果並以圖表的形式展示出來,根據數據分析寫數據分析報告等。

Pandas模組處理兩個重要的數據結構是:DataFrame(數據框)和Series(系列),DataFrame(數據框)就是一個二維表,每列代表一個變數,每行為一次觀測,行列交叉的單元格就是對應的值,數據框有行和列的索引,能幫助我們快速地按索引訪問數據框的某幾行或某幾列,可以對行或列操作。可以通過NumPy數組創建數據框。

首先安裝pandas包:

案例1:創建一個數據框

說明:v_data變數賦值的是後面的數據,通過df=pd.DataFrame(v_data)構造函數生成數據框並賦值給df,構造函數里有很多參數可以應用,改變列的排列顯示順序等,這些高級參數設置可以根據案例去嘗試,做到舉一反三的學習,更好的領悟構造函數。對上面程式改造構造函數,添加高級參數設置。

改造後的程式執行結果如下:

程式執行後結果如下:

如果查看某列數據,直接通過print()函數中加入變數名和列名就可以。

執行後結果:

案例2:Series(系列),其實就是一個一維數組,屬於同類型的進行多次觀測後記錄的結果值。它服從某種分布,默認情況下系列的索引是自增的非負整數列。

程式執行後結果如下:

如果我們對上面的系列作向量化操作運算,如開平方根

程式執行後結果如下:

以上是對pandas模組詳細的講解,下面根據案例對外部數據文件處理:

需要安裝xrld處理excel文件

案例3:讀取E:/test/sale.xcel文件

程式如下:

程式執行後結果通過print()函數查看結果輸出到窗口:

案例4:重命名上面的數據文件中的列變數名time改為sale_time

程式執行後查看結果列:

希望大家多看幫助,改造案例去學習,親自動手運行案例,這樣才能有更深刻的體會編程的樂趣,通過實際業務應用,用程式解決業務痛點。