數據處理是萬事之基——python對各類數據處理案例分享（獻給初學者） - ⎝⎛CodingNote.cc ⎞⎠

數據處理是萬事之基——python對各類數據處理案例分享（獻給初學者）

2019 年 12 月 19 日
筆記

作者｜Nature

出品｜AI機器思維

練上一萬個小時每個人都會成為專家——重複是學習之母！

Pandas是python中一個強大的數據分析和處理模組工具，通過此模組能快速、靈活的處理數據，為複雜的數據分析提供基礎分析功能。對資料庫或Excel表，如包含了多列不同數據類型的數據（如數字、時間、文本）以及矩陣型或二維表等這些原始數據都需要首先處理才能應用分析。

一個好的數據科學家同時也是一個好的數據處理科學家，有效的數據是萬事之基，業務數據分析中數據需要經歷如下幾個階段的工序如：清洗原始數據、轉換與特殊處理數據、分析和建模、組織分析的結果並以圖表的形式展示出來，根據數據分析寫數據分析報告等。

Pandas模組處理兩個重要的數據結構是：DataFrame(數據框)和Series(系列），DataFrame（數據框）就是一個二維表，每列代表一個變數，每行為一次觀測，行列交叉的單元格就是對應的值，數據框有行和列的索引，能幫助我們快速地按索引訪問數據框的某幾行或某幾列，可以對行或列操作。可以通過NumPy數組創建數據框。

首先安裝pandas包：

案例1：創建一個數據框

說明：v_data變數賦值的是後面的數據，通過df=pd.DataFrame(v_data)構造函數生成數據框並賦值給df，構造函數里有很多參數可以應用，改變列的排列顯示順序等，這些高級參數設置可以根據案例去嘗試，做到舉一反三的學習，更好的領悟構造函數。對上面程式改造構造函數，添加高級參數設置。

改造後的程式執行結果如下：

程式執行後結果如下：

如果查看某列數據，直接通過print()函數中加入變數名和列名就可以。

執行後結果：

案例2：Series(系列），其實就是一個一維數組，屬於同類型的進行多次觀測後記錄的結果值。它服從某種分布，默認情況下系列的索引是自增的非負整數列。

程式執行後結果如下：

如果我們對上面的系列作向量化操作運算，如開平方根

程式執行後結果如下：

以上是對pandas模組詳細的講解，下面根據案例對外部數據文件處理：

需要安裝xrld處理excel文件

案例3：讀取E：/test/sale.xcel文件

程式如下：

程式執行後結果通過print（）函數查看結果輸出到窗口：

案例4：重命名上面的數據文件中的列變數名time改為sale_time

程式執行後查看結果列：

希望大家多看幫助，改造案例去學習，親自動手運行案例，這樣才能有更深刻的體會編程的樂趣，通過實際業務應用，用程式解決業務痛點。

Previous post

讓機器學習人類分類—Scikit-learn（獻給初學者的機器學習案例）

Next post

Python資料庫測試實戰指南