pandas | 使用pandas進行數據處理——DataFrame篇

本文始發於個人公眾號：TechFlow，原創不易，求個關注

今天是pandas數據處理專題的第二篇文章，我們一起來聊聊pandas當中最重要的數據結構——DataFrame。

上一篇文章當中我們介紹了Series的用法，也提到了Series相當於一個一維的數組，只是pandas為我們封裝了許多方便好用的api。而DataFrame可以簡單了理解成Series構成的dict，這樣就將數據拼接成了二維的表格。並且為我們提供了許多表級別數據處理以及批量數據處理的介面，大大降低了數據處理的難度。

創建DataFrame

DataFrame是一個表格型的數據結構，它擁有兩個索引，分別是行索引以及列索引，使得我們可以很方便地獲取對應的行以及列。這就大大降低了我們查找數據處理數據的難度。

首先，我們先從最簡單的開始，如何創建一個DataFrame。

從字典創建

我們創建了一個dict，它的key是列名，value是一個list，當我們將這個dict傳入DataFrame的構造函數的時候，它將會以key作為列名，value作為對應的值為我們創建一個DataFrame。

當我們在jupyter輸出的時候，它會自動為我們將DataFrame中的內容以表格的形式展現。

從numpy數據創建

我們也可以從一個numpy的二維數組來創建一個DataFrame，如果我們只是傳入numpy的數組而不指定列名的話，那麼pandas將會以數字作為索引為我們創建列：

我們在創建的時候為columns這個欄位傳入一個string的list即可為它指定列名：

從文件讀取

pandas另外一個非常強大的功能就是可以從各種格式的文件當中讀取數據創建DataFrame，比如像是常用的excel、csv，甚至是資料庫也可以。

對於excel、csv、json等這種結構化的數據，pandas提供了專門的api，我們找到對應的api進行使用即可：

如果是一些比較特殊格式的，也沒有關係，我們使用read_table，它可以從各種文本文件中讀取數據，通過傳入分隔符等參數完成創建。比如在上一篇驗證PCA降維效果的文章當中，我們從.data格式的文件當中讀取了數據。該文件當中列和列之間的分隔符是空格，而不是csv的逗號或者是table符。我們通過傳入sep這個參數，指定分隔符就完成了數據的讀取。

這個header參數表示文件的哪些行作為數據的列名，默認header=0，也即會將第一行作為列名。如果數據當中不存在列名，需要指定header=None，否則會產生問題。我們很少會出現需要用到多級列名的情況，所以一般情況下最常用的就是取默認值或者是令它等於None。

在所有這些創建DataFrame的方法當中最常用的就是最後一種，從文件讀取。因為我們做機器學習或者是參加kaggle當中的一些比賽的時候，往往數據都是現成的，以文件的形式給我們使用，需要我們自己創建數據的情況很少。如果是在實際的工作場景，雖然數據不會存在文件當中，但是也會有一個源頭，一般是會存儲在一些大數據平台當中，模型從這些平台當中獲取訓練數據。

所以總體來說，我們很少使用其他創建DataFrame的方法，我們有所了解，著重掌握從文件讀取的方法即可。