Python數據分析教程(二):Pandas
Pandas導入
- Pandas是Python第三方庫,提供高性能易用數據類型和分析工具
- Pandas基於NumPy實現,常與NumPy和Matplotlib一同使用
- 兩個數據類型:Series, DataFrame
import pandas as pd
Pandas與numpy的比較
Pandas的Series類型
由一組數據及與之相關的數據索引組成
Pandas的Series類型的創建
Series類型可以由如下類型創建:
- Python列表,index與列表元素個數一致
- 標量值,index表達Series類型的尺寸
- Python字典,鍵值對中的「鍵」是索引,index從字典中進行選擇操作
- ndarray,索引和數據都可以通過ndarray類型創建
- 其他函數,range()函數等
Pandas的Series類型的基本操作
Series類型包含index和values兩個部分:
- index 獲得索引
- values 獲得數據
由ndarray或字典創建的Series,操作類似ndarray或字典類型
pandas的DataFrame類型
-
DataFrame類型由共用相同索引的一組列組成
-
DataFrame是一個表格型的數據類型,每列值類型可以不同
-
DataFrame既有行索引、也有列索引
-
DataFrame常用於表達二維數據,但可以表達多維數據
-
DataFrame是二維帶「標籤」數組
-
DataFrame基本操作類似Series,依據行列索引
pandas的DataFrame類型創建
DataFrame類型可以由如下類型創建:
- 二維ndarray對象
- 由一維ndarray、列表、字典、元組或Series構成的字典
- Series類型
- 其他的DataFrame類型
Pandas的Dataframe類型的基本操作
pandas索引操作
pandas重新索引
reindex()能夠改變或重排Series和DataFrame索引
reindex(index=None, columns=None, …)的參數
pandas刪除索引
drop()能夠刪除Series和DataFrame指定行或列索引
pandas數據運算
- 算術運算根據行列索引,補齊後運算,運算默認產生浮點數
- 補齊時缺項填充NaN (空值)
- 二維和一維、一維和零維間為廣播運算
- 採用+ ‐ * /符號進行的二元運算產生新的對象
算術運算
- 不同維度間為廣播運算,一維Series默認在軸1參與運算
- 使用運算方法可以令一維Series參與軸0運算
Pandas數據分析
pandas導入與導出數據
導入數據
pd.read_csv(filename):從CSV文件導入數據
pd.read_table(filename):從限定分隔符的文本文件導入數據
pd.read_excel(filename):從Excel文件導入數據
pd.read_sql(query, connection_object):從SQL表/庫導入數據
pd.read_json(json_string):從JSON格式的字元串導入數據
pd.read_html(url):解析URL、字元串或者HTML文件,抽取其中的tables表格
pd.read_clipboard():從你的粘貼板獲取內容,並傳給read_table()
pd.DataFrame(dict):從字典對象導入數據,Key是列名,Value是數據
導出數據
df.to_csv(filename):導出數據到CSV文件
df.to_excel(filename):導出數據到Excel文件
df.to_sql(table_name, connection_object):導出數據到SQL表
df.to_json(filename):以Json格式導出數據到文本文件
Pandas查看、檢查數據
df.head(n):查看DataFrame對象的前n行
df.tail(n):查看DataFrame對象的最後n行
df.shape():查看行數和列數
//df.info():查看索引、數據類型和記憶體資訊
df.describe():查看數值型列的匯總統計
s.value_counts(dropna=False):查看Series對象的唯一值和計數
df.apply(pd.Series.value_counts):查看DataFrame對象中每一列的唯一值和計數
Pandas數據選取
df[col]:根據列名,並以Series的形式返回列
df[[col1, col2]]:以DataFrame形式返回多列
s.iloc[0]:按位置選取數據
s.loc[‘index_one’]:按索引選取數據
df.iloc[0,:]:返回第一行
df.iloc[0,0]:返回第一列的第一個元素
pandas數據清理
df.columns = [‘a’,’b’,’c’]:重命名列名
pd.isnull():檢查DataFrame對象中的空值,並返回一個Boolean數組
pd.notnull():檢查DataFrame對象中的非空值,並返回一個Boolean數組
df.dropna():刪除所有包含空值的行
df.dropna(axis=1):刪除所有包含空值的列
df.dropna(axis=1,thresh=n):刪除所有小於n個非空值的行
df.fillna(x):用x替換DataFrame對象中所有的空值
s.astype(float):將Series中的數據類型更改為float類型
s.replace(1,’one’):用『one』代替所有等於1的值
s.replace([1,3],[‘one’,’three’]):用’one’代替1,用’three’代替3
df.rename(columns=lambda x: x + 1):批量更改列名
df.rename(columns={‘old_name’: ‘new_ name’}):選擇性更改列名
df.set_index(‘column_one’):更改索引列
df.rename(index=lambda x: x + 1):批量重命名索引
Pandas數據處理
df.columns = [‘a’,’b’,’c’]:重命名列名
pd.isnull():檢查DataFrame對象中的空值,並返回一個Boolean數組
pd.notnull():檢查DataFrame對象中的非空值,並返回一個Boolean數組
df.dropna():刪除所有包含空值的行
df.dropna(axis=1):刪除所有包含空值的列
df.dropna(axis=1,thresh=n):刪除所有小於n個非空值的行
df.fillna(x):用x替換DataFrame對象中所有的空值
s.astype(float):將Series中的數據類型更改為float類型
s.replace(1,’one’):用『one』代替所有等於1的值
s.replace([1,3],[‘one’,’three’]):用’one’代替1,用’three’代替3
df.rename(columns=lambda x: x + 1):批量更改列名
df.rename(columns={‘old_name’: ‘new_ name’}):選擇性更改列名
df.set_index(‘column_one’):更改索引列
df.rename(index=lambda x: x + 1):批量重命名索引
df[df[col] > 0.5]:選擇col列的值大於0.5的行
df.sort_values(col1):按照列col1排序數據,默認升序排列
df.sort_values(col2, ascending=False):按照列col1降序排列數據
df.sort_values([col1,col2], ascending=[True,False]):先按列col1升序排列,後按col2降序排列數據
df.groupby(col):返回一個按列col進行分組的Groupby對象
df.groupby([col1,col2]):返回一個按多列進行分組的Groupby對象
df.groupby(col1)[col2]:返回按列col1進行分組後,列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):創建一個按列col1進行分組,並計算col2和col3的最大值的數據透視表
df.groupby(col1).agg(np.mean):返回按列col1分組的所有列的均值
data.apply(np.mean):對DataFrame中的每一列應用函數np.mean
data.apply(np.max,axis=1):對DataFrame中的每一行應用函數np.max
Pandas數據合併
df1.append(df2):將df2中的行添加到df1的尾部
df.concat([df1, df2],axis=1):將df2中的列添加到df1的尾部
df1.join(df2,on=col1,how=’inner’):對df1的列和df2的列執行SQL形式的join
Pandas數據統計
df.describe():查看數據值列的匯總統計
df.mean():返回所有列的均值
df.corr():返回列與列之間的相關係數
df.count():返回每一列中的非空值的個數
df.max():返回每一列的最大值
df.min():返回每一列的最小值
df.median():返回每一列的中位數
df.std():返回每一列的標準差
原創作者:孤飛-部落格園
原文鏈接://blog.onefly.top/posts/13141.html