科學計算庫Numpy基礎&提升(理解+重要函數講解)

Intro

對於同樣的數值計算任務,使用numpy比直接編寫python代碼實現 優點:

  • 代碼更簡潔: numpy直接以數組、矩陣為粒度計算並且支持大量的數學函數,而python需要用for循環從底層實現;
  • 性能更高效: numpy的數組存儲效率和輸入輸出計算性能,比python使用list好很多,用numpy進行計算要比原生Python快得多,而且數據量越大,效果越明顯;numpy的大部分代碼都是c語言實現的,這是numpy比python高效的原因

numpy核心:ndarray對象

ndarray對象

  • numpy的核心數據結構,叫做array就是數組,array對象可以是一維數組,也可以是多維數組
  • python的list也可以實現相同的功能,但是array的優勢在於性能好,包含數組元數據信息、大量的便捷函數
  • 成為 Scipy、Pandas、scilit-learn、tensorflow、paddlepaddle等框架的通用底層語言
  • numpy的array和python的list的一個區別是它的元素必須都是同一種數據類型,這也是numpy高性能的一個原因

ndarray屬性

個人以前會弄混shape和size,注意shape打印的是數組的形狀是一個元組,size則是表示數組大小即總共有多少個元素

  • shape 返回一個元組 表示array的形狀
  • ndim 返回一個數字 表示array的維度的數目
  • size 返回一個數字 表示array中所有數據元素的數目
  • dtype array中元素的數據類型,a.astype(str) 可以把a數組元素轉為str類型
  • itemsize 表示數組中每個元素的位元組大小

創建array的方法

  • 從Python的列表list和嵌套列表創建array,np.array([...])
  • 使用函數arange、linspace等創建等差數組,np.arange(start,stop,step,dtype) 左閉右開,np.linspace(start,stop,num,endpoint) 默認左右取閉,num是要刪除的等間隔樣例數量(默認50),endpoint 序列中是否包含stop值, 默認為true
  • 使用ones、ones_like、zeros、zeros_like、empty、empty_like、full、full_like、eye等函數創建,注意使用empty創建的數據是未初始化的,裏面的值可能是隨機值不要用,full則是將一個給定大小的數組填滿固定值,用法如np.full((2, 4), 666)
  • 生成隨機數的np.random模塊創建,np.random.seed(2022) 設置隨機種子,使得每次隨機的結果固定,np.random.rand(2,5) 隨機生成 2行5列的2維數組,返回數據在[0,1)之間;np.random.randint(2,5,5) 在[2,5) 範圍內生成5個隨機整數;np.random.uniform(2,5,10) 在 [2,5) 之間 生成均勻分佈的10個數字;np.random.uniform(2,5,(2,5)) 在 [2,5) 之間 生成均勻分佈的(2,5)個數字; np.random.randn((2,5)) 則返回有標準正態分佈的數據,均值1方差0;np.random.normal(1,10,(2,5)) 則可指定均值和標準差;另外,choice 從給定的數組裡 生成隨機結果,shuffle 把一個數組進行隨機排列(如果數組是多維的 則只會在第一維度打散數據),permutation 把一個數組進行隨機排列 ,或者數字的全排列,兩者功能相同但permutation不會更改原來的arr 會返回一個新的copy

numpy的數組索引

三種索引方法:

  • 基礎索引,切片法,不詳細敘述
  • 神奇索引,就是用整數數組進行的索引,比如對於x = np.arange(10),可以用x[np.array([[0,2],[1,3]])]來取x對應位置的值;對於二維數組,Y[:,[0, 2]] 篩選第0和第2列,Y[[0,2,3],[1,2,3]]同時指定行列
  • 布爾索引,對於x = np.arange(10),可以用x>5返回bool值的數組,x[x>5] = 1通過條件進行賦值,把x中大於5的值全部賦為1,x[x<5] += 20,小於5的值全部加20,還可以進行條件組合,比如x[(x%2==0)| (x>7)]x[(x%2==0)& (x>7)];注意對於二維數組Y = np.arange(20).reshape(4, 5) 來說,既有行又有列 因此返回的是 行列一維數組Y[Y>5] 返回的是行列一維數組,可以用Y[:, 3][Y[:, 3]>5] 把第3列大於5的行數據篩選出來

numpy數據操作

數組數學操作

A*B是對應位置元素相乘,對於arr = np.arange(12).reshape(3,4),可以用各種數學統計函數,包括sum,prod(元素乘積),cumsum(np.cumsum(arr)從頭到尾累加,每加一次輸出一個元素),cumprod(累積),min,max,median,mean,np.percentile(arr,[25,50,75])np.quantile(arr,[0.25,0.5,0.75])求取數列第?分位的數值(後者範圍為0-1),std(標準差)

,var(方差),np.average(arr, weights=np.random.rand(*arr.shape)) 加權平均,argmax 尋找最大值的下標

  • 對於numpy的聚合類函數的axis參數解釋:axis=0代表行 axis=1 代表列,axis=0 代表把行消解掉,axis=1 代表把列消解掉;axis=0 代表跨行計算, axis=1 代表跨列計算

數組合併操作

對於a = np.arange(9).reshape(3,3)以及b = np.arange(9,18).reshape(3,3),合併行(行變多)使用np.concatenate([a,b])np.vstack([a,b])np.row_stack([a,b]) ,合併列(列變多)使用np.concatenate([a,b],axis=1)np.hstack([a,b])np.column_stack([a,b])

參考

[1-5 Numpy教程 — 梗直哥隨筆 v0.1 文檔 (gengzhige-essay.readthedocs.io)](//gengzhige-essay.readthedocs.io/docs/01 環境配置/1-5 Numpy教程.html)

科學計算庫Numpy – mathor (wmathor.com)