第一部分 矩陣理論基礎知識
1 基本信息
1.1 矩陣理論基本概念
矩陣理論是一門研究矩陣在數學上的應用的科目。矩陣理論本來是線性代數的一個小分支,但其後由於陸續在圖論、代數、組合數學和統計上得到應用,漸漸發展為一門獨立的學科。在矩陣理論的應用過程中,主要涉及到的有各種計算及其方法,其中常用的計算主要有:特徵值與特徵向量的計算、矩陣的最小多項式的計算、矩陣的Schmidt正交化、向量範數與矩陣範數的計算、矩陣譜半徑的計算、矩陣函數的計算、矩陣的微分與積分、矩陣分解以及廣義逆矩陣的計算。使用的計算方法主要來自線性代數的基礎知識及其推廣。
1.2 本專題主要思路
這一小節將說明本專題的敘述思路,首先我們需要明確區分兩個概念:函數矩陣和矩陣函數。函數矩陣指的是一個矩陣,其中的每個元素都是一個已經定義的函數,常用在線性系統的分析過程中;而矩陣函數則是指一個函數,其自變量與因變量都是一個確定大小的矩陣,實際上是一種映射法則,實現的結果是一種廣義上的線性變換。
與高等數學引入函數概念的過程類似,此處引入矩陣函數之前,我們首先介紹矩陣序列和矩陣級數的概念,由此得到極限與收斂在矩陣領域對應的概念,之後可以自然地引入矩陣函數的定義和概念。在本專題中,矩陣函數的求法從根本上來說是基於矩陣函數的冪級數展開,具體的方法主要有以下四種:待定係數法、數項級數求和法、對角型法以及Jordan標準型法。
在本專題中除矩陣函數外,另一個涉及到的重要概念就是矩陣分解。矩陣分解的一個重要的作用就是減小計算量,通過將複雜矩陣進行分解、進而得到某些確定結構下的矩陣,這種操作使得複雜矩陣以數個較為簡單矩陣的乘積形式來呈現,從而在後續的計算中大大減少計算量,這是非常有意義的。矩陣分解從根本上來說是基於一些基本操作與已知結論,具體的分解方法主要有以下四種:矩陣的LU分解、矩陣的QR分解、矩陣的滿秩分解、以及矩陣的奇異值分解,其中矩陣的奇異值分解還可以用來求解矩陣的廣義逆矩陣,這在實際應用中是非常有意義的。
本專題主要基於《矩陣論》(張凱院、徐仲,西北工業大學出版社2017版),並結合北京郵電大學計算機學院(國家示範性軟件學院)的課程《矩陣理論與方法》的課程PPT(2021年秋季)進行敘述。本專題將從矩陣理論的基本概念與方法出發,簡要介紹基本概念與方法之後,引入矩陣函數的概念,並對矩陣函數的常見求法進行研究和總結,並在每種求法的理論推導之後給出一個具體的例子加以說明。之後本專題將總結矩陣分解的常見方法,並在每種方法的理論推導之後給出一個具體的例子加以說明。最後總結本專題的全部內容。
2 歐式空間與線性變換
2.1 歐式空間與線性變換介紹
歐氏空間(Euclidean space)是一類特殊的向量空間,一般來說就是我們所熟悉的三維空間,對其中的向量可以討論長度、夾角等幾何性質,並且這裡的長度、夾角等是我們熟知的、具有直觀印象的概念。但實際上歐氏空間可以拓展到更一般的情況,也就是線性空間。這裡對歐式空間的一般化實際上是將三維空間的維度進行了增加,從而得到更高維度的空間,雖然從幾何上難以直觀理解這種高維空間的形態,但這種空間在代數上具有很好的一般意義,對於許多問題給出了嚴格的理論表述。線性空間的具體概念如下:對於給定的數域\(K\)和一個非空集合\(V\),用\(x\),\(y\),\(z\)表示\(V\)中的元素、用\(l\),\(m\),\(n\)表示\(K\)的元素,並定義此時的加法運算和數乘運算,如果以下性質滿足:
&\text{結合律}~x+(y+z)=(x+y)+z\\
&\text{交換律}~x+y=y+x\\
&\text{存在零元素}0,\text{使}~x+0=x\\
&\text{存在負元素,即對任意向量}~x\in V,\text{存在向量}~y\in V,\text{使}~x+y=0,\text{稱}~y~\text{為}~x~\text{的負元素},\text{記為}-x\\
&\text{數因子分配律}~k(x+y)=kx+ky\\
&\text{分配律}~(k+l)x=kx+lx\\
&\text{結合律}~k(lx)=(kl)x\\
&1x=x
\end{align*}
\]
則稱\(V\)為數域\(K\)上的線性空間。
線性空間的意義在於給出了一個關於向量以及其他諸多數學概念的抽象的代數系統,使得許多問題均可以在線性空間的討論下進行求解,這種一般性的方法作為一種處理問題的手段在數學的許多領域有着重要的應用,比如,為了更好、更嚴格地討論相應問題,數學家發展出了多項式空間和矩陣空間。視非空集合\(V\)中的元素為向量,則與線性代數的概念類似,此時也可以引出線性組合、線性相關與線性無關、基與維數、坐標、子空間與子空間的交與和、同構、商空間、線性變換等概念,對於這些概念的詳細數學討論不是本專題的主要目的,故此處略去,詳細信息可以參考《矩陣論》一書。下面討論線性變換的概念。
線性空間中的任意元素都可以看作是基底的線性組合。對於給定的映射法則\(T\),如果\(T\)滿足:
\]
則稱\(T\)為\(V\)的一個線性變換或線性算子。這個式子的實質是映射法則\(T\)對向量的線性運算是封閉的,也就是如果該式子對所有的基底成立,那麼就容易證明對任意向量都是成立的。又,容易證明:線性相關的向量組經線性變換後仍為線性相關。
線性變換也具有可運算性。線性變換的兩個最基本的變換是單位變換和恆等變換,單位變換\(T_e\)滿足\(T_ex=x\),恆等變換\(T_0\)滿足\(T_0x=0\),接下來定義線性變換的運算如下:
\text{加法}&\quad (T_1+T_2)x=T_1x+T_2x\\
\text{數乘}&\quad (kT)x=k(Tx)\\
\text{乘法}&\quad (T_1T_2)x=T_1(T_2x)\\
\text{逆變換}&\quad (ST)x=(TS)x=x\\
\text{多項式}&\quad f(T)=a_0T^m+a_1T^{m-1}+\cdots+a_{m-1}T+a_mT_e\\
&\quad\quad(\text{其中}T^{m+n}=T^mT^n,(T^m)^n=T^{mn})
\end{align*}
\]
通過坐標,可以將線性變換用矩陣表示出來,從而可將抽象的線性變換轉化為具體的矩陣來處理。由於線性空間中的任意元素都可以視為基向量的線性組合,因此只要能夠確定基向量在線性變換下的象,就能夠確定線性空間中任意元素在線性變換下的象。對於基向量\(x_1,x_2,\dots,x_n\),線性變換\(T\)有:
\begin{cases}
Tx_1=a_{11}x_1+a_{21}x_2+\cdots+a_{n1}x_n\\
Tx_2=a_{12}x_1+a_{22}x_2+\cdots+a_{n2}x_n\\
\quad\cdots\\
Tx_n=a_{1n}x_1+a_{2n}x_2+\cdots+a_{nn}x_n
\end{cases}
\right.
\]
採用矩陣乘法形式,可將上述方程組表示為:
\]
其中
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n}\\
a_{21} & a_{22} & \cdots & a_{2n}\\
\vdots & \vdots & & \vdots\\
a_{n1} & a_{n2} & \cdots & a_{nn}\\
\end{bmatrix}
\]
這時就將矩陣\(A\)稱為線性變換\(T\)在\(V^n\)的基\((x_1,x_2,\dots,x_n)\)下的矩陣,簡稱\(A\)為\(T\)的矩陣。一些常見的線性變換的矩陣在形式上是簡單的,如零變換\(T_0\)的矩陣是零矩陣\(O\)、單位變換的矩陣是單位矩陣\(I\)、數乘變換的矩陣是數量矩陣\(mI\)等。
2.2 Jordan標準型的求解
將一個矩陣轉化為其Jordan標準型,意義在於選擇適當的線性空間的基或坐標系,從而優化矩陣的結構、使得後續的計算過程變得簡單,Jordan標準型的求解和之後的矩陣函數與矩陣分解兩個內容有很強的關聯性。在線性代數課程中已經學過特徵值與特徵向量的概念和求解方法,下面將以此為基礎討論線性變換對應矩陣的Jordan標準型的求解。
首先在理論上可以證明,線性變換對應的矩陣的特徵多項式與基的選擇無關,它直接被線性變換所決定,這保證了線性變換矩陣特徵多項式的唯一性。先定義最小多項式:首項係數是\(1\),次數最小,且以矩陣\(A\)為根的\(\lambda\)的多項式稱為\(A\)的最小多項式。藉助Hamilton-Cayley定理可以得到如下結論:\(A\)的最小多項式是其特徵多項式的因式,也就是:矩陣\(A\)的最小多項式\(m(\lambda)\)可整除以\(A\)為根的任意首\(1\)多項式\(\psi(\lambda)\),且\(m(\lambda)\)在形式上是唯一的。
Jordan標準型從結構上來說是一個準對角矩陣:
\begin{bmatrix}
J_1(\lambda_1) & &\\
& J_2(\lambda_2) &\\
& & \ddots &\\
& & & J_s(\lambda_s)\\
\end{bmatrix}
\]
其中
\begin{bmatrix}
\lambda_i & 1 & & &\\
& \lambda_i & 1 & &\\
& & \lambda_i & \ddots &\\
& & & \ddots &1\\
& & & & \lambda_i\\
\end{bmatrix}
\qquad(i=1,2,\dots,s)
\]
稱為一個Jordan塊。
為計算矩陣的Jordan標準型,需要先用初等變換將矩陣化為標準形,其中初等變換指的是要把矩陣的某一行(列)的乘以數域\(K\)上的\(\lambda\)多項式的結果加到另一行(列)對應元素上去,標準形是指一個對角矩陣(對角線上的元素是首\(1\)多項式且前面的元素可以整除後面的元素)。可以證明標準形對角線上的非零元素\(d_i(\lambda)\)不隨矩陣的初等變換而改變,因此稱\(d_i(\lambda)\)為矩陣的不變因子或不變因式。若將每個次數大於零的不變因子\(d_i(\lambda)\)分解為不可約因式的乘積,那麼這樣的不可約因式(連同它們的冪指數)稱為矩陣的一個初等因子,初等因子的全體稱為初等因子組。下面給出求解Jordan標準型的具體步驟:
\text{第一步}&\quad\text{求特徵矩陣}\lambda I-A\text{的初等因子組}\\
\text{第二步}&\quad\text{寫出每個初等因子}(\lambda-\lambda_i)^{m_i}\text{對應的Jordan塊:}\\
&\quad J_i(\lambda_i)=
\begin{bmatrix}
\lambda_i & 1 & & &\\
& \lambda_i & 1 & &\\
& & \lambda_i & \ddots &\\
& & & \ddots &1\\
& & & & \lambda_i\\
\end{bmatrix}_{m_i\times m_i}\\
\text{第三步}&\quad\text{寫出所有Jordan塊構成的Jordan標準型:}\\
&\quad J=
\begin{bmatrix}
J_1(\lambda_1) & &\\
& J_2(\lambda_2) &\\
& & \ddots &\\
& & & J_s(\lambda_s)\\
\end{bmatrix}
\end{align*}
\]
2.3 歐式空間中線性變換的求法
在實際應用中,常見的問題涉及到線性變換的一些性質,下面以《矩陣論》書例1.36為例說明常見問題的處理方法。
例1.36 在歐氏空間\(R^{2\times2}\)中,矩陣\(A\)與\(B\)的內積定義為\((A,B)=\text{tr}(A^TB)\),子空間
\[V=\{X=
\begin{bmatrix}
x_1 & x_2\\
x_3 & x_4
\end{bmatrix}|x_3-x_4=0\}
\]\(V\)中的線性變換為
\[T(X)=XB_0\quad(\forall X\in V),\quad B_0=
\begin{bmatrix}
1 & 2\\
2 & 1
\end{bmatrix}
\](1)求非空集合\(V\)的一組標準正交基
(2)驗證\(T\)是\(V\)中的對稱變換
(3)求\(V\)的一個標準正交基,使\(T\)在該基下的矩陣為對角矩陣
(1)要求非空集合\(V\)的一組標準正交基,思路是先求一組基,再進行正交化(如有需要再進行單位化)。對於本題:
\begin{bmatrix}
x_1 & x_2\\
x_3 & x_4
\end{bmatrix}
=x_1
\begin{bmatrix}
1 & 0\\
0 & 0
\end{bmatrix}
+x_2
\begin{bmatrix}
0 & 1\\
0 & 0
\end{bmatrix}+
x_3
\begin{bmatrix}
0 & 0\\
1 & 1
\end{bmatrix}
\]
所以\(V\)的一個(單位)標準正交基為(正交性容易驗證):
1 & 0\\
0 & 0
\end{bmatrix}\quad
X_2=\begin{bmatrix}
0 & 1\\
0 & 0
\end{bmatrix}\quad
X_3=\frac{1}{\sqrt2}
\begin{bmatrix}
0 & 0\\
1 & 1
\end{bmatrix}
\]
(2)對稱變換的判定方法是看相應的矩陣是否是對稱矩陣,本題(1)問中已經求得了一組標準正交基,現在的問題就是如何用這組標準正交基求出線性變換對應的矩陣。通過計算基向組就可以得到這個矩陣,也就是通過等式\(T(X_1,X_2,X_3)=(X_1,X_2,X_3)A\)計算得到線性變換對應的矩陣\(A\)為:
\begin{bmatrix}
1 & 2 & 0\\
2 & 1 & 0\\
0 & 0 & 3
\end{bmatrix}
\]
這樣就可以證明,這個線性變換確實是對稱變換。
(3)要求\(V\)的一個標準正交基,使\(T\)在該基下的矩陣為對角矩陣。題目的要求實際上就是求一組新的標準正交基\((Y_1,Y_2,Y_3)\)使得等式\(T(Y_1,Y_2,Y_3)=(Y_1,Y_2,Y_3)\Lambda\)成立,其中\(\Lambda\)為對角矩陣。根據線性代數的知識可以知道,線性變換對應的矩陣\(A\)可以通過左乘和右乘某矩陣從而化為僅由特徵值構成的對角矩陣,因此容易得到
\begin{bmatrix}
3 & &\\
& 3 &\\
& & -1
\end{bmatrix}\qquad
Q=
\begin{bmatrix}
0 & \frac1{\sqrt2} & -\frac1{\sqrt2}\\
0 & \frac1{\sqrt2} & -\frac1{\sqrt2}\\
1 & 0 & 0
\end{bmatrix}
\]
下面的問題就在於求出新的標準正交基\((Y_1,Y_2,Y_3)\),下面先進行線性變換的推導,然後得到答案:
T(X_1,X_2,X_3)&=(X_1,X_2,X_3)A\\
T(X_1,X_2,X_3)&=(X_1,X_2,X_3)Q\Lambda Q^{-1}\\
T(X_1,X_2,X_3)Q&=(X_1,X_2,X_3)Q\Lambda\\
T(Y_1,Y_2,Y_3)&=(Y_1,Y_2,Y_3)\Lambda
\end{align*}
\]
其中
\]
由此便可以求得符合題意的新的標準正交基\((Y_1,Y_2,Y_3)\):
\begin{bmatrix}
0 & 0\\
1 & 1
\end{bmatrix}\quad
Y_2=\frac{1}{\sqrt2}
\begin{bmatrix}
1 & 1\\
0 & 0
\end{bmatrix}\quad
Y_3=\frac{1}{\sqrt2}
\begin{bmatrix}
-1 & 1\\
0 & 0
\end{bmatrix}
\]
3 向量範數與矩陣範數
3.1 向量範數介紹
在向量空間中,長度的度量是向量的模,對於一般的線性空間,起到長度度量的概念是範數概念,範數是比長度更為一般的概念。對於數域\(K\)上的線性空間\(V\),對任意的\(x\in V\),定義一個實值函數\(||x||\),如果該實值函數滿足
\text{非負性}&\quad\text{當}x\neq0\text{時},||x||>0;\text{當}x=0時,||x||=0\\
\text{齊次性}&\quad||ax||=|a|~||x||~(a\in K,x\in V)\\
\text{三角不等式}&\quad||x+y||\leq||x||+||y||~(x,y\in V)
\end{align*}
\]
則稱\(||x||\)為\(V\)上的向量\(x\)的範數,簡稱向量範數。下面給出一些常見的向量範數:
2-\text{範數}&\quad ||x||_2=\sqrt{|\xi_2|^2+|\xi_2|^2+\cdots+|\xi_n|^2}\\
\infty-\text{範數}&\quad ||x||_{\infty}=\max_{i}|\xi_i|\\
1-\text{範數}&\quad ||x||_1=\sum^n_{i=1}|\xi_i|\\
p-\text{範數}&\quad ||x||_p=(\sum^n_{i=1}|\xi_i|^p)^{1/p}\\
\text{橢圓範數}&\quad ||x||_A=(x^TAx)^{1/2}
\end{align*}
\]
需要指出的是,向量範數通常和向量空間中基的選取有關,但是有定理保證線性空間上向量範數的等價性,也就是說,如果存在有限維線性空間\(V\)上的任意兩種向量範數\(||x||_\alpha\)和\(||x||_\beta\),且滿足:
\]
那麼就稱這兩種向量範數是等價的。
3.2 矩陣範數介紹
在以矩陣為元素的線性空間中,起到長度度量作用的概念是範數概念,也就是矩陣範數。和向量範數類似,設\(A\in C^{n\times n}\),定義一個實值函數\(||A||\),對於下面的四條性質
\text{非負性}&\quad\text{當}A\neq0\text{時},||A||>0;\text{當}A=0\text{時},||A||=0\\
\text{齊次性}&\quad||\alpha A||=|\alpha|~||A||~(\alpha\in C)\\
\text{三角不等式}&\quad||A+B||\leq||A||+||B||~(B\in C^{n\times n})\\
\text{相容性}&\quad||AB||\leq||A||~||B||
\end{align*}
\]
如果該實值函數滿足前三條性質,則稱\(||A||\)為\(A\)的廣義矩陣範數;如果該實值函數滿足全部的四條性質,則稱\(||A||\)為\(A\)的矩陣範數。下面給出一些常見的矩陣範數:
\text{列和範數}&\quad ||A||_1=\max_{j}|a_{ij}|\\
\text{譜範數}&\quad ||A||_2=\sqrt{\lambda_1},\quad\lambda_1\text{為}A^HA\text{的最大特徵值}\\
\text{行和範數}&\quad ||A||_{\infty}=\max_{i}|a_{ij}|
\end{align*}
\]
實際上,矩陣範數和向量範數是緊密相關的,有什麼樣的向量範數就有什麼樣的矩陣範數,由向量範數導出的矩陣範數簡稱為從屬範數,上述三種常見矩陣範數就是對應的向量範數的從屬範數。
3.3 矩陣可逆性條件、譜半徑和條件數介紹
在有了矩陣範數的概念之後,下面介紹範數的某些應用場合和一些新的概念。
在判斷矩陣的可逆性時,可以根據範數\(||A||\)的大小來判斷矩陣\(I-A\)是否為可逆矩陣。對於\(A\in C^{n\times n}\)以及相應的某種矩陣範數\(||\cdot||\),如果有\(||A||<1\),那麼矩陣\(I-A\)可逆,且有
\]
這條定理給出了矩陣可逆性的判斷方法。
譜半徑在諸多理論中都有着重要的應用,稱\(\rho(A)=\max_{i}|\lambda_i|\)為矩陣\(A\)的譜半徑,其中\(\lambda_i\)為矩陣\(A\)的特徵值。就方陣而言,矩陣範數就是矩陣譜半徑的上界,對於任意給定的矩陣都可以構造出一種矩陣範數使得該範數與譜半徑充分接近,這在科學計算中應用廣泛。
條件數是求矩陣逆的攝動的一個重要量。設\(\text{cond}(A)=||A||~||A^{-1}||\),則當\(||A^{-1}~||\delta A||<1\)時,稱\(\text{cond}(A)\)為矩陣\(A\)的條件數。一般來說,條件數越大,\((A+\delta A)^{-1}\)和\(A^{-1}\)的相對誤差就越大。
4 矩陣函數介紹
4.1 矩陣序列介紹
同數學分析一樣,矩陣分析理論的建立也是基於極限理論的,因此此處先介紹矩陣序列的相關概念。按照正整數\(k\)的順序,將\(C^{m\times n}\)中的矩陣排成一列,\(A_1,A_2,\cdots,A_k,\cdots\),稱這列有序的矩陣為矩陣序列,稱\(A_k\)為矩陣序列的一般項。下面給出矩陣序列收斂的定義:設有矩陣序列\(\{A^{(k)}\}\),其中\(A^{(k)}=(a_{ij}^{(k)})_{m\times n}\in C^{m\times n}\),當\(a_{ij}^{(k)}\rightarrow a_{ij}\)時,稱\(\{A^{(k)}\}\)收斂,或稱矩陣\(A=(a_{ij})_{m\times n}\)為\(\{A^{(k)}\}\)的極限,或稱\(\{A^{(k)}\}\)收斂於\(A\),記為
\]
且不收斂的矩陣序列稱為發散。和數列收斂的性質類似,矩陣序列收斂也有一些有用的性質:
&\text{設}A^{(k)}\rightarrow A_{m\times n}\text{以及}B^{(k)}\rightarrow B_{m\times n}\text{則有}\\
&\text{性質1}\quad \lim_{k\rightarrow\infty}(\alpha A^{(k)}+\beta B^{(k)})=\alpha A+\beta B\\
&\text{性質2}\quad \lim_{k\rightarrow\infty}A^{(k)}B^{(k)}=AB\\
&\text{性質3}\quad (A^{(k)})^{-1}\rightarrow A^{-1}
\end{align*}
\]
在判斷矩陣序列的收斂性的時候,有一些常用的結論,比如:\(A^{(k)}\rightarrow O\)的充分必要條件是\(||A^{(k)}||\rightarrow0\)、\(A^{(k)}\rightarrow A\)的充分必要條件是\(||A^{(k)}-A||\rightarrow0\),其中\(||\cdot||\)為任意一種矩陣範數。在實際應用中,一種常見的矩陣序列是由方陣構成的矩陣序列,如果有\(A^{(k)}\rightarrow O\),則稱\(A\)為收斂矩陣,且\(A\)為收斂矩陣的兩個充分必要條件是\(\rho(A)<1\)或者\(||A||<1\),其中\(||\cdot||\)為任意一種矩陣範數,明顯地,這兩個充分必要條件由範數的等價性所保證。
4.2 矩陣級數介紹
矩陣級數是建立矩陣函數理論的基礎,稱矩陣序列形成的無窮項和\(A^{(0)}+A^{(1)}+\cdots+A^{(k)}+\cdots\)為矩陣級數,記為\(\sum^{\infty}_{k=0}A^{(k)}\),可稱為矩陣級數式。記\(S^{(N)}=\sum^{N}_{k=0}A^{(k)}\)為矩陣級數式的部分和,如果矩陣序列\(\{S^{(N)}\}\)收斂,且有極限\(S\),則有\(\lim_{N\rightarrow\infty}S^{(N)}=S\),那麼就稱矩陣級數式收斂,且有和\(S\)。不收斂的矩陣級數稱為是發散的。最後給出矩陣級數絕對收斂的概念,矩陣級數絕對收斂指的是其中的每個數項級數都是絕對收斂的。下面給出矩陣級數收斂性的一些性質:
\text{性質1}&\quad \text{若矩陣級數式絕對收斂,則它也一定收斂,且任意調換其項順序所得級數仍收斂,且其和不變}\\
\text{性質2}&\quad \text{矩陣級數}\sum^{\infty}_{k=0}A^{(k)}\text{為絕對收斂的充要條件是正項級數}\sum^{\infty}_{k=0}||A^{(k)}||\text{收斂}\\
\text{性質3}&\quad \text{如果}\sum^{\infty}_{k=0}A^{(k)}\text{是收斂(或絕對收斂)的,那麼}\sum^{\infty}_{k=0}PA^{(k)}Q\text{也是收斂(或絕對收斂)的}\\
\text{性質4}&\quad \text{設級數}S_1\text{和}S_2\text{絕對收斂,其和為}A\text{和}B,\text{則}S_1\text{和}S_2\text{按項相乘所得矩陣級數收斂,且有和}AB
\end{align*}
\]
對於矩陣級數而言,有一種常見的矩陣級數,即矩陣冪級數。對於方陣冪級數(Neumann級數)而言,方陣\(A\)的冪級數\(\sum^{\infty}_{k=0}A^{k}=I+A+A^2+\cdots+A^k+\cdots\)收斂的充分必要條件是\(A\)為收斂矩陣,並且在收斂時,其和為\((I-A)^{-1}\)。對於矩陣冪級數\(\sum^{\infty}_{k=0}c_kA^{k}\)而言,其對應的純量冪級數\(f(z)=\sum^{\infty}_{k=0}c_kz^k\)的收斂半徑為\(r\),則如果方陣\(A\)滿足\(\rho(A)<r\),則矩陣冪級數是絕對收斂的;如果\(\rho(A)>1\),則矩陣冪級數是發散的。並且,如果純量冪級數式在整個複平面上是收斂的,那麼不論\(A\)是何種矩陣,矩陣冪級數式總是絕對收斂的。
4.3 矩陣函數介紹
矩陣函數是以\(n\)階矩陣為自變量和因變量的一種函數。如果一元函數\(f(z)\)能展開為\(z\)的冪級數\(f(z)=\sum^{\infty}_{k=0}c_kz^k\quad(|z|<r)\),其中\(r\)為收斂半徑,則當\(n\)階矩陣\(A\)的譜半徑\(\rho(A)<r\)時,把收斂的矩陣冪級數\(\sum^{\infty}_{k=0}c_kA^{k}\)的和稱為矩陣函數,記為\(f(A)\),即
\]
4.4 函數矩陣對矩陣的導數
在數學分析課程中,建立起函數概念之後便開始討論函數的導數概念,在矩陣分析領域也是如此。函數矩陣是指以變量\(t\)的函數\(a_{ij}(t)\)為元素的矩陣,在形式上可以認為是由函數作為元素所構成的一個矩陣。函數矩陣的微分和積分就是指作為其中每個元素的函數各自的微分和積分,運算所得的結果仍是一個函數矩陣。除了函數矩陣的導數以外,還有純量對向量、向量對向量、矩陣對向量、矩陣對矩陣的導數問題,此處略去更加深入的討論。
函數對矩陣的導數:設\(X=(\xi_{ij})_{m\times n}\),\(mn\)元函數\(f(X)=f(\xi_{11},\xi_{12},\cdots,\xi_{1n},\xi_{21},\cdots,\xi_{mn})\),則:
\begin{bmatrix}
\frac{\partial f}{\partial \xi_{11}} & \cdots & \frac{\partial f}{\partial \xi_{1n}}\\
\vdots & & \vdots\\
\frac{\partial f}{\partial \xi_{m1}} & \cdots & \frac{\partial f}{\partial \xi_{mn}}
\end{bmatrix}
\]
如上所示,函數對矩陣的導數所得到的結果是一個矩陣,該矩陣的行數和列數與矩陣\(X\)一樣,其中的每個元素都是函數對矩陣\(X\)相應位置上的元素的偏導數。
函數矩陣對矩陣的導數:設\(X=(\xi_{ij})_{m\times n}\),\(mn\)元函數\(f_{ij}(X)=f_{ij}(\xi_{11},\xi_{12},\cdots,\xi_{1n},\xi_{21},\cdots,\xi_{mn})\),其中\(i=1,2,\cdots,r;j=1,2,\cdots,s\),則:
\begin{bmatrix}
f_{11}(X) & \cdots & f_{1s}(X)\\
\vdots & & \vdots\\
f_{r1}(X) & \cdots & f_{rs}(X)
\end{bmatrix}
\qquad
\frac{dF}{dX}=
\begin{bmatrix}
\frac{\partial F}{\partial \xi_{11}} & \frac{\partial F}{\partial \xi_{12}} & \cdots & \frac{\partial F}{\partial \xi_{1n}}\\
\frac{\partial F}{\partial \xi_{21}} & \frac{\partial F}{\partial \xi_{22}} & \cdots & \frac{\partial F}{\partial \xi_{2n}}\\
\vdots & \vdots & & \vdots\\
\frac{\partial F}{\partial \xi_{m1}} & \frac{\partial F}{\partial \xi_{m2}} & \cdots & \frac{\partial F}{\partial \xi_{mn}}
\end{bmatrix}
\]
其中
\begin{bmatrix}
\frac{\partial f_{11}}{\partial \xi_{ij}} & \frac{\partial f_{12}}{\partial \xi_{ij}} & \cdots & \frac{\partial f_{1s}}{\partial \xi_{ij}}\\
\frac{\partial f_{21}}{\partial \xi_{ij}} & \frac{\partial f_{22}}{\partial \xi_{ij}} & \cdots & \frac{\partial f_{2s}}{\partial \xi_{ij}}\\
\vdots & \vdots & & \vdots\\
\frac{\partial f_{r1}}{\partial \xi_{ij}} & \frac{\partial f_{r2}}{\partial \xi_{ij}} & \cdots & \frac{\partial f_{rs}}{\partial \xi_{ij}}
\end{bmatrix}
\]
可以認為函數矩陣對矩陣的導數是基於函數對矩陣的導數的:函數矩陣中的每個元素對矩陣進行導數,就是函數對矩陣的導數。
5 參考資料
- 《矩陣論》,張凱院,徐仲,西北工業大學出版社