CS229 斯坦福大學機器學習複習材料(數學基礎) – 線性代數

2021 年 8 月 6 日
筆記

CS229 斯坦福大學機器學習複習材料(數學基礎) – 線性代數

線性代數回顧與參考

線性代數回顧與參考

1 基本概念和符號

線性代數提供了一種緊湊地表示和運算「線性方程組」的方法。例如，考慮以下方程組：

4x_{\scriptscriptstyle 1} – 5x_{\scriptscriptstyle 2} = -13\\

-2x_{\scriptscriptstyle 1} + 3x_{\scriptscriptstyle 2} = 9.

$4 x_{1} - 5 x_{2} = - 13 - 2 x_{1} + 3 x_{2} = 9.$

這是兩個方程和兩個變量，正如你從高中代數中所知，你可以找到

x_1

$x_{1}$ 和

x_2

$x_{2}$ 的唯一解（除非方程以某種方式退化，例如，如果第二個方程只是第一個的倍數，但在上面的情況下，實際上只有一個唯一解）。在矩陣表示法中，我們可以更緊湊地表達：

Ax= b

$A x = b$

其中

A=\begin{bmatrix}

4 & -5 \\
-2 & 3
\end{bmatrix},
b=\begin{bmatrix}
-13 \\
9
\end{bmatrix}.

$A = [4 - 2 - 5 3], b = [- 13 9] .$

我們可以看到，以這種形式分析線性方程有許多優點（包括明顯的節省空間）。

1.1 基本符號

我們使用以下符號：

用
$A \in \Bbb{R}^{m \times n}$
$A \in R^{m \times n}$ 表示一個
$m$
$m$ 行
$n$
$n$ 列的矩陣，其中
$A$
$A$ 的各項都是實數。
用
$\boldsymbol{x} \in \Bbb{R}^{n}$
$x \in R^{n}$ 表示具有
$n$
$n$ 個元素的向量。按照慣例，
$n$
$n$ 維向量。通常被認為是
$n$
$n$ 行
$1$
$1$ 列的矩陣，稱為列向量。如果我們想表示一個行向量: 具有
$1$
$1$ 行和
$n$
$n$ 列的矩陣 – 我們通常寫
$\boldsymbol{x}^T$
$x^{T}$ （這裡
$\boldsymbol{x}^T$
$x^{T}$ 表示
$\boldsymbol{x}$
$x$ 的轉置，我們稍後將定義它）。
用
$x_i$
$x_{i}$ 表示向量
$\boldsymbol{x}$
$x$ 的第
$i$
$i$ 個元素：

$\boldsymbol{x}=\begin{bmatrix}$
x_1 \\
x_2 \\
\vdots \\
x_n
\end{bmatrix}.
$x = ⎣ ⎡ x_{1} x_{2} ⋮ x_{n} ⎦ ⎤ .$
我們用符號
$a_{\scriptscriptstyle ij}$
$a_{ij}$ (or
$A_{ij}$
$A_{ij}$ ,
$A_{i,j}$
$A_{i, j}$ )表示
$A$
$A$ 的第
$i$
$i$ 行第
$j$
$j$ 列元素：

$A=\begin{bmatrix}$
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} & a_{m2} & \cdots & a_{mn}
\end{bmatrix}.
$A = ⎣ ⎡ a_{11} a_{21} ⋮ a_{m 1} a_{12} a_{22} ⋮ a_{m 2} \dots \dots ⋱ \dots a_{1 n} a_{2 n} ⋮ a_{mn} ⎦ ⎤ .$
我們將
$A$
$A$ 的第
$j$
$j$ 列表示為
$a^j$
$a^{j}$ or
$A_{:,j}$
$A_{:, j}$ ：

$A = \begin{bmatrix}$
\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
a^1 & a^2 & \cdots & a^n \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}.
$A = ⎣ ⎡ | a^{1} | | a^{2} | \dots | a^{n} | ⎦ ⎤ .$
我們將
$A$
$A$ 的第
$i$
$i$ 行表示為
$a_i^T$
$a_{i}^{T}$ or
$A_{i,:}$
$A_{i, :}$ ：

$A = \begin{bmatrix}$
\text{\textemdash} & a_1^T & \text{\textemdash} \\
\text{\textemdash} & a_2^T & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & a_m^T & \text{\textemdash} \\
\end{bmatrix}.
$A = ⎣ ⎡ — — — a_{1}^{T} a_{2}^{T} ⋮ a_{m}^{T} — — — ⎦ ⎤ .$
在許多情況下，將矩陣視為列向量或行向量的集合是非常重要和方便的。一般來說，在數學上(和概念上)向量級別上的操作比標量級別上的操作會更簡潔。表示矩陣的列或行沒有通用約定，因此你可以使用任何符號明確定義它。

2 矩陣乘法

矩陣

A \in \Bbb{R}^{m \times n}

$A \in R^{m \times n}$ 和矩陣

B \in \Bbb{R}^{n \times p}

$B \in R^{n \times p}$ 的乘積仍然是一個矩陣

C = AB \in \Bbb{R}^{m \times p}

$C = A B \in R^{m \times p}$ ，其中

C_{ij} = \displaystyle\sum_{k=1}^n {A_{ik}B_{kj}}

$C_{ij} = k = 1 \sum n A_{ik} B_{kj}$ .
請注意，為了使矩陣乘積存在，

A

$A$ 中的列數必須等於

B

$B$ 中的行數。有很多方法可以查看矩陣乘法，我們將從檢查一些特殊情況開始。

2.1 向量-向量乘法

給兩個向量

\boldsymbol{x},\boldsymbol{y} \in \Bbb{R}^n

$x, y \in R^{n}$ ,

\boldsymbol{x}^T \boldsymbol{y}

$x^{T} y$ 通常稱為向量的內積或者點積，結果是個實數：

\boldsymbol{x}^T \boldsymbol{y} \in \Bbb{R} =

\begin{bmatrix}x_1 & x_2 & \cdots & x_n\end{bmatrix}
\begin{bmatrix}y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}
= \sum_{i=1}^n{x_iy_i}

$x^{T} y \in R = [x_{1} x_{2} \dots x_{n}] ⎣ ⎡ y_{1} y_{2} ⋮ y_{n} ⎦ ⎤ = i = 1 \sum n x_{i} y_{i}$

請注意，內積實際上只是矩陣乘法的特例。

\boldsymbol{x}^T \boldsymbol{y} = \boldsymbol{y}^T \boldsymbol{x}

$x^{T} y = y^{T} x$ 始終成立。
給定向量

\boldsymbol{x} \in \Bbb{R}^m , \boldsymbol{y} \in \Bbb{R}^n

$x \in R^{m}, y \in R^{n}$ (

m

$m$ 不一定等於

n

$n$ ),

\boldsymbol{x} \boldsymbol{y}^T \in \Bbb{R}^{m \times n}

$x y^{T} \in R^{m \times n}$ 叫向量外積，它是一個矩陣，由

(\boldsymbol{x} \boldsymbol{y}^T)_{ij} = x_iy_j

$(x y^{T})_{ij} = x_{i} y_{j}$ 組成，也就是(i.e.)：

\boldsymbol{x} \boldsymbol{y}^T \in \Bbb{R}^{m \times n}=

\begin{bmatrix}x_1 \\ x_2 \\ \vdots \\ x_m \end{bmatrix}
\begin{bmatrix}y_1 & y_2 & \cdots & y_n\end{bmatrix}=
\begin{bmatrix}
x_1y_1 & x_1y_2 & \cdots & x_1y_n \\
x_2y_1 & x_2y_2 & \cdots & x_2y_n \\
\vdots & \vdots & \ddots & \vdots \\
x_my_1 & x_my_2 & \cdots & x_my_n
\end{bmatrix}

$x y^{T} \in R^{m \times n} = ⎣ ⎡ x_{1} x_{2} ⋮ x_{m} ⎦ ⎤ [y_{1} y_{2} \dots y_{n}] = ⎣ ⎡ x_{1} y_{1} x_{2} y_{1} ⋮ x_{m} y_{1} x_{1} y_{2} x_{2} y_{2} ⋮ x_{m} y_{2} \dots \dots ⋱ \dots x_{1} y_{n} x_{2} y_{n} ⋮ x_{m} y_{n} ⎦ ⎤$

舉一個外積如何使用的一個例子：讓

\boldsymbol{1}\in \Bbb{R}^{n}

$1 \in R^{n}$ 表示一個

n

$n$ 維向量，其元素都等於 1，此外，考慮矩陣

A \in \Bbb{R}^{m \times n}

$A \in R^{m \times n}$ ，其列全部是某個向量

\boldsymbol{x} \in R^{m}

$x \in R^{m}$ 。我們可以使用外積緊湊地表示矩陣

A

$A$ :

A=\begin{bmatrix}

\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
x & x & \cdots & x \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}=
\begin{bmatrix}
x_{1} & x_{1} & \cdots & x_{1} \\
x_{2} & x_{2} & \cdots & x_{2} \\
\vdots & \vdots & \ddots & \vdots \\
x_{m} & x_{m} & \cdots & x_{m}
\end{bmatrix}=
\begin{bmatrix}x_1 \\ x_2 \\ \vdots \\ x_m \end{bmatrix}
\begin{bmatrix}1 & 1 & \cdots & 1\end{bmatrix}=\boldsymbol{x}\boldsymbol{1}^T

$A = ⎣ ⎡ | x | | x | \dots | x | ⎦ ⎤ = ⎣ ⎡ x_{1} x_{2} ⋮ x_{m} x_{1} x_{2} ⋮ x_{m} \dots \dots ⋱ \dots x_{1} x_{2} ⋮ x_{m} ⎦ ⎤ = ⎣ ⎡ x_{1} x_{2} ⋮ x_{m} ⎦ ⎤ [11 \dots 1] = x 1^{T}$

2.2 矩陣-向量乘法

給定矩陣

A \in \mathbb{R}^{m \times n}

$A \in R^{m \times n}$ ，向量

\boldsymbol{x} \in \mathbb{R}^{n}

$x \in R^{n}$ , 它們的積是一個向量

\boldsymbol{y} = A\boldsymbol{x} \in \mathbb{R}^{m}

$y = A x \in R^{m}$ 。有幾種方法可以查看矩陣向量乘法。

如果我們按行寫

A

$A$ ，那麼我們可以表示

A\boldsymbol{x}

$A x$ 為：

\boldsymbol{y} = A\boldsymbol{x} =

\begin{bmatrix}
\text{\textemdash} & a_1^T & \text{\textemdash} \\
\text{\textemdash} & a_2^T & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & a_m^T & \text{\textemdash} \\
\end{bmatrix}\boldsymbol{x}=
\begin{bmatrix} a_1^T\boldsymbol{x} \\ a_2^T\boldsymbol{x} \\ \vdots \\ a_m^T\boldsymbol{x} \end{bmatrix}

$y = A x = ⎣ ⎡ — — — a_{1}^{T} a_{2}^{T} ⋮ a_{m}^{T} — — — ⎦ ⎤ x = ⎣ ⎡ a_{1}^{T} x a_{2}^{T} x ⋮ a_{m}^{T} x ⎦ ⎤$

換句話說，第

i

$i$ 個

y

$y$ 的元素是

A

$A$ 的第

i

$i$ 行和

\boldsymbol{x}

$x$ 的內積，即：

y_i=a_{i}^{T} \boldsymbol{x}

$y_{i} = a_{i}^{T} x$ 。

同樣的，可以把

A

$A$ 寫成列的方式，如下：

\boldsymbol{y} = A\boldsymbol{x} =

\begin{bmatrix}
\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
a^1 & a^2 & \cdots & a^n \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}
\begin{bmatrix}x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix}=
[a^1]x_1 + [a^2]x_2 + \cdots +[a^n]x_n
\label{1}\tag{1}

$y = A x = ⎣ ⎡ | a^{1} | | a^{2} | \dots | a^{n} | ⎦ ⎤ ⎣ ⎡ x_{1} x_{2} ⋮ x_{n} ⎦ ⎤ = [a^{1}] x_{1} + [a^{2}] x_{2} + \dots + [a^{n}] x_{n} (1)$

換句話說，

\boldsymbol{y}

$y$ 是

A

$A$ 的列的線性組合，其中線性組合的係數由

\boldsymbol{x}

$x$ 的元素給出。

到目前為止，我們一直是矩陣右乘一個列向量，但也可以是矩陣左乘一個行向量。如這樣表示：

\boldsymbol{y}^T = \boldsymbol{x}^TA

$y^{T} = x^{T} A$ 其中

A \in \mathbb{R}^{m \times n}

$A \in R^{m \times n}$ ，

\boldsymbol{x} \in \mathbb{R}^{m}

$x \in R^{m}$ ，

\boldsymbol{y} \in \mathbb{R}^{n}

$y \in R^{n}$ 。和以前一樣，我們可以用兩種可行的方式表達

\boldsymbol{y}^T

$y^{T}$ ，這取決於我們是否根據行或列表達

A

$A$ .

首先，我們把

A

$A$ 用列表示：

\boldsymbol{y}^T = \boldsymbol{x}^TA = \boldsymbol{x}^T

\begin{bmatrix}
\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
a^1 & a^2 & \cdots & a^n \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}=
\begin{bmatrix}\boldsymbol{x}^Ta^1 & \boldsymbol{x}^Ta^2 & \cdots & \boldsymbol{x}^Ta^n \end{bmatrix}

$y^{T} = x^{T} A = x^{T} ⎣ ⎡ | a^{1} | | a^{2} | \dots | a^{n} | ⎦ ⎤ = [x^{T} a^{1} x^{T} a^{2} \dots x^{T} a^{n}]$

這表明

\boldsymbol{y}^T

$y^{T}$ 的第

i

$i$ 個元素等於

\boldsymbol{x}

$x$ 和

A

$A$ 的第

i

$i$ 列的內積。

最後，根據行表示

A

$A$ ，我們得到了向量-矩陣乘積的最終表示：

\begin{aligned}

\boldsymbol{y}^T &= \boldsymbol{x}^TA \\&=
\begin{bmatrix} x_1 & x_2 & \cdots & x_n \end{bmatrix}
\begin{bmatrix}
\text{\textemdash} & a_1^T & \text{\textemdash} \\
\text{\textemdash} & a_2^T & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & a_m^T & \text{\textemdash} \\
\end{bmatrix}\\&=
x_1\begin{bmatrix}\text{\textemdash} & a_1^T & \text{\textemdash}\end{bmatrix}+
x_2\begin{bmatrix}\text{\textemdash} & a_2^T & \text{\textemdash}\end{bmatrix}+ \cdots +
x_n\begin{bmatrix}\text{\textemdash} & a_n^T & \text{\textemdash}\end{bmatrix}
\end{aligned}

$y^{T} = x^{T} A = [x_{1} x_{2} \dots x_{n}] ⎣ ⎡ — — — a_{1}^{T} a_{2}^{T} ⋮ a_{m}^{T} — — — ⎦ ⎤ = x_{1} [— a_{1}^{T} —] + x_{2} [— a_{2}^{T} —] + \dots + x_{n} [— a_{n}^{T} —]$

所以我們看到

\boldsymbol{y}^T

$y^{T}$ 是

A

$A$ 的行的線性組合，其中線性組合的係數由

\boldsymbol{x}

$x$ 的元素給出。

2.3 矩陣-矩陣乘法

有了這些知識，我們現在可以看看四種不同的（當然是等價的）查看矩陣與矩陣乘法

C = AB

$C = A B$ 的方法。

首先，我們可以將矩陣-矩陣乘法視為一組向量-向量乘積。從定義中可以得出：最明顯的觀點是

C

$C$ 的(

i,j

$i, j$ )元素等於

A

$A$ 的第

i

$i$ 行和

B

$B$ 的的

j

$j$ 列的內積。如下所示：

C = AB =

\begin{bmatrix}
\text{\textemdash} & a_1^T & \text{\textemdash} \\
\text{\textemdash} & a_2^T & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & a_m^T & \text{\textemdash} \\
\end{bmatrix}
\begin{bmatrix}
\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
b^1 & b^2 & \cdots & b^p \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}=
\begin{bmatrix}
a_1b_1 & a_1b_2 & \cdots & a_1b_p \\
a_2b_1 & a_2b_2 & \cdots & a_2b_p \\
\vdots & \vdots & \ddots & \vdots \\
a_mb_1 & a_mb_2 & \cdots & a_mb_p
\end{bmatrix}

$C = A B = ⎣ ⎡ — — — a_{1}^{T} a_{2}^{T} ⋮ a_{m}^{T} — — — ⎦ ⎤ ⎣ ⎡ | b^{1} | | b^{2} | \dots | b^{p} | ⎦ ⎤ = ⎣ ⎡ a_{1} b_{1} a_{2} b_{1} ⋮ a_{m} b_{1} a_{1} b_{2} a_{2} b_{2} ⋮ a_{m} b_{2} \dots \dots ⋱ \dots a_{1} b_{p} a_{2} b_{p} ⋮ a_{m} b_{p} ⎦ ⎤$

這裡的矩陣

A \in \Bbb{R}^{m \times n} , B \in \Bbb{R}^{n \times p}

$A \in R^{m \times n}, B \in R^{n \times p}$ ，向量

a_i \in \Bbb{R}^n , b^j \in \Bbb{R}^n

$a_{i} \in R^{n}, b^{j} \in R^{n}$ ，所以它們可以計算內積。當我們用行表示

A

$A$ 和用列表示

B

$B$ 時，這是最「自然」的表示。
另外，我們可以用列表示

A

$A$ ，用行表示

B

$B$ 。這種表示導致將

AB

$A B$ 解釋為外積之和,這種表示則複雜得多。象徵性地，

C = AB =

\begin{bmatrix}
\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
a^1 & a^2 & \cdots & a^n \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}
\begin{bmatrix}
\text{\textemdash} & b_1^T & \text{\textemdash} \\
\text{\textemdash} & b_2^T & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & b_n^T & \text{\textemdash} \\
\end{bmatrix}=
\sum_{i=1}^n{a^ib_i^T}

$C = A B = ⎣ ⎡ | a^{1} | | a^{2} | \dots | a^{n} | ⎦ ⎤ ⎣ ⎡ — — — b_{1}^{T} b_{2}^{T} ⋮ b_{n}^{T} — — — ⎦ ⎤ = i = 1 \sum n a^{i} b_{i}^{T}$

換句話說，

AB

$A B$ 等於所有的

A

$A$ 的第

i

$i$ 列和

B

$B$ 第

i

$i$ 行的外積的和。因此，在這種情況下，

a^i \in \mathbb{R}^ m

$a^{i} \in R^{m}$ 和

b_i \in \mathbb{R}^p

$b_{i} \in R^{p}$ ，外積

a^ib_i^T

$a^{i} b_{i}^{T}$ 的維度是

m×p

$m \times p$ ，與

C

$C$ 的維度一致。

其次，我們還可以將矩陣-矩陣乘法視為一組矩陣-向量乘法。如果我們把

B

$B$ 用列表示，我們可以將

C

$C$ 的列視為

A

$A$ 和

B

$B$ 的列(矩陣-向量)的乘積。如下所示：

C = AB = A

\begin{bmatrix}
\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
b^1 & b^2 & \cdots & b^p \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}=
\begin{bmatrix}
\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
Ab^1 & Ab^2 & \cdots & Ab^p \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}
\label{2}\tag{2}

$C = A B = A ⎣ ⎡ | b^{1} | | b^{2} | \dots | b^{p} | ⎦ ⎤ = ⎣ ⎡ | A b^{1} | | A b^{2} | \dots | A b^{p} | ⎦ ⎤ (2)$

這裡

C

$C$ 的第

i

$i$ 列由矩陣-向量乘積給出，右邊的向量為

c_i = Ab_i

$c_{i} = A b_{i}$ 。

最後，我們有類似的觀點，我們用行表示

A

$A$ ，並將

C

$C$ 的行視為

A

$A$ 的行和

B

$B$ 之間的矩陣-向量乘積。如下所示：

C = AB =

\begin{bmatrix}
\text{\textemdash} & a_1^T & \text{\textemdash} \\
\text{\textemdash} & a_2^T & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & a_m^T & \text{\textemdash} \\
\end{bmatrix}B=
\begin{bmatrix}
\text{\textemdash} & a_1^TB & \text{\textemdash} \\
\text{\textemdash} & a_2^TB & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & a_m^TB & \text{\textemdash} \\
\end{bmatrix}

$C = A B = ⎣ ⎡ — — — a_{1}^{T} a_{2}^{T} ⋮ a_{m}^{T} — — — ⎦ ⎤ B = ⎣ ⎡ — — — a_{1}^{T} B a_{2}^{T} B ⋮ a_{m}^{T} B — — — ⎦ ⎤$

這裡

C

$C$ 的第

i

$i$ 行由矩陣-向量乘積給出：

c_i^T = a_i^T B

$c_{i}^{T} = a_{i}^{T} B$ 。

將矩陣乘法剖析到如此大的程度似乎有點矯枉過正，特別是當所有這些觀點都緊跟在我們在本節開頭給出的初始定義（

C=AB

$C = A B$ ）之後。

這些不同方法的直接優勢在於它們允許您在向量的級別/單位而不是標量上進行操作。為了完全理解線性代數而不會迷失在複雜的索引操作中，關鍵是操作儘可能大(向量而不是標量)的概念。^[1]

實際上所有的線性代數都是在處理某種矩陣乘法，多花一些時間對這裡提出的觀點進行直觀的理解是非常必要的。

除此之外，你還應該了解一些更高級別的矩陣乘法的基本性質：

矩陣乘法結合律: $(AB)C = A(BC)$
矩陣乘法分配律: $A(B + C) = AB + AC$
矩陣乘法一般是不可交換的; 也就是說，通常 $AB \ne BA$

如果您不熟悉這些性質，請花點時間自己驗證它們。例如，為了檢查矩陣乘法的結合性，假設

A \in \mathbb{R}^ {m \times n}，

$A \in R^{m \times n} ，$

B \in \mathbb{R}^ {n \times p}

$B \in R^{n \times p}$ ，

C \in \mathbb{R}^ {p \times q}

$C \in R^{p \times q}$ 。注意

AB \in \mathbb{R}^ {m \times p}

$A B \in R^{m \times p}$ ，所以

(AB)C \in \mathbb{R}^ {m \times q}

$(A B) C \in R^{m \times q}$ 。類似地，

BC \in \mathbb{R}^ {n \times q}

$BC \in R^{n \times q}$ ，所以

A(BC) \in \mathbb{R}^ {m \times q}

$A (BC) \in R^{m \times q}$ 。因此，所得矩陣的維度一致。為了驗證矩陣乘法的結合性，檢查

(AB)C

$(A B) C$ 的(

i,j

$i, j$ )元素是否等於

A(BC)

$A (BC)$ 的(

i,j

$i, j$ )元素。我們可以使用矩陣乘法的定義直接驗證這一點：

\begin{aligned} % aligned &= 等號對齊

((A B) C)_{ij} &= \sum_{k=1}^p{(AB)_{ik}C_{kj}} = \sum_{k=1}^p \Bigg( \sum_{l=1}^n{A_{il}B_{lk}} \Bigg) C_{kj} \\
&=\sum_{k=1}^p \Bigg( \sum_{l=1}^n{A_{il}B_{lk}C_{kj}}\Bigg) = \sum_{l=1}^n \Bigg( \sum_{k=1}^p{A_{il}B_{lk}C_{kj}}\Bigg)\\
&=\sum_{l=1}^nA_{il}\Bigg(\sum_{k=1}^p{B_{lk}C_{kj}}\Bigg) = \sum_{l=1}^n{A_{il}(BC)_{lj}} = (A(BC))_{ij}
\end{aligned}

$((A B) C)_{ij} = k = 1 \sum p (A B)_{ik} C_{kj} = k = 1 \sum p (l = 1 \sum n A_{i l} B_{l k}) C_{kj} = k = 1 \sum p (l = 1 \sum n A_{i l} B_{l k} C_{kj}) = l = 1 \sum n (k = 1 \sum p A_{i l} B_{l k} C_{kj}) = l = 1 \sum n A_{i l} (k = 1 \sum p B_{l k} C_{kj}) = l = 1 \sum n A_{i l} (BC)_{l j} = (A (BC))_{ij}$

這裡，第一個和最後兩個等式簡單地使用了矩陣乘法的定義，第三個和第五個等式使用了標量乘法對加法的分配性質，第四個等式使用了標量加法的交換性和結合性。這種通過簡化為簡單標量性質來證明矩陣性質的技術會經常出現，因此請確保您熟悉它。

3 操作及其性質

在本節中，我們將介紹矩陣和向量的幾種操作和性質。希望其中的大部分內容都可以幫您複習，此筆記可以作為參考。

3.1 單位矩陣和對角矩陣

單位矩陣用

I \in \Bbb{R}^{n \times n}

$I \in R^{n \times n}$ 表示，它是一個方陣，對角線的元素是 1，其餘元素都是 0。可以這樣表示：

I_{ij} =

\begin{cases}
1 & i=j \\
0 & i \neq j
\end{cases}.

$I_{ij} = {10 i = j i \neq = j .$

對於所有矩陣

A \in \mathbb{R}^ {m \times n}

$A \in R^{m \times n}$ ，有：

AI=A=IA

$A I = A = I A$
注意，在某種意義上，上面單位矩陣的表示法是不明確的，因為它沒有指定

I

$I$ 的維數。通常，

I

$I$ 的維數是從上下文推斷出來的，以便使矩陣乘法成為可能。例如，在上面的等式中，

AI = A

$A I = A$ 中的

I

$I$ 是

n\times n

$n \times n$ 矩陣，而

A = IA

$A = I A$ 中的

I

$I$ 是

m\times m

$m \times m$ 矩陣。

對角矩陣的非對角元素全為 0。對角陣通常表示為：

D=diag(d_1, d_2,\cdots, d_n)

$D = d ia g (d_{1}, d_{2}, \dots, d_{n})$ ，其中：

D_{ij} =

\begin{cases}
d_i & i=j \\
0 & i \neq j
\end{cases}.

$D_{ij} = {d_{i} 0 i = j i \neq = j .$

很明顯，單位矩陣

I= diag(1, 1, \cdots , 1)

$I = d ia g (1, 1, \dots, 1)$ 。

3.2 轉置

矩陣的轉置是指翻轉矩陣的行和列。給定一個矩陣

A \in \Bbb{R}^{m \times n}

$A \in R^{m \times n}$ ，它的轉置

A^T \in \Bbb{R}^{n \times m}

$A^{T} \in R^{n \times m}$ ,其中的元素為：

(A^T)_{ij} = A_{ji}.

$(A^{T})_{ij} = A_{ji} .$

事實上，我們在描述行向量時已經使用了轉置，因為列向量的轉置自然是行向量。

轉置有以下性質，且很容易驗證：

$(A^T)^T = A$
$(AB)^T = B^TA^T$
$(A+B)^T = A^T + B^T$

3.3 對稱矩陣

如果

A = A^T

$A = A^{T}$ ，那麼方陣

A \in \Bbb{R}^{n \times n}

$A \in R^{n \times n}$ 是對稱的。

元素滿足 $a_{ij} = a_{ji} , \forall i,j$
$A = A^T$
對於任意方陣 $A$
對角矩陣都是對稱矩陣

如果

A = -A^T

$A = - A^{T}$ ，那麼它就是反對稱的。

元素滿足 $a_{ij} = -a_{ji} , \forall i,j$
$A,B$
若 $A$

很容易證明，對於任何矩陣

A \in \mathbb{R}^ {n \times n}

$A \in R^{n \times n}$ ，矩陣

A + A^ T

$A + A^{T}$ 是對稱的，矩陣

A -A^T

$A - A^{T}$ 是反對稱的^[2:1]。

由此得出，任意方矩陣

A \in \mathbb{R}^ {n \times n}

$A \in R^{n \times n}$ 可以表示為對稱矩陣和反對稱矩陣的和，所以：

A=\frac{1}{2}(A+A^T)+\frac{1}{2}(A-A^T)

$A = \frac{1}{2} (A + A^{T}) + \frac{1}{2} (A - A^{T})$

事實證明，對稱矩陣在實踐中用到很多，它們有很多很好的性質，我們很快就會看到它們。
通常將大小為

n

$n$ 的所有對稱矩陣的集合表示為

\mathbb{S}^n

$S^{n}$ ，因此

A \in \mathbb{S}^n

$A \in S^{n}$ 意味着

A

$A$ 是對稱的

n\times n

$n \times n$ 矩陣。

3.4 矩陣的跡

方矩陣

A \in \mathbb{R}^ {n \times n}

$A \in R^{n \times n}$ 的跡，表示為

\operatorname{tr} (A)

$tr (A)$ （或者

\operatorname{tr} A

$tr A$ ，括號顯然是隱含的），是矩陣中對角元素的總和：

\operatorname{tr} A=\sum_{i=1}^{n} A_{i i}

$tr A = i = 1 \sum n A_{ii}$

如 CS229 講義中所述，跡具有以下性質（如下所示）：

對於矩陣 $A \in \mathbb{R}^ {n \times n}$
對於矩陣 $A,B \in \mathbb{R}^ {n \times n}$
對於矩陣 $A \in \mathbb{R}^ {n \times n}$
對於矩陣 $A$
對於矩陣 $A$

我們給出第四個性質的證明。假設

A \in \mathbb{R}^ {m \times n}

$A \in R^{m \times n}$ 和

B \in \mathbb{R}^ {n \times m}

$B \in R^{n \times m}$ （因此

AB \in \mathbb{R}^ {m \times m}

$A B \in R^{m \times m}$ 是方陣）。觀察到

BA \in \mathbb{R}^ {n \times n}

$B A \in R^{n \times n}$ 也是一個方陣，因此對它們進行跡的運算是有意義的。要證明

\operatorname{tr}AB = \operatorname{tr}BA

$tr A B = tr B A$ ，注意：

\begin{aligned}

\operatorname{tr} A B &=\sum_{i=1}^{m}(A B)_{i i}=\sum_{i=1}^{m}\left(\sum_{j=1}^{n} A_{i j} B_{j i}\right) \\
&=\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j} B_{j i}=\sum_{j=1}^{n} \sum_{i=1}^{m} B_{j i} A_{i j} \\
&=\sum_{j=1}^{n}\left(\sum_{i=1}^{m} B_{j i} A_{i j}\right)=\sum_{j=1}^{n}(B A)_{j j}=\operatorname{tr} B A
\end{aligned}

$tr A B = i = 1 \sum m (A B)_{ii} = i = 1 \sum m (j = 1 \sum n A_{ij} B_{ji}) = i = 1 \sum m j = 1 \sum n A_{ij} B_{ji} = j = 1 \sum n i = 1 \sum m B_{ji} A_{ij} = j = 1 \sum n (i = 1 \sum m B_{ji} A_{ij}) = j = 1 \sum n (B A)_{jj} = tr B A$

這裡，第一個和最後兩個等式使用了跡運算符和矩陣乘法的定義。重點在第四個等式,使用標量乘法的交換性來反轉每個乘積中的項的順序，以及標量加法的交換性和結合性來重新排列求和的順序。

3.5 範數

向量的範數

\|x\|

$∥ x ∥$ 是非正式度量的向量的「長度」。例如，我們有常用的歐幾里德或

\ell_{2}

$ℓ_{2}$ 範數，

\|x\|_{2}=\sqrt{\sum_{i=1}^{n} x_{i}^{2}}

$∥ x ∥_{2} = i = 1 \sum n x_{i}^{2}$

注意：

\|x\|_{2}^{2}=x^{T} x

$∥ x ∥_{2}^{2} = x^{T} x$

更正式地，範數是滿足 4 個性質的函數（

f : \mathbb{R}^{n} \rightarrow \mathbb{R}

$f : R^{n} \to R$ ）：

對於所有的 $x \in \mathbb{R}^ {n}$
當且僅當 $x = 0$
對於所有 $x \in \mathbb{R}^ {n}$
對於所有 $x,y \in \mathbb{R}^ {n}$

其他範數的例子，如：

\ell_1

$ℓ_{1}$ 範數：

\|x\|_{1}=\sum_{i=1}^{n}|x_{i}|

$∥ x ∥_{1} = i = 1 \sum n ∣ x_{i} ∣$

和

\ell_{\infty }

$ℓ_{\infty}$ 範數：

\|x\|_{\infty}=\max_{i}\left|x_{i}\right|

$∥ x ∥_{\infty} = i max ∣ x_{i} ∣$

事實上，到目前為止所提出的所有三個範數都是

\ell_p

$ℓ_{p}$ 範數族的例子，它們由實數

p \geq 1

$p \geq 1$ 參數化，並定義為：

\|x\|_{p}=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{1 / p}

$∥ x ∥_{p} = (i = 1 \sum n ∣ x_{i} ∣^{p})^{1/ p}$

也可以為矩陣定義範數，例如Frobenius範數:

\|A\|_{F}=\sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j}^{2}}=\sqrt{\operatorname{tr}\left(A^{T} A\right)}

$∥ A ∥_{F} = i = 1 \sum m j = 1 \sum n A_{ij}^{2} = tr (A^{T} A)$

還有很多其他範數，但它們超出了這個複習材料的範圍。

3.6 線性相關性和秩

一個向量集合

\{ x_1,x_2, \cdots x_n \} \subset \mathbb{R}^m

${x_{1}, x_{2}, \dots x_{n}} \subset R^{m}$ ，如果沒有向量可以表示為其餘向量的線性組合，則稱稱該向量是線性無關的。相反，如果屬於該組的一個向量可以表示為其餘向量的線性組合，則稱該向量是線性相關的。也就是說，如果：

x_{j}=\sum_{i=1,i \neq j}^{n} \alpha_{i} x_{i}

$x_{j} = i = 1, i \neq = j \sum n α_{i} x_{i}$

存在

\alpha_1,\cdots \alpha_{n} \in \mathbb{R}

$α_{1}, \dots α_{n} \in R$ ，那麼向量

x_1,x_2, \cdots x_n

$x_{1}, x_{2}, \dots x_{n}$ 是線性相關的; 否則，向量是線性無關的。
另一種線性相關的描述（存在不全為零的數

\alpha_{i}

$α_{i}$ ，使得等式成立）：

\sum_{i=1}^{n} \alpha_{i} x_{i} = 0,\exists \alpha_i \neq 0

$i = 1 \sum n α_{i} x_{i} = 0, \exists α_{i} \neq = 0$

例如，向量：

x_{1}=

\begin{bmatrix}
1 \\
2 \\
3
\end{bmatrix} \quad
x_{2}=
\begin{bmatrix}
4 \\
1 \\
5
\end{bmatrix} \quad
x_{3}=
\begin{bmatrix}
2 \\
-3 \\
-1
\end{bmatrix}

$x_{1} = ⎣ ⎡ 123 ⎦ ⎤ x_{2} = ⎣ ⎡ 415 ⎦ ⎤ x_{3} = ⎣ ⎡ 2 - 3 - 1 ⎦ ⎤$

是線性相關的，因為：

x_3=-2x_1+x_2

$x_{3} = - 2 x_{1} + x_{2}$ 。

矩陣

A \in \mathbb{R}^{m \times n}

$A \in R^{m \times n}$ 的列秩是構成線性無關集合的

A

$A$ 的最大列子集的大小。由於術語的多樣性，這通常簡稱為

A

$A$ 的線性無關列的數量。同樣，行秩是構成線性無關集合的

A

$A$ 的最大行數。
對於任何矩陣

A \in \mathbb{R}^{m \times n}

$A \in R^{m \times n}$ ，事實證明

A

$A$ 的列秩等於

A

$A$ 的行秩（儘管我們不會證明這一點），因此兩個量統稱為

A

$A$ 的秩，用

\text{rank}(A)

$rank (A)$ 表示。以下是秩的一些基本性質：

對於 $A \in \mathbb{R}^{m \times n}$
對於 $A \in \mathbb{R}^{m \times n}$
對於 $A \in \mathbb{R}^{m \times n}$
對於 $A,B \in \mathbb{R}^{m \times n}$

3.7 方陣的逆

方陣

A \in \mathbb{R}^{n \times n}

$A \in R^{n \times n}$ 的逆表示為

A^{-1}

$A^{- 1}$ ，並且是這樣的唯一矩陣:

A^{-1}A=I=AA^{-1}

$A^{- 1} A = I = A A^{- 1}$

請注意，並非所有矩陣都具有逆。例如，非方形矩陣根據定義沒有逆(存在偽逆^[4])。然而，對於一些方形矩陣

A

$A$ ，

A^{-1}

$A^{- 1}$ 也可能不存在。特別是，如果

A^{-1}

$A^{- 1}$ 存在，我們說

A

$A$ 是可逆的或非奇異的，否則就是不可逆或奇異的^[5]。

為了使方陣 A 具有逆

A^{-1}

$A^{- 1}$ ，則

A

$A$ 必須是滿秩。我們很快就會發現，除了滿秩之外，還有許多其它的充分必要條件。
以下是逆的性質; 假設

A,B \in \mathbb{R}^{n \times n}

$A, B \in R^{n \times n}$ ，而且是非奇異的：

$(A^{-1})^{-1} = A$
$(AB)^{-1} = B^{-1}A^{-1}$
$(A^{-1})^{T} =(A^{T})^{-1}$

作為如何使用逆的示例，考慮線性方程組，

Ax = b

$A x = b$ ，其中

A \in \mathbb{R}^{n \times n}

$A \in R^{n \times n}$ ，

x,b\in \mathbb{R}

$x, b \in R$ ，如果

A

$A$ 是非奇異的（即可逆的），那麼

x = A^{-1}b

$x = A^{- 1} b$ 。（如果

A \in \mathbb{R}^{m \times n}

$A \in R^{m \times n}$ ，不是方陣，這公式還有用嗎？ – 偽逆^[4:1]）

3.8 正交矩陣

如果

x^Ty=0

$x^{T} y = 0$ ，則兩個向量

x,y\in \mathbb{R}^{n}

$x, y \in R^{n}$ 是正交的。如果

\|x\|_2=1

$∥ x ∥_{2} = 1$ ，則向量

x\in \mathbb{R}^{n}

$x \in R^{n}$ 被歸一化。如果一個方陣

U\in \mathbb{R}^{n \times n}

$U \in R^{n \times n}$ 的所有列彼此正交並被歸一化，則方陣

U

$U$ 是正交矩陣（注意在討論向量與矩陣時的意義不一樣，兩個向量正交只需要內積為 0，正交矩陣是各列相互正交並且被歸一化）。

它可以從正交性和正態性的定義中得出:

U^ TU = I = U U^T

$U^{T} U = I = U U^{T}$

換句話說，正交矩陣的逆是其轉置。注意，如果

U

$U$ 不是方陣，即，

U\in \mathbb{R}^{m \times n}, n < m

$U \in R^{m \times n}, n < m$ ，但其列仍然是正交的，則

U^TU = I

$U^{T} U = I$ ，但是

UU^T \neq I

$U U^{T} \neq = I$ 。所以正交矩陣一定是方陣。

正交矩陣的另一個好的特性是在具有正交矩陣的向量上操作不會改變其歐幾里德範數，即(i.e.):

\|U x\|_{2}=\|x\|_{2}

\label{3}\tag{3}

$∥ Ux ∥_{2} = ∥ x ∥_{2} (3)$

對於任何

x\in \mathbb{R}^n

$x \in R^{n}$ ,

U\in \mathbb{R}^{n \times n}

$U \in R^{n \times n}$ 是正交矩陣。

3.9 矩陣的值域和零空間

張成一個向量集合

\{ x_1,x_2, \cdots x_n \}

${x_{1}, x_{2}, \dots x_{n}}$ 可以表示為一個向量集合

\{ x_1, \cdots x_n \}

${x_{1}, \dots x_{n}}$ 的所以線性組合：

\operatorname{span}(\{x_1, \cdots x_n \}) = \Bigg\{v:v=\sum_{i=1}^n{\alpha_i x_i}, \alpha_i \in \Bbb{R} \Bigg\}

$span ({x_{1}, \dots x_{n}}) = {v : v = i = 1 \sum n α_{i} x_{i}, α_{i} \in R}$

可以看到，如果

\{x_{1}, \cdots x_{n}\}

${x_{1}, \dots x_{n}}$ 是一組

n

$n$ 個線性無關的向量，其中每個

x_i \in \mathbb{R}^{n}

$x_{i} \in R^{n}$ ，則

\text{span}(\{x_{1}, \ldots x_{n}\})=\mathbb{R}^{n}

$span ({x_{1}, \dots x_{n}}) = R^{n}$ 。換句話說，任何向量

v\in \mathbb{R}^{n}

$v \in R^{n}$ 都可以寫成

x_1

$x_{1}$ 到

x_n

$x_{n}$ 的線性組合。
向量

y\in \mathbb{R}^{m}

$y \in R^{m}$ 投影到

\{x_{1}, \ldots x_{n}\}

${x_{1}, \dots x_{n}}$ 所張成的空間（這裡我們假設

x_i \in \mathbb{R}^{m}

$x_{i} \in R^{m}$ ）得到向量

v \in \operatorname{span}(\{x_{1}, \ldots, x_{n}\})

$v \in span ({x_{1}, \dots, x_{n}})$ ，由歐幾里德範數

\|v – y\|_2

$∥ v - y ∥_{2}$ 可以得知，這樣

v

$v$ 儘可能接近

y

$y$ 。

我們將投影表示為

\operatorname{Proj}\left(y ;\left\{x_{1}, \ldots x_{n}\right\}\right)

$Proj (y; {x_{1}, \dots x_{n}})$ ，並且可以將其正式定義為:

\operatorname{Proj}\left(y ;\left\{x_{1}, \ldots x_{n}\right\}\right)=\operatorname{argmin}_{v \in \operatorname{span}\left(\left\{x_{1}, \ldots, x_{n}\right\}\right)}\|y-v\|_{2}

$Proj (y; {x_{1}, \dots x_{n}}) = argmin_{v \in span ({x_{1}, \dots, x_{n}})} ∥ y - v ∥_{2}$

矩陣

A\in \mathbb{R}^{m \times n}

$A \in R^{m \times n}$ 的值域（有時也稱為列空間），表示為

\mathcal{R}(A)

$R (A)$ ，是

A

$A$ 的列所張成的空間。換句話說，

\mathcal{R}(A)=\left\{v \in \mathbb{R}^{m} : v=A x, x \in \mathbb{R}^{n}\right\}

$R (A) = {v \in R^{m} : v = A x, x \in R^{n}}$

做一些技術性的假設（即

A

$A$ 是滿秩且

n <m

$n < m$ ），向量

y \in \mathbb{R}^{m}

$y \in R^{m}$ 到

A

$A$ 的值域的投影由下式給出:

\operatorname{Proj}(y ; A)=\operatorname{argmin}_{v \in \mathcal{R}(A)}\|v-y\|_{2}=A\left(A^{T} A\right)^{-1} A^{T} y

$Proj (y; A) = argmin_{v \in R (A)} ∥ v - y ∥_{2} = A (A^{T} A)^{- 1} A^{T} y$

這個最後的方程應該看起來非常熟悉，因為它幾乎與我們在課程中（我們將很快再次得出）得到的公式：與參數的最小二乘估計一樣。
看一下投影的定義，顯而易見，這實際上是我們在最小二乘問題中最小化的目標（除了範數的平方這裡有點不一樣，這不會影響找到最優解），所以這些問題自然是非常相關的。

當

A

$A$ 只包含一列時，

a \in \mathbb{R}^{m}

$a \in R^{m}$ ，這給出了向量投影到一條線上的特殊情況：

\operatorname{Proj}(y ; a)=\frac{a a^{T}}{a^{T} a} y

$Proj (y; a) = \frac{a a ^{T}}{a ^{T} a} y$

一個矩陣

A\in \mathbb{R}^{m \times n}

$A \in R^{m \times n}$ 的零空間

\mathcal{N}(A)

$N (A)$ 是所有乘以

A

$A$ 時等於 0 向量的集合，即：

\mathcal{N}(A)=\left\{x \in \mathbb{R}^{n} : A x=0\right\}

$N (A) = {x \in R^{n} : A x = 0}$

注意，

\mathcal{R}(A)

$R (A)$ 中的向量的大小為

m

$m$ ，而

\mathcal{N}(A)

$N (A)$ 中的向量的大小為

n

$n$ ，因此

\mathcal{R}(A^T)

$R (A^{T})$ 和

\mathcal{N}(A)

$N (A)$ 中的向量的大小均為

\mathbb{R}^{n}

$R^{n}$ 。事實上，還有很多例子。證明：

\left\{w : w=u+v, u \in \mathcal{R}\left(A^{T}\right), v \in \mathcal{N}(A)\right\}=\mathbb{R}^{n} \text { and } \mathcal{R}\left(A^{T}\right) \cap \mathcal{N}(A)=\{\mathbf{0}\}

${w : w = u + v, u \in R (A^{T}), v \in N (A)} = R^{n} and R (A^{T}) \cap N (A) = {0}$

換句話說，

\mathcal{R}(A^T)

$R (A^{T})$ 和

\mathcal{N}(A)

$N (A)$ 是不相交的子集，它們一起跨越

\mathbb{R}^{n}

$R^{n}$ 的整個空間。這種類型的集合稱為正交補，我們用

\mathcal{R}(A^T)= \mathcal{N}(A)^{\perp}

$R (A^{T}) = N (A)^{⊥}$ 表示。

3.10 行列式

一個方陣

A \in \mathbb{R}^{n \times n}

$A \in R^{n \times n}$ 的行列式是函數

\text {det}

$det$ ：

\mathbb{R}^{n \times n} \rightarrow \mathbb{R}^{n}

$R^{n \times n} \to R^{n}$ ，並且表示為

\left| A \right|

$∣ A ∣$ 或者

\text{det} A

$det A$ （有點像跡運算符，我們通常省略括號）。在代數上，我們可以寫出 A 的行列式的明確公式，但不幸的是，這並不能直觀地理解它的含義。相反，我們將從提供行列式的幾何解釋開始，然後訪問其一些特定的代數性質。

給定一個矩陣：

\begin{bmatrix}

\text{\textemdash} & a_1^T & \text{\textemdash} \\
\text{\textemdash} & a_2^T & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & a_n^T & \text{\textemdash} \\
\end{bmatrix}

$⎣ ⎡ — — — a_{1}^{T} a_{2}^{T} ⋮ a_{n}^{T} — — — ⎦ ⎤$

考慮通過採用

A

$A$ 行向量

a_{1}, \ldots a_{n}\in \mathbb{R}^{n}

$a_{1}, \dots a_{n} \in R^{n}$ 的所有可能線性組合形成的點

S \subset \mathbb{R}^{n}

$S \subset R^{n}$ 的集合，其中線性組合的係數都在 0 和 1 之間; 也就是說，集合

S

$S$ 是

\text{span}(\{a_{1}, \ldots a_{n}\})

$span ({a_{1}, \dots a_{n}})$ 受到係數

\alpha_{1}, \ldots \alpha_{n}

$α_{1}, \dots α_{n}$ 的限制的線性組合，

\alpha_1, \cdots ,\alpha_n

$α_{1}, \dots, α_{n}$ 滿足

0 \leq \alpha_{i} \leq 1, i=1, \ldots, n

$0 \leq α_{i} \leq 1, i = 1, \dots, n$ 。從形式上看，

S=\left\{v \in \mathbb{R}^{n} : v=\sum_{i=1}^{n} \alpha_{i} a_{i} \text { where } 0 \leq \alpha_{i} \leq 1, i=1, \ldots, n\right\}

$S = {v \in R^{n} : v = i = 1 \sum n α_{i} a_{i} where 0 \leq α_{i} \leq 1, i = 1, \dots, n}$

事實證明，

A

$A$ 的行列式的絕對值是對集合

S

$S$ 的「體積」的度量^[6]。

比方說：一個

2 \times2

$2 \times 2$ 的矩陣(4)：

A=

\begin{bmatrix}
1 & 3 \\
3 & 2
\end{bmatrix}
\label{4}\tag{4}

$A = [1332] (4)$

它的矩陣的行是：

a_{1}=\left[\begin{array}{l}{1} \\ {3}\end{array}\right]

\quad
a_{2}=\left[\begin{array}{l}{3} \\ {2}\end{array}\right]

$a_{1} = [13] a_{2} = [32]$

對應於這些行對應的集合

S

$S$ 如圖 1 所示。對於二維矩陣，

S

$S$ 通常具有平行四邊形的形狀。在我們的例子中，行列式的值是

\left| A \right| = -7

$∣ A ∣ = - 7$ （可以使用本節後面顯示的公式計算），因此平行四邊形的面積為 7。（請自己驗證！）

在三維中，集合

S

$S$ 對應於一個稱為平行六面體的對象（一個有傾斜邊的三維框，這樣每個面都有一個平行四邊形）。行定義

S

$S$ 的

3×3

$3 \times 3$ 矩陣 S 的行列式的絕對值給出了平行六面體的三維體積。在更高的維度中，集合

S

$S$ 是一個稱為

n

$n$ 維平行體的對象。

CS229 斯坦福大學機器學習複習材料(數學基礎) – 線性代數

線性代數回顧與參考

1 基本概念和符號

1.1 基本符號

2 矩陣乘法

2.1 向量-向量乘法

2.2 矩陣-向量乘法

2.3 矩陣-矩陣乘法

3 操作及其性質

3.1 單位矩陣和對角矩陣

3.2 轉置

3.3 對稱矩陣

3.4 矩陣的跡

3.5 範數

3.6 線性相關性和秩

3.7 方陣的逆

3.8 正交矩陣

3.9 矩陣的值域和零空間

3.10 行列式

3.11 二次型和半正定矩陣

3.12 特徵值和特徵向量

3.13 對稱矩陣的特徵值和特徵向量

4.矩陣微積分

4.1 梯度

4.2 黑塞矩陣

4.3 二次函數和線性函數的梯度和黑塞矩陣

4.4 最小二乘法

4.5 行列式的梯度

4.6 特徵值優化

名詞索引

VirMach 便宜 VPS

QNews

CS229 斯坦福大學機器學習複習材料(數學基礎) – 線性代數

線性代數回顧與參考

1 基本概念和符號

1.1 基本符號

2 矩陣乘法

2.1 向量-向量乘法

2.2 矩陣-向量乘法

2.3 矩陣-矩陣乘法

3 操作及其性質

3.1 單位矩陣和對角矩陣

3.2 轉置

3.3 對稱矩陣

3.4 矩陣的跡

3.5 範數

3.6 線性相關性和秩

3.7 方陣的逆

3.8 正交矩陣

3.9 矩陣的值域和零空間

3.10 行列式

3.11 二次型和半正定矩陣

3.12 特徵值和特徵向量

3.13 對稱矩陣的特徵值和特徵向量

4.矩陣微積分

4.1 梯度

4.2 黑塞矩陣

4.3 二次函數和線性函數的梯度和黑塞矩陣

4.4 最小二乘法

4.5 行列式的梯度

4.6 特徵值優化

名詞索引

分享此文：

Related Posts

DockerFile構建鏡像

Qt項目之高亮關鍵字Python編輯器實現

CSS中content屬性的妙用

記一次 GitLab 的遷移過程

VirMach 便宜 VPS

QNews

熱門搜尋