CS229 斯坦福大学机器学习复习材料(数学基础) – 线性代数

2021 年 8 月 6 日
笔记

CS229 斯坦福大学机器学习复习材料(数学基础) – 线性代数

线性代数回顾与参考

线性代数回顾与参考

1 基本概念和符号

线性代数提供了一种紧凑地表示和运算“线性方程组”的方法。例如，考虑以下方程组：

4x_{\scriptscriptstyle 1} – 5x_{\scriptscriptstyle 2} = -13\\

-2x_{\scriptscriptstyle 1} + 3x_{\scriptscriptstyle 2} = 9.

$4 x_{1} - 5 x_{2} = - 13 - 2 x_{1} + 3 x_{2} = 9.$

这是两个方程和两个变量，正如你从高中代数中所知，你可以找到

x_1

$x_{1}$ 和

x_2

$x_{2}$ 的唯一解（除非方程以某种方式退化，例如，如果第二个方程只是第一个的倍数，但在上面的情况下，实际上只有一个唯一解）。在矩阵表示法中，我们可以更紧凑地表达：

Ax= b

$A x = b$

其中

A=\begin{bmatrix}

4 & -5 \\
-2 & 3
\end{bmatrix},
b=\begin{bmatrix}
-13 \\
9
\end{bmatrix}.

$A = [4 - 2 - 5 3], b = [- 13 9] .$

我们可以看到，以这种形式分析线性方程有许多优点（包括明显的节省空间）。

1.1 基本符号

我们使用以下符号：

用
$A \in \Bbb{R}^{m \times n}$
$A \in R^{m \times n}$ 表示一个
$m$
$m$ 行
$n$
$n$ 列的矩阵，其中
$A$
$A$ 的各项都是实数。
用
$\boldsymbol{x} \in \Bbb{R}^{n}$
$x \in R^{n}$ 表示具有
$n$
$n$ 个元素的向量。按照惯例，
$n$
$n$ 维向量。通常被认为是
$n$
$n$ 行
$1$
$1$ 列的矩阵，称为列向量。如果我们想表示一个行向量: 具有
$1$
$1$ 行和
$n$
$n$ 列的矩阵 – 我们通常写
$\boldsymbol{x}^T$
$x^{T}$ （这里
$\boldsymbol{x}^T$
$x^{T}$ 表示
$\boldsymbol{x}$
$x$ 的转置，我们稍后将定义它）。
用
$x_i$
$x_{i}$ 表示向量
$\boldsymbol{x}$
$x$ 的第
$i$
$i$ 个元素：

$\boldsymbol{x}=\begin{bmatrix}$
x_1 \\
x_2 \\
\vdots \\
x_n
\end{bmatrix}.
$x = ⎣ ⎡ x_{1} x_{2} ⋮ x_{n} ⎦ ⎤ .$
我们用符号
$a_{\scriptscriptstyle ij}$
$a_{ij}$ (or
$A_{ij}$
$A_{ij}$ ,
$A_{i,j}$
$A_{i, j}$ )表示
$A$
$A$ 的第
$i$
$i$ 行第
$j$
$j$ 列元素：

$A=\begin{bmatrix}$
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} & a_{m2} & \cdots & a_{mn}
\end{bmatrix}.
$A = ⎣ ⎡ a_{11} a_{21} ⋮ a_{m 1} a_{12} a_{22} ⋮ a_{m 2} \dots \dots ⋱ \dots a_{1 n} a_{2 n} ⋮ a_{mn} ⎦ ⎤ .$
我们将
$A$
$A$ 的第
$j$
$j$ 列表示为
$a^j$
$a^{j}$ or
$A_{:,j}$
$A_{:, j}$ ：

$A = \begin{bmatrix}$
\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
a^1 & a^2 & \cdots & a^n \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}.
$A = ⎣ ⎡ | a^{1} | | a^{2} | \dots | a^{n} | ⎦ ⎤ .$
我们将
$A$
$A$ 的第
$i$
$i$ 行表示为
$a_i^T$
$a_{i}^{T}$ or
$A_{i,:}$
$A_{i, :}$ ：

$A = \begin{bmatrix}$
\text{\textemdash} & a_1^T & \text{\textemdash} \\
\text{\textemdash} & a_2^T & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & a_m^T & \text{\textemdash} \\
\end{bmatrix}.
$A = ⎣ ⎡ — — — a_{1}^{T} a_{2}^{T} ⋮ a_{m}^{T} — — — ⎦ ⎤ .$
在许多情况下，将矩阵视为列向量或行向量的集合是非常重要和方便的。一般来说，在数学上(和概念上)向量级别上的操作比标量级别上的操作会更简洁。表示矩阵的列或行没有通用约定，因此你可以使用任何符号明确定义它。

2 矩阵乘法

矩阵

A \in \Bbb{R}^{m \times n}

$A \in R^{m \times n}$ 和矩阵

B \in \Bbb{R}^{n \times p}

$B \in R^{n \times p}$ 的乘积仍然是一个矩阵

C = AB \in \Bbb{R}^{m \times p}

$C = A B \in R^{m \times p}$ ，其中

C_{ij} = \displaystyle\sum_{k=1}^n {A_{ik}B_{kj}}

$C_{ij} = k = 1 \sum n A_{ik} B_{kj}$ .
请注意，为了使矩阵乘积存在，

A

$A$ 中的列数必须等于

B

$B$ 中的行数。有很多方法可以查看矩阵乘法，我们将从检查一些特殊情况开始。

2.1 向量-向量乘法

给两个向量

\boldsymbol{x},\boldsymbol{y} \in \Bbb{R}^n

$x, y \in R^{n}$ ,

\boldsymbol{x}^T \boldsymbol{y}

$x^{T} y$ 通常称为向量的内积或者点积，结果是个实数：

\boldsymbol{x}^T \boldsymbol{y} \in \Bbb{R} =

\begin{bmatrix}x_1 & x_2 & \cdots & x_n\end{bmatrix}
\begin{bmatrix}y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}
= \sum_{i=1}^n{x_iy_i}

$x^{T} y \in R = [x_{1} x_{2} \dots x_{n}] ⎣ ⎡ y_{1} y_{2} ⋮ y_{n} ⎦ ⎤ = i = 1 \sum n x_{i} y_{i}$

请注意，内积实际上只是矩阵乘法的特例。

\boldsymbol{x}^T \boldsymbol{y} = \boldsymbol{y}^T \boldsymbol{x}

$x^{T} y = y^{T} x$ 始终成立。
给定向量

\boldsymbol{x} \in \Bbb{R}^m , \boldsymbol{y} \in \Bbb{R}^n

$x \in R^{m}, y \in R^{n}$ (

m

$m$ 不一定等于

n

$n$ ),

\boldsymbol{x} \boldsymbol{y}^T \in \Bbb{R}^{m \times n}

$x y^{T} \in R^{m \times n}$ 叫向量外积，它是一个矩阵，由

(\boldsymbol{x} \boldsymbol{y}^T)_{ij} = x_iy_j

$(x y^{T})_{ij} = x_{i} y_{j}$ 组成，也就是(i.e.)：

\boldsymbol{x} \boldsymbol{y}^T \in \Bbb{R}^{m \times n}=

\begin{bmatrix}x_1 \\ x_2 \\ \vdots \\ x_m \end{bmatrix}
\begin{bmatrix}y_1 & y_2 & \cdots & y_n\end{bmatrix}=
\begin{bmatrix}
x_1y_1 & x_1y_2 & \cdots & x_1y_n \\
x_2y_1 & x_2y_2 & \cdots & x_2y_n \\
\vdots & \vdots & \ddots & \vdots \\
x_my_1 & x_my_2 & \cdots & x_my_n
\end{bmatrix}

$x y^{T} \in R^{m \times n} = ⎣ ⎡ x_{1} x_{2} ⋮ x_{m} ⎦ ⎤ [y_{1} y_{2} \dots y_{n}] = ⎣ ⎡ x_{1} y_{1} x_{2} y_{1} ⋮ x_{m} y_{1} x_{1} y_{2} x_{2} y_{2} ⋮ x_{m} y_{2} \dots \dots ⋱ \dots x_{1} y_{n} x_{2} y_{n} ⋮ x_{m} y_{n} ⎦ ⎤$

举一个外积如何使用的一个例子：让

\boldsymbol{1}\in \Bbb{R}^{n}

$1 \in R^{n}$ 表示一个

n

$n$ 维向量，其元素都等于 1，此外，考虑矩阵

A \in \Bbb{R}^{m \times n}

$A \in R^{m \times n}$ ，其列全部是某个向量

\boldsymbol{x} \in R^{m}

$x \in R^{m}$ 。我们可以使用外积紧凑地表示矩阵

A

$A$ :

A=\begin{bmatrix}

\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
x & x & \cdots & x \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}=
\begin{bmatrix}
x_{1} & x_{1} & \cdots & x_{1} \\
x_{2} & x_{2} & \cdots & x_{2} \\
\vdots & \vdots & \ddots & \vdots \\
x_{m} & x_{m} & \cdots & x_{m}
\end{bmatrix}=
\begin{bmatrix}x_1 \\ x_2 \\ \vdots \\ x_m \end{bmatrix}
\begin{bmatrix}1 & 1 & \cdots & 1\end{bmatrix}=\boldsymbol{x}\boldsymbol{1}^T

$A = ⎣ ⎡ | x | | x | \dots | x | ⎦ ⎤ = ⎣ ⎡ x_{1} x_{2} ⋮ x_{m} x_{1} x_{2} ⋮ x_{m} \dots \dots ⋱ \dots x_{1} x_{2} ⋮ x_{m} ⎦ ⎤ = ⎣ ⎡ x_{1} x_{2} ⋮ x_{m} ⎦ ⎤ [11 \dots 1] = x 1^{T}$

2.2 矩阵-向量乘法

给定矩阵

A \in \mathbb{R}^{m \times n}

$A \in R^{m \times n}$ ，向量

\boldsymbol{x} \in \mathbb{R}^{n}

$x \in R^{n}$ , 它们的积是一个向量

\boldsymbol{y} = A\boldsymbol{x} \in \mathbb{R}^{m}

$y = A x \in R^{m}$ 。有几种方法可以查看矩阵向量乘法。

如果我们按行写

A

$A$ ，那么我们可以表示

A\boldsymbol{x}

$A x$ 为：

\boldsymbol{y} = A\boldsymbol{x} =

\begin{bmatrix}
\text{\textemdash} & a_1^T & \text{\textemdash} \\
\text{\textemdash} & a_2^T & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & a_m^T & \text{\textemdash} \\
\end{bmatrix}\boldsymbol{x}=
\begin{bmatrix} a_1^T\boldsymbol{x} \\ a_2^T\boldsymbol{x} \\ \vdots \\ a_m^T\boldsymbol{x} \end{bmatrix}

$y = A x = ⎣ ⎡ — — — a_{1}^{T} a_{2}^{T} ⋮ a_{m}^{T} — — — ⎦ ⎤ x = ⎣ ⎡ a_{1}^{T} x a_{2}^{T} x ⋮ a_{m}^{T} x ⎦ ⎤$

换句话说，第

i

$i$ 个

y

$y$ 的元素是

A

$A$ 的第

i

$i$ 行和

\boldsymbol{x}

$x$ 的内积，即：

y_i=a_{i}^{T} \boldsymbol{x}

$y_{i} = a_{i}^{T} x$ 。

同样的，可以把

A

$A$ 写成列的方式，如下：

\boldsymbol{y} = A\boldsymbol{x} =

\begin{bmatrix}
\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
a^1 & a^2 & \cdots & a^n \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}
\begin{bmatrix}x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix}=
[a^1]x_1 + [a^2]x_2 + \cdots +[a^n]x_n
\label{1}\tag{1}

$y = A x = ⎣ ⎡ | a^{1} | | a^{2} | \dots | a^{n} | ⎦ ⎤ ⎣ ⎡ x_{1} x_{2} ⋮ x_{n} ⎦ ⎤ = [a^{1}] x_{1} + [a^{2}] x_{2} + \dots + [a^{n}] x_{n} (1)$

换句话说，

\boldsymbol{y}

$y$ 是

A

$A$ 的列的线性组合，其中线性组合的系数由

\boldsymbol{x}

$x$ 的元素给出。

到目前为止，我们一直是矩阵右乘一个列向量，但也可以是矩阵左乘一个行向量。如这样表示：

\boldsymbol{y}^T = \boldsymbol{x}^TA

$y^{T} = x^{T} A$ 其中

A \in \mathbb{R}^{m \times n}

$A \in R^{m \times n}$ ，

\boldsymbol{x} \in \mathbb{R}^{m}

$x \in R^{m}$ ，

\boldsymbol{y} \in \mathbb{R}^{n}

$y \in R^{n}$ 。和以前一样，我们可以用两种可行的方式表达

\boldsymbol{y}^T

$y^{T}$ ，这取决于我们是否根据行或列表达

A

$A$ .

首先，我们把

A

$A$ 用列表示：

\boldsymbol{y}^T = \boldsymbol{x}^TA = \boldsymbol{x}^T

\begin{bmatrix}
\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
a^1 & a^2 & \cdots & a^n \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}=
\begin{bmatrix}\boldsymbol{x}^Ta^1 & \boldsymbol{x}^Ta^2 & \cdots & \boldsymbol{x}^Ta^n \end{bmatrix}

$y^{T} = x^{T} A = x^{T} ⎣ ⎡ | a^{1} | | a^{2} | \dots | a^{n} | ⎦ ⎤ = [x^{T} a^{1} x^{T} a^{2} \dots x^{T} a^{n}]$

这表明

\boldsymbol{y}^T

$y^{T}$ 的第

i

$i$ 个元素等于

\boldsymbol{x}

$x$ 和

A

$A$ 的第

i

$i$ 列的内积。

最后，根据行表示

A

$A$ ，我们得到了向量-矩阵乘积的最终表示：

\begin{aligned}

\boldsymbol{y}^T &= \boldsymbol{x}^TA \\&=
\begin{bmatrix} x_1 & x_2 & \cdots & x_n \end{bmatrix}
\begin{bmatrix}
\text{\textemdash} & a_1^T & \text{\textemdash} \\
\text{\textemdash} & a_2^T & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & a_m^T & \text{\textemdash} \\
\end{bmatrix}\\&=
x_1\begin{bmatrix}\text{\textemdash} & a_1^T & \text{\textemdash}\end{bmatrix}+
x_2\begin{bmatrix}\text{\textemdash} & a_2^T & \text{\textemdash}\end{bmatrix}+ \cdots +
x_n\begin{bmatrix}\text{\textemdash} & a_n^T & \text{\textemdash}\end{bmatrix}
\end{aligned}

$y^{T} = x^{T} A = [x_{1} x_{2} \dots x_{n}] ⎣ ⎡ — — — a_{1}^{T} a_{2}^{T} ⋮ a_{m}^{T} — — — ⎦ ⎤ = x_{1} [— a_{1}^{T} —] + x_{2} [— a_{2}^{T} —] + \dots + x_{n} [— a_{n}^{T} —]$

所以我们看到

\boldsymbol{y}^T

$y^{T}$ 是

A

$A$ 的行的线性组合，其中线性组合的系数由

\boldsymbol{x}

$x$ 的元素给出。

2.3 矩阵-矩阵乘法

有了这些知识，我们现在可以看看四种不同的（当然是等价的）查看矩阵与矩阵乘法

C = AB

$C = A B$ 的方法。

首先，我们可以将矩阵-矩阵乘法视为一组向量-向量乘积。从定义中可以得出：最明显的观点是

C

$C$ 的(

i,j

$i, j$ )元素等于

A

$A$ 的第

i

$i$ 行和

B

$B$ 的的

j

$j$ 列的内积。如下所示：

C = AB =

\begin{bmatrix}
\text{\textemdash} & a_1^T & \text{\textemdash} \\
\text{\textemdash} & a_2^T & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & a_m^T & \text{\textemdash} \\
\end{bmatrix}
\begin{bmatrix}
\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
b^1 & b^2 & \cdots & b^p \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}=
\begin{bmatrix}
a_1b_1 & a_1b_2 & \cdots & a_1b_p \\
a_2b_1 & a_2b_2 & \cdots & a_2b_p \\
\vdots & \vdots & \ddots & \vdots \\
a_mb_1 & a_mb_2 & \cdots & a_mb_p
\end{bmatrix}

$C = A B = ⎣ ⎡ — — — a_{1}^{T} a_{2}^{T} ⋮ a_{m}^{T} — — — ⎦ ⎤ ⎣ ⎡ | b^{1} | | b^{2} | \dots | b^{p} | ⎦ ⎤ = ⎣ ⎡ a_{1} b_{1} a_{2} b_{1} ⋮ a_{m} b_{1} a_{1} b_{2} a_{2} b_{2} ⋮ a_{m} b_{2} \dots \dots ⋱ \dots a_{1} b_{p} a_{2} b_{p} ⋮ a_{m} b_{p} ⎦ ⎤$

这里的矩阵

A \in \Bbb{R}^{m \times n} , B \in \Bbb{R}^{n \times p}

$A \in R^{m \times n}, B \in R^{n \times p}$ ，向量

a_i \in \Bbb{R}^n , b^j \in \Bbb{R}^n

$a_{i} \in R^{n}, b^{j} \in R^{n}$ ，所以它们可以计算内积。当我们用行表示

A

$A$ 和用列表示

B

$B$ 时，这是最“自然”的表示。
另外，我们可以用列表示

A

$A$ ，用行表示

B

$B$ 。这种表示导致将

AB

$A B$ 解释为外积之和,这种表示则复杂得多。象征性地，

C = AB =

\begin{bmatrix}
\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
a^1 & a^2 & \cdots & a^n \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}
\begin{bmatrix}
\text{\textemdash} & b_1^T & \text{\textemdash} \\
\text{\textemdash} & b_2^T & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & b_n^T & \text{\textemdash} \\
\end{bmatrix}=
\sum_{i=1}^n{a^ib_i^T}

$C = A B = ⎣ ⎡ | a^{1} | | a^{2} | \dots | a^{n} | ⎦ ⎤ ⎣ ⎡ — — — b_{1}^{T} b_{2}^{T} ⋮ b_{n}^{T} — — — ⎦ ⎤ = i = 1 \sum n a^{i} b_{i}^{T}$

换句话说，

AB

$A B$ 等于所有的

A

$A$ 的第

i

$i$ 列和

B

$B$ 第

i

$i$ 行的外积的和。因此，在这种情况下，

a^i \in \mathbb{R}^ m

$a^{i} \in R^{m}$ 和

b_i \in \mathbb{R}^p

$b_{i} \in R^{p}$ ，外积

a^ib_i^T

$a^{i} b_{i}^{T}$ 的维度是

m×p

$m \times p$ ，与

C

$C$ 的维度一致。

其次，我们还可以将矩阵-矩阵乘法视为一组矩阵-向量乘法。如果我们把

B

$B$ 用列表示，我们可以将

C

$C$ 的列视为

A

$A$ 和

B

$B$ 的列(矩阵-向量)的乘积。如下所示：

C = AB = A

\begin{bmatrix}
\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
b^1 & b^2 & \cdots & b^p \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}=
\begin{bmatrix}
\text{\textbar} & \text{\textbar} & & \text{\textbar} \\
Ab^1 & Ab^2 & \cdots & Ab^p \\
\text{\textbar} & \text{\textbar} & & \text{\textbar}
\end{bmatrix}
\label{2}\tag{2}

$C = A B = A ⎣ ⎡ | b^{1} | | b^{2} | \dots | b^{p} | ⎦ ⎤ = ⎣ ⎡ | A b^{1} | | A b^{2} | \dots | A b^{p} | ⎦ ⎤ (2)$

这里

C

$C$ 的第

i

$i$ 列由矩阵-向量乘积给出，右边的向量为

c_i = Ab_i

$c_{i} = A b_{i}$ 。

最后，我们有类似的观点，我们用行表示

A

$A$ ，并将

C

$C$ 的行视为

A

$A$ 的行和

B

$B$ 之间的矩阵-向量乘积。如下所示：

C = AB =

\begin{bmatrix}
\text{\textemdash} & a_1^T & \text{\textemdash} \\
\text{\textemdash} & a_2^T & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & a_m^T & \text{\textemdash} \\
\end{bmatrix}B=
\begin{bmatrix}
\text{\textemdash} & a_1^TB & \text{\textemdash} \\
\text{\textemdash} & a_2^TB & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & a_m^TB & \text{\textemdash} \\
\end{bmatrix}

$C = A B = ⎣ ⎡ — — — a_{1}^{T} a_{2}^{T} ⋮ a_{m}^{T} — — — ⎦ ⎤ B = ⎣ ⎡ — — — a_{1}^{T} B a_{2}^{T} B ⋮ a_{m}^{T} B — — — ⎦ ⎤$

这里

C

$C$ 的第

i

$i$ 行由矩阵-向量乘积给出：

c_i^T = a_i^T B

$c_{i}^{T} = a_{i}^{T} B$ 。

将矩阵乘法剖析到如此大的程度似乎有点矫枉过正，特别是当所有这些观点都紧跟在我们在本节开头给出的初始定义（

C=AB

$C = A B$ ）之后。

这些不同方法的直接优势在于它们允许您在向量的级别/单位而不是标量上进行操作。为了完全理解线性代数而不会迷失在复杂的索引操作中，关键是操作尽可能大(向量而不是标量)的概念。^[1]

实际上所有的线性代数都是在处理某种矩阵乘法，多花一些时间对这里提出的观点进行直观的理解是非常必要的。

除此之外，你还应该了解一些更高级别的矩阵乘法的基本性质：

矩阵乘法结合律: $(AB)C = A(BC)$
矩阵乘法分配律: $A(B + C) = AB + AC$
矩阵乘法一般是不可交换的; 也就是说，通常 $AB \ne BA$

如果您不熟悉这些性质，请花点时间自己验证它们。例如，为了检查矩阵乘法的结合性，假设

A \in \mathbb{R}^ {m \times n}，

$A \in R^{m \times n} ，$

B \in \mathbb{R}^ {n \times p}

$B \in R^{n \times p}$ ，

C \in \mathbb{R}^ {p \times q}

$C \in R^{p \times q}$ 。注意

AB \in \mathbb{R}^ {m \times p}

$A B \in R^{m \times p}$ ，所以

(AB)C \in \mathbb{R}^ {m \times q}

$(A B) C \in R^{m \times q}$ 。类似地，

BC \in \mathbb{R}^ {n \times q}

$BC \in R^{n \times q}$ ，所以

A(BC) \in \mathbb{R}^ {m \times q}

$A (BC) \in R^{m \times q}$ 。因此，所得矩阵的维度一致。为了验证矩阵乘法的结合性，检查

(AB)C

$(A B) C$ 的(

i,j

$i, j$ )元素是否等于

A(BC)

$A (BC)$ 的(

i,j

$i, j$ )元素。我们可以使用矩阵乘法的定义直接验证这一点：

\begin{aligned} % aligned &= 等号对齐

((A B) C)_{ij} &= \sum_{k=1}^p{(AB)_{ik}C_{kj}} = \sum_{k=1}^p \Bigg( \sum_{l=1}^n{A_{il}B_{lk}} \Bigg) C_{kj} \\
&=\sum_{k=1}^p \Bigg( \sum_{l=1}^n{A_{il}B_{lk}C_{kj}}\Bigg) = \sum_{l=1}^n \Bigg( \sum_{k=1}^p{A_{il}B_{lk}C_{kj}}\Bigg)\\
&=\sum_{l=1}^nA_{il}\Bigg(\sum_{k=1}^p{B_{lk}C_{kj}}\Bigg) = \sum_{l=1}^n{A_{il}(BC)_{lj}} = (A(BC))_{ij}
\end{aligned}

$((A B) C)_{ij} = k = 1 \sum p (A B)_{ik} C_{kj} = k = 1 \sum p (l = 1 \sum n A_{i l} B_{l k}) C_{kj} = k = 1 \sum p (l = 1 \sum n A_{i l} B_{l k} C_{kj}) = l = 1 \sum n (k = 1 \sum p A_{i l} B_{l k} C_{kj}) = l = 1 \sum n A_{i l} (k = 1 \sum p B_{l k} C_{kj}) = l = 1 \sum n A_{i l} (BC)_{l j} = (A (BC))_{ij}$

这里，第一个和最后两个等式简单地使用了矩阵乘法的定义，第三个和第五个等式使用了标量乘法对加法的分配性质，第四个等式使用了标量加法的交换性和结合性。这种通过简化为简单标量性质来证明矩阵性质的技术会经常出现，因此请确保您熟悉它。

3 操作及其性质

在本节中，我们将介绍矩阵和向量的几种操作和性质。希望其中的大部分内容都可以帮您复习，此笔记可以作为参考。

3.1 单位矩阵和对角矩阵

单位矩阵用

I \in \Bbb{R}^{n \times n}

$I \in R^{n \times n}$ 表示，它是一个方阵，对角线的元素是 1，其余元素都是 0。可以这样表示：

I_{ij} =

\begin{cases}
1 & i=j \\
0 & i \neq j
\end{cases}.

$I_{ij} = {10 i = j i \neq = j .$

对于所有矩阵

A \in \mathbb{R}^ {m \times n}

$A \in R^{m \times n}$ ，有：

AI=A=IA

$A I = A = I A$
注意，在某种意义上，上面单位矩阵的表示法是不明确的，因为它没有指定

I

$I$ 的维数。通常，

I

$I$ 的维数是从上下文推断出来的，以便使矩阵乘法成为可能。例如，在上面的等式中，

AI = A

$A I = A$ 中的

I

$I$ 是

n\times n

$n \times n$ 矩阵，而

A = IA

$A = I A$ 中的

I

$I$ 是

m\times m

$m \times m$ 矩阵。

对角矩阵的非对角元素全为 0。对角阵通常表示为：

D=diag(d_1, d_2,\cdots, d_n)

$D = d ia g (d_{1}, d_{2}, \dots, d_{n})$ ，其中：

D_{ij} =

\begin{cases}
d_i & i=j \\
0 & i \neq j
\end{cases}.

$D_{ij} = {d_{i} 0 i = j i \neq = j .$

很明显，单位矩阵

I= diag(1, 1, \cdots , 1)

$I = d ia g (1, 1, \dots, 1)$ 。

3.2 转置

矩阵的转置是指翻转矩阵的行和列。给定一个矩阵

A \in \Bbb{R}^{m \times n}

$A \in R^{m \times n}$ ，它的转置

A^T \in \Bbb{R}^{n \times m}

$A^{T} \in R^{n \times m}$ ,其中的元素为：

(A^T)_{ij} = A_{ji}.

$(A^{T})_{ij} = A_{ji} .$

事实上，我们在描述行向量时已经使用了转置，因为列向量的转置自然是行向量。

转置有以下性质，且很容易验证：

$(A^T)^T = A$
$(AB)^T = B^TA^T$
$(A+B)^T = A^T + B^T$

3.3 对称矩阵

如果

A = A^T

$A = A^{T}$ ，那么方阵

A \in \Bbb{R}^{n \times n}

$A \in R^{n \times n}$ 是对称的。

元素满足 $a_{ij} = a_{ji} , \forall i,j$
$A = A^T$
对于任意方阵 $A$
对角矩阵都是对称矩阵

如果

A = -A^T

$A = - A^{T}$ ，那么它就是反对称的。

元素满足 $a_{ij} = -a_{ji} , \forall i,j$
$A,B$
若 $A$

很容易证明，对于任何矩阵

A \in \mathbb{R}^ {n \times n}

$A \in R^{n \times n}$ ，矩阵

A + A^ T

$A + A^{T}$ 是对称的，矩阵

A -A^T

$A - A^{T}$ 是反对称的^[2:1]。

由此得出，任意方矩阵

A \in \mathbb{R}^ {n \times n}

$A \in R^{n \times n}$ 可以表示为对称矩阵和反对称矩阵的和，所以：

A=\frac{1}{2}(A+A^T)+\frac{1}{2}(A-A^T)

$A = \frac{1}{2} (A + A^{T}) + \frac{1}{2} (A - A^{T})$

事实证明，对称矩阵在实践中用到很多，它们有很多很好的性质，我们很快就会看到它们。
通常将大小为

n

$n$ 的所有对称矩阵的集合表示为

\mathbb{S}^n

$S^{n}$ ，因此

A \in \mathbb{S}^n

$A \in S^{n}$ 意味着

A

$A$ 是对称的

n\times n

$n \times n$ 矩阵。

3.4 矩阵的迹

方矩阵

A \in \mathbb{R}^ {n \times n}

$A \in R^{n \times n}$ 的迹，表示为

\operatorname{tr} (A)

$tr (A)$ （或者

\operatorname{tr} A

$tr A$ ，括号显然是隐含的），是矩阵中对角元素的总和：

\operatorname{tr} A=\sum_{i=1}^{n} A_{i i}

$tr A = i = 1 \sum n A_{ii}$

如 CS229 讲义中所述，迹具有以下性质（如下所示）：

对于矩阵 $A \in \mathbb{R}^ {n \times n}$
对于矩阵 $A,B \in \mathbb{R}^ {n \times n}$
对于矩阵 $A \in \mathbb{R}^ {n \times n}$
对于矩阵 $A$
对于矩阵 $A$

我们给出第四个性质的证明。假设

A \in \mathbb{R}^ {m \times n}

$A \in R^{m \times n}$ 和

B \in \mathbb{R}^ {n \times m}

$B \in R^{n \times m}$ （因此

AB \in \mathbb{R}^ {m \times m}

$A B \in R^{m \times m}$ 是方阵）。观察到

BA \in \mathbb{R}^ {n \times n}

$B A \in R^{n \times n}$ 也是一个方阵，因此对它们进行迹的运算是有意义的。要证明

\operatorname{tr}AB = \operatorname{tr}BA

$tr A B = tr B A$ ，注意：

\begin{aligned}

\operatorname{tr} A B &=\sum_{i=1}^{m}(A B)_{i i}=\sum_{i=1}^{m}\left(\sum_{j=1}^{n} A_{i j} B_{j i}\right) \\
&=\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j} B_{j i}=\sum_{j=1}^{n} \sum_{i=1}^{m} B_{j i} A_{i j} \\
&=\sum_{j=1}^{n}\left(\sum_{i=1}^{m} B_{j i} A_{i j}\right)=\sum_{j=1}^{n}(B A)_{j j}=\operatorname{tr} B A
\end{aligned}

$tr A B = i = 1 \sum m (A B)_{ii} = i = 1 \sum m (j = 1 \sum n A_{ij} B_{ji}) = i = 1 \sum m j = 1 \sum n A_{ij} B_{ji} = j = 1 \sum n i = 1 \sum m B_{ji} A_{ij} = j = 1 \sum n (i = 1 \sum m B_{ji} A_{ij}) = j = 1 \sum n (B A)_{jj} = tr B A$

这里，第一个和最后两个等式使用了迹运算符和矩阵乘法的定义。重点在第四个等式,使用标量乘法的交换性来反转每个乘积中的项的顺序，以及标量加法的交换性和结合性来重新排列求和的顺序。

3.5 范数

向量的范数

\|x\|

$∥ x ∥$ 是非正式度量的向量的“长度” 。例如，我们有常用的欧几里德或

\ell_{2}

$ℓ_{2}$ 范数，

\|x\|_{2}=\sqrt{\sum_{i=1}^{n} x_{i}^{2}}

$∥ x ∥_{2} = i = 1 \sum n x_{i}^{2}$

注意：

\|x\|_{2}^{2}=x^{T} x

$∥ x ∥_{2}^{2} = x^{T} x$

更正式地，范数是满足 4 个性质的函数（

f : \mathbb{R}^{n} \rightarrow \mathbb{R}

$f : R^{n} \to R$ ）：

对于所有的 $x \in \mathbb{R}^ {n}$
当且仅当 $x = 0$
对于所有 $x \in \mathbb{R}^ {n}$
对于所有 $x,y \in \mathbb{R}^ {n}$

其他范数的例子，如：

\ell_1

$ℓ_{1}$ 范数：

\|x\|_{1}=\sum_{i=1}^{n}|x_{i}|

$∥ x ∥_{1} = i = 1 \sum n ∣ x_{i} ∣$

和

\ell_{\infty }

$ℓ_{\infty}$ 范数：

\|x\|_{\infty}=\max_{i}\left|x_{i}\right|

$∥ x ∥_{\infty} = i max ∣ x_{i} ∣$

事实上，到目前为止所提出的所有三个范数都是

\ell_p

$ℓ_{p}$ 范数族的例子，它们由实数

p \geq 1

$p \geq 1$ 参数化，并定义为：

\|x\|_{p}=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{1 / p}

$∥ x ∥_{p} = (i = 1 \sum n ∣ x_{i} ∣^{p})^{1/ p}$

也可以为矩阵定义范数，例如Frobenius范数:

\|A\|_{F}=\sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j}^{2}}=\sqrt{\operatorname{tr}\left(A^{T} A\right)}

$∥ A ∥_{F} = i = 1 \sum m j = 1 \sum n A_{ij}^{2} = tr (A^{T} A)$

还有很多其他范数，但它们超出了这个复习材料的范围。

3.6 线性相关性和秩

一个向量集合

\{ x_1,x_2, \cdots x_n \} \subset \mathbb{R}^m

${x_{1}, x_{2}, \dots x_{n}} \subset R^{m}$ ，如果没有向量可以表示为其余向量的线性组合，则称称该向量是线性无关的。相反，如果属于该组的一个向量可以表示为其余向量的线性组合，则称该向量是线性相关的。也就是说，如果：

x_{j}=\sum_{i=1,i \neq j}^{n} \alpha_{i} x_{i}

$x_{j} = i = 1, i \neq = j \sum n α_{i} x_{i}$

存在

\alpha_1,\cdots \alpha_{n} \in \mathbb{R}

$α_{1}, \dots α_{n} \in R$ ，那么向量

x_1,x_2, \cdots x_n

$x_{1}, x_{2}, \dots x_{n}$ 是线性相关的; 否则，向量是线性无关的。
另一种线性相关的描述（存在不全为零的数

\alpha_{i}

$α_{i}$ ，使得等式成立）：

\sum_{i=1}^{n} \alpha_{i} x_{i} = 0,\exists \alpha_i \neq 0

$i = 1 \sum n α_{i} x_{i} = 0, \exists α_{i} \neq = 0$

例如，向量：

x_{1}=

\begin{bmatrix}
1 \\
2 \\
3
\end{bmatrix} \quad
x_{2}=
\begin{bmatrix}
4 \\
1 \\
5
\end{bmatrix} \quad
x_{3}=
\begin{bmatrix}
2 \\
-3 \\
-1
\end{bmatrix}

$x_{1} = ⎣ ⎡ 123 ⎦ ⎤ x_{2} = ⎣ ⎡ 415 ⎦ ⎤ x_{3} = ⎣ ⎡ 2 - 3 - 1 ⎦ ⎤$

是线性相关的，因为：

x_3=-2x_1+x_2

$x_{3} = - 2 x_{1} + x_{2}$ 。

矩阵

A \in \mathbb{R}^{m \times n}

$A \in R^{m \times n}$ 的列秩是构成线性无关集合的

A

$A$ 的最大列子集的大小。由于术语的多样性，这通常简称为

A

$A$ 的线性无关列的数量。同样，行秩是构成线性无关集合的

A

$A$ 的最大行数。
对于任何矩阵

A \in \mathbb{R}^{m \times n}

$A \in R^{m \times n}$ ，事实证明

A

$A$ 的列秩等于

A

$A$ 的行秩（尽管我们不会证明这一点），因此两个量统称为

A

$A$ 的秩，用

\text{rank}(A)

$rank (A)$ 表示。以下是秩的一些基本性质：

对于 $A \in \mathbb{R}^{m \times n}$
对于 $A \in \mathbb{R}^{m \times n}$
对于 $A \in \mathbb{R}^{m \times n}$
对于 $A,B \in \mathbb{R}^{m \times n}$

3.7 方阵的逆

方阵

A \in \mathbb{R}^{n \times n}

$A \in R^{n \times n}$ 的逆表示为

A^{-1}

$A^{- 1}$ ，并且是这样的唯一矩阵:

A^{-1}A=I=AA^{-1}

$A^{- 1} A = I = A A^{- 1}$

请注意，并非所有矩阵都具有逆。例如，非方形矩阵根据定义没有逆(存在伪逆^[4])。然而，对于一些方形矩阵

A

$A$ ，

A^{-1}

$A^{- 1}$ 也可能不存在。特别是，如果

A^{-1}

$A^{- 1}$ 存在，我们说

A

$A$ 是可逆的或非奇异的，否则就是不可逆或奇异的^[5]。

为了使方阵 A 具有逆

A^{-1}

$A^{- 1}$ ，则

A

$A$ 必须是满秩。我们很快就会发现，除了满秩之外，还有许多其它的充分必要条件。
以下是逆的性质; 假设

A,B \in \mathbb{R}^{n \times n}

$A, B \in R^{n \times n}$ ，而且是非奇异的：

$(A^{-1})^{-1} = A$
$(AB)^{-1} = B^{-1}A^{-1}$
$(A^{-1})^{T} =(A^{T})^{-1}$

作为如何使用逆的示例，考虑线性方程组，

Ax = b

$A x = b$ ，其中

A \in \mathbb{R}^{n \times n}

$A \in R^{n \times n}$ ，

x,b\in \mathbb{R}

$x, b \in R$ ，如果

A

$A$ 是非奇异的（即可逆的），那么

x = A^{-1}b

$x = A^{- 1} b$ 。（如果

A \in \mathbb{R}^{m \times n}

$A \in R^{m \times n}$ ，不是方阵，这公式还有用吗？ – 伪逆^[4:1]）

3.8 正交矩阵

如果

x^Ty=0

$x^{T} y = 0$ ，则两个向量

x,y\in \mathbb{R}^{n}

$x, y \in R^{n}$ 是正交的。如果

\|x\|_2=1

$∥ x ∥_{2} = 1$ ，则向量

x\in \mathbb{R}^{n}

$x \in R^{n}$ 被归一化。如果一个方阵

U\in \mathbb{R}^{n \times n}

$U \in R^{n \times n}$ 的所有列彼此正交并被归一化，则方阵

U

$U$ 是正交矩阵（注意在讨论向量与矩阵时的意义不一样，两个向量正交只需要内积为 0，正交矩阵是各列相互正交并且被归一化）。

它可以从正交性和正态性的定义中得出:

U^ TU = I = U U^T

$U^{T} U = I = U U^{T}$

换句话说，正交矩阵的逆是其转置。注意，如果

U

$U$ 不是方阵，即，

U\in \mathbb{R}^{m \times n}, n < m

$U \in R^{m \times n}, n < m$ ，但其列仍然是正交的，则

U^TU = I

$U^{T} U = I$ ，但是

UU^T \neq I

$U U^{T} \neq = I$ 。所以正交矩阵一定是方阵。

正交矩阵的另一个好的特性是在具有正交矩阵的向量上操作不会改变其欧几里德范数，即(i.e.):

\|U x\|_{2}=\|x\|_{2}

\label{3}\tag{3}

$∥ Ux ∥_{2} = ∥ x ∥_{2} (3)$

对于任何

x\in \mathbb{R}^n

$x \in R^{n}$ ,

U\in \mathbb{R}^{n \times n}

$U \in R^{n \times n}$ 是正交矩阵。

3.9 矩阵的值域和零空间

张成一个向量集合

\{ x_1,x_2, \cdots x_n \}

${x_{1}, x_{2}, \dots x_{n}}$ 可以表示为一个向量集合

\{ x_1, \cdots x_n \}

${x_{1}, \dots x_{n}}$ 的所以线性组合：

\operatorname{span}(\{x_1, \cdots x_n \}) = \Bigg\{v:v=\sum_{i=1}^n{\alpha_i x_i}, \alpha_i \in \Bbb{R} \Bigg\}

$span ({x_{1}, \dots x_{n}}) = {v : v = i = 1 \sum n α_{i} x_{i}, α_{i} \in R}$

可以看到，如果

\{x_{1}, \cdots x_{n}\}

${x_{1}, \dots x_{n}}$ 是一组

n

$n$ 个线性无关的向量，其中每个

x_i \in \mathbb{R}^{n}

$x_{i} \in R^{n}$ ，则

\text{span}(\{x_{1}, \ldots x_{n}\})=\mathbb{R}^{n}

$span ({x_{1}, \dots x_{n}}) = R^{n}$ 。换句话说，任何向量

v\in \mathbb{R}^{n}

$v \in R^{n}$ 都可以写成

x_1

$x_{1}$ 到

x_n

$x_{n}$ 的线性组合。
向量

y\in \mathbb{R}^{m}

$y \in R^{m}$ 投影到

\{x_{1}, \ldots x_{n}\}

${x_{1}, \dots x_{n}}$ 所张成的空间（这里我们假设

x_i \in \mathbb{R}^{m}

$x_{i} \in R^{m}$ ）得到向量

v \in \operatorname{span}(\{x_{1}, \ldots, x_{n}\})

$v \in span ({x_{1}, \dots, x_{n}})$ ，由欧几里德范数

\|v – y\|_2

$∥ v - y ∥_{2}$ 可以得知，这样

v

$v$ 尽可能接近

y

$y$ 。

我们将投影表示为

\operatorname{Proj}\left(y ;\left\{x_{1}, \ldots x_{n}\right\}\right)

$Proj (y; {x_{1}, \dots x_{n}})$ ，并且可以将其正式定义为:

\operatorname{Proj}\left(y ;\left\{x_{1}, \ldots x_{n}\right\}\right)=\operatorname{argmin}_{v \in \operatorname{span}\left(\left\{x_{1}, \ldots, x_{n}\right\}\right)}\|y-v\|_{2}

$Proj (y; {x_{1}, \dots x_{n}}) = argmin_{v \in span ({x_{1}, \dots, x_{n}})} ∥ y - v ∥_{2}$

矩阵

A\in \mathbb{R}^{m \times n}

$A \in R^{m \times n}$ 的值域（有时也称为列空间），表示为

\mathcal{R}(A)

$R (A)$ ，是

A

$A$ 的列所张成的空间。换句话说，

\mathcal{R}(A)=\left\{v \in \mathbb{R}^{m} : v=A x, x \in \mathbb{R}^{n}\right\}

$R (A) = {v \in R^{m} : v = A x, x \in R^{n}}$

做一些技术性的假设（即

A

$A$ 是满秩且

n <m

$n < m$ ），向量

y \in \mathbb{R}^{m}

$y \in R^{m}$ 到

A

$A$ 的值域的投影由下式给出:

\operatorname{Proj}(y ; A)=\operatorname{argmin}_{v \in \mathcal{R}(A)}\|v-y\|_{2}=A\left(A^{T} A\right)^{-1} A^{T} y

$Proj (y; A) = argmin_{v \in R (A)} ∥ v - y ∥_{2} = A (A^{T} A)^{- 1} A^{T} y$

这个最后的方程应该看起来非常熟悉，因为它几乎与我们在课程中（我们将很快再次得出）得到的公式：与参数的最小二乘估计一样。
看一下投影的定义，显而易见，这实际上是我们在最小二乘问题中最小化的目标（除了范数的平方这里有点不一样，这不会影响找到最优解），所以这些问题自然是非常相关的。

当

A

$A$ 只包含一列时，

a \in \mathbb{R}^{m}

$a \in R^{m}$ ，这给出了向量投影到一条线上的特殊情况：

\operatorname{Proj}(y ; a)=\frac{a a^{T}}{a^{T} a} y

$Proj (y; a) = \frac{a a ^{T}}{a ^{T} a} y$

一个矩阵

A\in \mathbb{R}^{m \times n}

$A \in R^{m \times n}$ 的零空间

\mathcal{N}(A)

$N (A)$ 是所有乘以

A

$A$ 时等于 0 向量的集合，即：

\mathcal{N}(A)=\left\{x \in \mathbb{R}^{n} : A x=0\right\}

$N (A) = {x \in R^{n} : A x = 0}$

注意，

\mathcal{R}(A)

$R (A)$ 中的向量的大小为

m

$m$ ，而

\mathcal{N}(A)

$N (A)$ 中的向量的大小为

n

$n$ ，因此

\mathcal{R}(A^T)

$R (A^{T})$ 和

\mathcal{N}(A)

$N (A)$ 中的向量的大小均为

\mathbb{R}^{n}

$R^{n}$ 。事实上，还有很多例子。证明：

\left\{w : w=u+v, u \in \mathcal{R}\left(A^{T}\right), v \in \mathcal{N}(A)\right\}=\mathbb{R}^{n} \text { and } \mathcal{R}\left(A^{T}\right) \cap \mathcal{N}(A)=\{\mathbf{0}\}

${w : w = u + v, u \in R (A^{T}), v \in N (A)} = R^{n} and R (A^{T}) \cap N (A) = {0}$

换句话说，

\mathcal{R}(A^T)

$R (A^{T})$ 和

\mathcal{N}(A)

$N (A)$ 是不相交的子集，它们一起跨越

\mathbb{R}^{n}

$R^{n}$ 的整个空间。这种类型的集合称为正交补，我们用

\mathcal{R}(A^T)= \mathcal{N}(A)^{\perp}

$R (A^{T}) = N (A)^{⊥}$ 表示。

3.10 行列式

一个方阵

A \in \mathbb{R}^{n \times n}

$A \in R^{n \times n}$ 的行列式是函数

\text {det}

$det$ ：

\mathbb{R}^{n \times n} \rightarrow \mathbb{R}^{n}

$R^{n \times n} \to R^{n}$ ，并且表示为

\left| A \right|

$∣ A ∣$ 或者

\text{det} A

$det A$ （有点像迹运算符，我们通常省略括号）。在代数上，我们可以写出 A 的行列式的明确公式，但不幸的是，这并不能直观地理解它的含义。相反，我们将从提供行列式的几何解释开始，然后访问其一些特定的代数性质。

给定一个矩阵：

\begin{bmatrix}

\text{\textemdash} & a_1^T & \text{\textemdash} \\
\text{\textemdash} & a_2^T & \text{\textemdash} \\
& \vdots & \\
\text{\textemdash} & a_n^T & \text{\textemdash} \\
\end{bmatrix}

$⎣ ⎡ — — — a_{1}^{T} a_{2}^{T} ⋮ a_{n}^{T} — — — ⎦ ⎤$

考虑通过采用

A

$A$ 行向量

a_{1}, \ldots a_{n}\in \mathbb{R}^{n}

$a_{1}, \dots a_{n} \in R^{n}$ 的所有可能线性组合形成的点

S \subset \mathbb{R}^{n}

$S \subset R^{n}$ 的集合，其中线性组合的系数都在 0 和 1 之间; 也就是说，集合

S

$S$ 是

\text{span}(\{a_{1}, \ldots a_{n}\})

$span ({a_{1}, \dots a_{n}})$ 受到系数

\alpha_{1}, \ldots \alpha_{n}

$α_{1}, \dots α_{n}$ 的限制的线性组合，

\alpha_1, \cdots ,\alpha_n

$α_{1}, \dots, α_{n}$ 满足

0 \leq \alpha_{i} \leq 1, i=1, \ldots, n

$0 \leq α_{i} \leq 1, i = 1, \dots, n$ 。从形式上看，

S=\left\{v \in \mathbb{R}^{n} : v=\sum_{i=1}^{n} \alpha_{i} a_{i} \text { where } 0 \leq \alpha_{i} \leq 1, i=1, \ldots, n\right\}

$S = {v \in R^{n} : v = i = 1 \sum n α_{i} a_{i} where 0 \leq α_{i} \leq 1, i = 1, \dots, n}$

事实证明，

A

$A$ 的行列式的绝对值是对集合

S

$S$ 的“体积”的度量^[6]。

比方说：一个

2 \times2

$2 \times 2$ 的矩阵(4)：

A=

\begin{bmatrix}
1 & 3 \\
3 & 2
\end{bmatrix}
\label{4}\tag{4}

$A = [1332] (4)$

它的矩阵的行是：

a_{1}=\left[\begin{array}{l}{1} \\ {3}\end{array}\right]

\quad
a_{2}=\left[\begin{array}{l}{3} \\ {2}\end{array}\right]

$a_{1} = [13] a_{2} = [32]$

对应于这些行对应的集合

S

$S$ 如图 1 所示。对于二维矩阵，

S

$S$ 通常具有平行四边形的形状。在我们的例子中，行列式的值是

\left| A \right| = -7

$∣ A ∣ = - 7$ （可以使用本节后面显示的公式计算），因此平行四边形的面积为 7。（请自己验证！）

在三维中，集合

S

$S$ 对应于一个称为平行六面体的对象（一个有倾斜边的三维框，这样每个面都有一个平行四边形）。行定义

S

$S$ 的

3×3

$3 \times 3$ 矩阵 S 的行列式的绝对值给出了平行六面体的三维体积。在更高的维度中，集合

S

$S$ 是一个称为

n

$n$ 维平行体的对象。

CS229 斯坦福大学机器学习复习材料(数学基础) – 线性代数

线性代数回顾与参考

1 基本概念和符号

1.1 基本符号

2 矩阵乘法

2.1 向量-向量乘法

2.2 矩阵-向量乘法

2.3 矩阵-矩阵乘法

3 操作及其性质

3.1 单位矩阵和对角矩阵

3.2 转置

3.3 对称矩阵

3.4 矩阵的迹

3.5 范数

3.6 线性相关性和秩

3.7 方阵的逆

3.8 正交矩阵

3.9 矩阵的值域和零空间

3.10 行列式

3.11 二次型和半正定矩阵

3.12 特征值和特征向量

3.13 对称矩阵的特征值和特征向量

4.矩阵微积分

4.1 梯度

4.2 黑塞矩阵

4.3 二次函数和线性函数的梯度和黑塞矩阵

4.4 最小二乘法

4.5 行列式的梯度

4.6 特征值优化

名词索引

VirMach 便宜 VPS

QNews

CS229 斯坦福大学机器学习复习材料(数学基础) – 线性代数

线性代数回顾与参考

1 基本概念和符号

1.1 基本符号

2 矩阵乘法

2.1 向量-向量乘法

2.2 矩阵-向量乘法

2.3 矩阵-矩阵乘法

3 操作及其性质

3.1 单位矩阵和对角矩阵

3.2 转置

3.3 对称矩阵

3.4 矩阵的迹

3.5 范数

3.6 线性相关性和秩

3.7 方阵的逆

3.8 正交矩阵

3.9 矩阵的值域和零空间

3.10 行列式

3.11 二次型和半正定矩阵

3.12 特征值和特征向量

3.13 对称矩阵的特征值和特征向量

4.矩阵微积分

4.1 梯度

4.2 黑塞矩阵

4.3 二次函数和线性函数的梯度和黑塞矩阵

4.4 最小二乘法

4.5 行列式的梯度

4.6 特征值优化

名词索引

分享此文：

Related Posts

tomcat 缓存导致的严重问题

Linux的挖矿木马病毒清除（kswapd0进程）

CSS中content属性的妙用

记一次 GitLab 的迁移过程

VirMach 便宜 VPS

QNews

热门搜寻