(TO BE CONTINUE.)

矩阵的定义

$$ \mathbf{A} = \left[\begin{matrix} a_{1,1} &a_{2,1} &\cdots &a_{n,1} \\ a_{1,2} &a_{2,2} &\cdots &a_{n,2} \\ \vdots &\vdots &\ddots &\vdots \\ a_{1,m} &a_{2,m} &\cdots &a_{n,m} \\ \end{matrix}\right] $$

如上所示,将 $m \times n$ 个元素排成 $m$ 行 $n$ 列的形状即为 矩阵(Matrix)。若 $m=n$,则称该矩阵为 方阵(Square Matrix)。

矩阵的属性与操作

转置

矩阵的 转置(Transpose)指的是将 $m \times n$ 维矩阵 $\mathbf{A}$ 的横行写为纵列、纵列写为横行的结果,记为 $\mathbf{A}^\mathrm{T}$,即其维度为 $n \times m$,并且对于任意 $1 \le i \le m$、$1 \le j \le n$,都有 $$ \mathbf{A}_{i,j}^\mathrm{T} = A_{j,i} $$

举个例子: $$ \mathbf{A} = \left[\begin{matrix} 1 &2 \\ 3 &4 \\ 5 &6 \\ \end{matrix}\right], \mathbf{A}^\mathrm{T} = \left[\begin{matrix} 1 &3 &5 \\ 2 &4 &6 \\ \end{matrix}\right] $$ 对于矩阵 $\mathbf{A}$、$\mathbf{B}$、标量 $c$,矩阵转置有如下性质:

  • $(\mathbf{A}^\mathrm{T})^\mathrm{T} = \mathbf{A}$,转置的转置等于自身。

  • $(\mathbf{A} + \mathbf{B})^\mathrm{T} = \mathbf{A}^\mathrm{T} + \mathbf{B}^\mathrm{T}$。

  • $c(\mathbf{A}^\mathrm{T}) = c\mathbf{A}^\mathrm{T}$。

  • $(\mathbf{A}\mathbf{B})^\mathrm{T} = \mathbf{B}^\mathrm{T} \mathbf{A}^\mathrm{T}$,要求矩阵 $\mathbf{A}$ 是可逆矩阵

  • $\det{(\mathbf{A}^\mathrm{T})} = \det{(\mathbf{A})}$,转置的行列式的值等于自身行列式的值。

主对角线、迹

主对角线(Main Diagonal)指的是 矩阵 中横纵坐标相同的所有元素,即: $$ \{\mathbf{A}_{i,j} | i=j\} $$

主对角线的所有元素的和称为 (Trace):

$$ \operatorname{tr}(\mathbf{A}) = \sum_{i=j} \mathbf{A}_{i,j} $$

举个具体例子:

$$ \mathbf{A} = \left[\begin{matrix} \color{red}{1} &2 &3 &4 \\ 5 &\color{red}{6} &7 &8 \\ 9 &1 &\color{red}{2} &3 \\ \end{matrix}\right] $$

如上矩阵,红色元素记为矩阵 $\mathbf{A}$ 的主对角线,矩阵 $\mathbf{A}$ 的迹为 $\operatorname{Tr}(\mathbf{A})=1+6+2=9$。

(必须为方阵)

给定一个 $n$ 阶方阵 $\mathbf{A}$,若存在另一个 $n$ 阶方阵 $\mathbf{B}$ 使得 $\mathbf{A}\mathbf{B}=\mathbf{B}\mathbf{A}=\mathbf{I}$,其中 $\mathbf{I}$ 为 $n$ 阶单位矩阵,则称 $\mathbf{A}$ 是 可逆矩阵(Invertible Matrix)、非奇异方阵(Nonsingular Matrix),$\mathbf{B}$ 是 $\mathbf{A}$ 的 逆矩阵(Inverse Matrix);若不存在,则称 $\mathbf{A}$ 是 奇异方阵(Singular Matrix)。

对于可逆矩阵 $\mathbf{A}$、$\mathbf{B}$,常数 $\lambda$,具有以下性质:

  • $(\mathbf{A}^{-1})^{-1} = \mathbf{A}$,矩阵的逆矩阵的逆等于自身。

  • $(\lambda \mathbf{A})^{-1} = \frac{1}{\lambda}\mathbf{A}^{-1}$。

  • $(\mathbf{A}\mathbf{B})^{-1} = \mathbf{B}^{-1} \mathbf{A}^{-1}$。

  • $(\mathbf{A}^\mathrm{T})^{-1} = (\mathbf{A}^{-1})^\mathrm{T}$。

  • $\det{(\mathbf{A}^{-1})} = \frac{1}{\det{(\mathbf{A})}}$。

特征值、奇异值

有关矩阵的 特征值(Eigenvalue)、特征向量(Eigenvector)、特征值分解(Eigenvalue Decomposition)、奇异值(Singular Value)、奇异值分解(Singular Value Decomposition)等内容,参考本博客另外文章。

特殊矩阵

单位矩阵

(必须为方阵)

$n$ 阶 单位矩阵(Identity matrix)指的是主对角线上为 1、其余元素都是 0 的 $n \times n$ 方阵,记为 $\mathbf{I}$(或 $\mathbf{E}$、$\mathbf{1}$),如:

$$ \mathbf{I}_3 = \left[\begin{matrix} \color{red}{1} &0 &0 \\ 0 &\color{red}{1} &0 \\ 0 &0 &\color{red}{1} \\ \end{matrix}\right] $$ 单位矩阵有如下性质:

  • 单位矩阵的特征值都为 1,任何向量都是单位矩阵的特征向量。
  • 单位矩阵的行列式等于 1.
  • 单位矩阵的迹为 $n$。

对称矩阵

(必须为方阵)

对称矩阵(Symmetric Matrix)指的是其转置等于自身的 方阵,即 $$ \mathbf{A}^\mathrm{T} = \mathbf{A} $$

斜对称矩阵(Antisymmetric Matrix,也叫做 反对称矩阵)指的是其转置等于自身的负矩阵的方阵,即 $$ \mathbf{A}^\mathrm{T} = -\mathbf{A} $$

对称矩阵有如下性质:

  • 如果矩阵 $\mathbf{X}$ 是对称矩阵,那么 $\mathbf{A} \mathbf{X} \mathbf{A}^\mathrm{T}$ 也是对称矩阵。

三角矩阵、对角矩阵

(必须为方阵)

上三角矩阵(Upper Triangular Matrix)指的是主对角线左下方的元素全部为 0 的方阵,如: $$ \mathbf{A} = \left[\begin{matrix} 1 &2 &3 \\ \color{red}{0} &4 &5 \\ \color{red}{0} &\color{red}{0} &9 \\ \end{matrix}\right] $$ 类似地,下三角矩阵(Lower Triangular Matrix)指的是主对角线右上方的元素全部为 0 的方阵,如: $$ \mathbf{A} = \left[\begin{matrix} 1 &\color{red}{0} &\color{red}{0} \\ 2 &4 &\color{red}{0} \\ 3 &4 &9 \\ \end{matrix}\right] $$ 上三角矩阵跟下三角矩阵统称为 三角矩阵(Triangular Matrix)。

既是上三角矩阵、又是下三角矩阵的矩阵则被称为 对角矩阵(Diagonal matrix),即主对角线以外的元素全为 0 的方阵,如 $$ \mathbf{A} = \left[\begin{matrix} 1 &\color{red}{0} &\color{red}{0} \\ \color{red}{0} &4 &\color{red}{0} \\ \color{red}{0} &\color{red}{0} &9 \\ \end{matrix}\right] $$

另外,所有元素全部为 0 的矩阵则被称为 零矩阵(Zero Matrix)。

正交矩阵

正定矩阵、半正定矩阵

伴随矩阵

相似矩阵

设 $\mathbf{A}$、$\mathbf{B}$ 都是 $n$ 阶方阵,若存在可逆矩阵 $\mathbf{P}$ 使得 $$ \mathbf{P}^{-1} \mathbf{A} \mathbf{P} = \mathbf{B} $$ 则称 $\mathbf{B}$ 是 $\mathbf{A}$ 互为 相似矩阵(Similar Matrix),$\mathbf{P}$ 被称为 $\mathbf{A}$、$\mathbf{B}$ 之间的 相似变换矩阵

那么问题来了,相似矩阵哪里相似了?

事实上,方阵 $\mathbf{A}$ 既可以看成是两个 $n$ 维空间之间的换底操作,也可以理解为 $n$ 维空间内的一个线性变换,在向量 $\vec{v}$ 上施加线性变换 $\mathbf{A}$ 的结果是 $\mathbf{A}\vec{v}$,而相似矩阵之间的「相似」指的正是这两个矩阵所表示的线性变换操作是相同的(只是在不同的基上而已)

为了更好地解释,下面引用来自 马同学:如何理解相似矩阵? 的一张图:

相似矩阵

如上图所示,左边紫色的向量 $\vec{v}$ 与右边紫色的向量 $\vec{v'}$ 实际上是不同基底(红色和蓝色向量)下的同一个向量。

以中间虚线为界,左边采用了基底 $V_1:\{\vec{i},\vec{j}\}$,右边则采用了基底 $V_2:\{\vec{i'},\vec{j'}\}$。在不同的基底下,向量 $\vec{v}$ 有着不同的表示(即坐标)。我们可以通过变换 $\mathbf{P}$ 从右侧基底 $V_2$ 转换为左侧基底 $V_1$,通过变换 $\mathbf{P}^{-1}$ 从左侧基底 $V_1$ 转换为右侧基底 $V_2$。

那么当我们需要对 $V_2$ 基底下的向量 $\vec{v'}$ 施加线性变换 $\mathbf{B}$ 时,我们只需要用 $\mathbf{B}$(黄色)左乘 $\vec{v'}$ 即可,此时 $\vec{v'}$ 是 $V_2$ 基底下的向量,$\mathbf{B}$ 是 $V_2$ 基底下的变换,这很自然。

如果我们想在 $V_1$ 基底下同样的向量 $\vec{v}$ 做同样的线性变换时,我们则需要用 $\mathbf{A}$(黄色)左乘 $\vec{v}$ 即可,此时 $\vec{v}$ 是 $V_1$ 基底下的向量,$\mathbf{A}$ 是 $V_1$ 基底下的变换,这也很自然。

可实际上,$\mathbf{A}$ 跟 $\mathbf{B}$ 做的是同一个变换呀!

那么我在 $V_2$ 基底下对 $\vec{v'}$ 做 $\mathbf{B}$ 变换,不就相当于 ① 把 $\vec{v'}$ 通过 $\mathbf{P}$ 变换转为 $V_1$ 基底下的 $\vec{v}$ 向量,② 然后进行该基底下的 $\mathbf{A}$ 变换,③ 再通过 $\mathbf{P}$ 变换转为原来的 $V_2$ 基底吗?把这几个变换串起来: $$ \begin{aligned} \mathbf{P}^{-1} \mathbf{A} \mathbf{P} &= \mathbf{B} \\ \end{aligned} $$ Cooooool!

这就是相似矩阵 $\mathbf{A}$ 跟 $\mathbf{B}$ 的相似之处!他们实际上表示的是不同基底下的同一个线性变换!

可对角化矩阵

对于一个方阵 $\mathbf{A}$,如果该方阵相似于一个对角矩阵 $\mathbf{D}$(即存在一个可逆矩阵 $\mathbf{P}$ 使得 $\mathbf{P}^{-1} \mathbf{A} \mathbf{P}$ 是一个对角矩阵),那么 $\mathbf{A}$ 被称为 可对角化矩阵(Diagonalizable Matrix)。

这里对角化的含义是:找到一组新的基底,使得方阵 $\mathbf{A}$ 所表示的线性变换在新的基底下只是坐标轴方向上的伸缩变换(每个轴乘以一个不同的标量 $\lambda$)。

矩阵对角化之后有很多好处:

  • 对角化之后,特征值就是 $\mathbf{D}$ 主对角线上的元素,特征向量则是 $\mathbf{P}$ 的每一个列向量。
  • 对角矩阵表示的几何意义容易理解。
  • 对角矩阵表示的方程组易解。

酉矩阵

  • 实对称矩阵
  • Hessian矩阵
  • 伪逆

矩阵乘积

矩阵 x 矩阵

设 $\mathbf{A}$ 是 $m\times n$ 矩阵,$\mathbf{B}$ 是 $n\times p$ 矩阵,那么他们的矩阵乘积 $\mathbf{C} = \mathbf{A}\mathbf{B}$ 为 $m\times p$ 矩阵。具体来说,$\mathbf{A}$ 中每一行(一共 $m$ 行)与 $B$ 的每一列(一共 $p$ 列)的 $n$ 个数对应相乘,乘积的和作为 $\mathbf{C}$ 中的一个元素: $$ \mathbf{C}_{i,j} = \sum_{r=1}^n ( a_{i,1}b_{1,j} + a_{i,2}b_{2,j} + \cdots + a_{i,r}b_{r,j} ) $$

矩阵 x 向量

矩阵范数

先丢公式如下,后面再解释: $$ \begin{aligned} ||\mathbf{A}||_1 &= \max_j \sum_{i=1}^m |a_{i,j}| &\text{(1 范数;列和范数)} \\ ||\mathbf{A}||_2 &= \sqrt{\lambda} &\text{(2 范数;谱范数)} \\ ||\mathbf{A}||_\infty &= \max_i \sum_{j=1}^n |a_{i,j}| &\text{(}\infty{范数;行和范数)} \\ ||\mathbf{A}||_F &= (\sum_{i=1}^m \sum_{j=1}^n |a_{i,j}|^2)^{\frac{1}{2}} &\text{(F 范数)} \\ \end{aligned} $$

  • 1-范数(1-Norm):所有列向量的绝对值之和 的最大值,也称 列和范数
  • 2-范数(2-Norm):$\mathbf{A}^\mathrm{T}\mathbf{A}$ 的最大特征值(公式中的 $\lambda$)的算术平方根,也称 谱范数
  • 无穷范数(∞-Norm):所有行向量的绝对值之和 的最大值,也称 行和范数
  • F-范数(F-Norm,Frobenius Norm):所有元素的绝对值的平方和,再开算术平方根。

参考