又开新坑了,不过把线代重学一遍的目标其实早已有之。终于清理完大作业,也能有些余裕来好好看书了。参考的教材是Gilbert Strang的Introduction to Linear Algebra,定位是写给工科类学生的教材。虽然有些地方可能追求直观,省略了一些严格的证明,也并不总是能提供易于理解的引入动机,但至少比某紫皮书好多了。

前面的部分在看书的时候没留下笔记,这里直接从投影开始。

投影的引入

对于二维平面的向量而言,将向量$\overrightarrow{OA}$投影到向量$\overrightarrow{OB}$上,相当于过$A$作$OB$的垂线$AP$,得到$\overrightarrow{OA}$在$\overrightarrow{OB}$上的分量$\overrightarrow{OP}$,该分量能够用$\overrightarrow{OB}$的数乘表示,且剩余部分与$\overrightarrow{OB}$垂直。

在$n$​​维空间中,我们考虑对投影作更一般的定义。对于向量$\mathbf{b}$​​和向量空间$\mathbf{A}$​​,将$\mathbf{b }$​​分解为投影$\mathbf{p}$​​和残差$\mathbf{e}$​​两部分,使得$\mathbf{p}$​​落在向量空间$\mathbf{A}$​​内,且$\mathbf{e}$​​与$\mathbf{A}$​​满足正交关系,其中$\mathbf{A}$​​​由矩阵列向量张成的空间表示。直观上来看,我们尽可能地在给定向量空间的能力范围内表示了被投影的向量。其关系可以表示如下:

向量$\mathbf{p}$​落在向量空间$\mathbf{A}$​内,因此又可以表示为:

由于$\mathbf{b}$和$\mathbf{p}$维度相同,都是$k\times 1$的列向量,所以,我们也希望找到一个维度为$k\times k$的投影矩阵$\mathbf{P}$​​,使得:

下面将给出投影$\mathbf{p}$和投影矩阵$\mathbf{P}$的推导过程。

投影与投影矩阵的推导

我们用$\mathbf{Ax}$​表示向量$\mathbf{p}$​,由残差$\mathbf{e}$​和向量空间的正交关系,我们得到:

等号左边拆分后移项,得到:

假定$\mathbf{A}^\mathrm{T}\mathbf{A}$​可逆,等式两边同时乘以其逆:

两边乘以$\mathbf{A}$,我们就得到了$\mathbf{p}$的表达式:

将等式右边$\mathbf{b}$的左侧提取出来,就得到了投影矩阵的表达式:

推导过程至此结束。如果向量空间仅包含一个列向量,上式结果可以进一步改写为向量的点乘和数乘,这里不再列举。

直观理解与其他性质

这里主要关注投影矩阵$\mathbf{P}$的一些直观理解和性质。

首先,注意到在上文推导过程中,我们要求$\mathbf{A}^\mathrm{T}\mathbf{A}$可逆。直观上来看,我们可以想象一种情形:$\mathbf{A}$包括了线性相关的多个列向量,当我们列出方程,希望用$\mathbf{A}$的线性组合表示投影时,方程显然没有唯一解。不难证明,$\mathbf{A}^\mathrm{T}\mathbf{A}$可逆当且仅当$\mathbf{A}$的列向量线性无关。解决这个问题以后,我们再看看其他的性质。

$\mathbf{P}$​包含的列向量所张成的向量空间和$\mathbf{A}$​相同。直观上来看,$\mathbf{Pb}$​相当于列向量的线性组合,由于$\mathbf{p}$​总是落在向量空间$\mathbf{A}$​的范围内,因此$\mathbf{P}$​至少是$\mathbf{A}$​的子空间;而且,对于$\mathbf{A}$​内的任意一个向量$\mathbf{a}$​,我们都能任意地找到与$\mathbf{A}$​正交的$\mathbf{e}$​,使得$\mathbf{a} = \mathbf{P}(\mathbf{b} + \mathbf{e})$​,也就是说,我们能用$\mathbf{P}$​的线性组合表示$\mathbf{a}$​,因此$\mathbf{A}$​也是$\mathbf{P}$​的子空间。

接着讨论一些运算上的性质。不难发现,$\mathbf{P}^2 = \mathbf{P}$,这在直观上也很容易理解:$\mathbf{P}$作用于向量$\mathbf{b}$,已经得到了$\mathbf{A}$的线性表示;对于新的向量$\mathbf{p}$而言,$\mathbf{e} = \mathbf{0}$,左乘$\mathbf{P}$并不会带来任何改变。另外,由$\mathbf{P}$表达式的对称性,也不难推导$\mathbf{P}^\mathrm{T} = \mathbf{P}$。

最后,如果将满足$\mathbf{P}^2 = \mathbf{P}$且$\mathbf{P}^\mathrm{T} = \mathbf{P}$的矩阵$\mathbf{P}$定义为投影矩阵,我们会发现$\mathbf{I} - \mathbf{P}$也是投影矩阵。事实上,如果$\mathbf{A}$和$\mathbf{B}$是线性互补的两个子空间,且$\mathbf{P}$是$\mathbf{A}$对应的投影矩阵,那么$\mathbf{I} - \mathbf{P}$也是$\mathbf{B}$的投影矩阵,并且$\mathbf{p}$投影到$\mathbf{A}$的残差部分正是$\mathbf{p}$到$\mathbf{B}$的投影,因为:

由此,$\mathbf{p}$能够完全由两个投影的加和表示了。