Jordan 标准形理论

sys. / 2023-08-14 / 原文

原文发表于 \(\text{2022-06-22 00:18:50}\)。

我们知道，同一个线性变换在不同基下的表示矩阵满足如下关系

\[\sigma(\alpha_1, \ldots, \alpha_n)=(\alpha_1, \ldots, \alpha_n)A \]

\[\sigma(\beta_1, \ldots, \beta_n)=(\beta_1, \ldots, \beta_n)B \]

\[(\beta_1, \ldots, \beta_n)=(\alpha_1, \ldots, \alpha_n)P \]

\[B=P^{-1}AP \]

所以，我们总是想选取一组特别的基，使得该线性变换在这组基下的矩阵更简单。

我们从求解常系数线性微分方程组的过程中受到启发，逐阶求导的过程所明确的结构，让我们试图把矩阵化为循环变换的直和。接下来便是我们得到的一般方阵的最简形式—— Jordan 标准形。

幂零变换与循环变换

定义设 \(\sigma \in L(V)\)，若存在自然数 \(m\)，使得 \(\sigma^m=0\)，则称 \(\sigma\) 为幂零变换，最小的 \(m\) 称为幂零次数。

引理幂零变换特征值均为 \(0\)。

证明：\(\sigma^k \alpha=\lambda^k \alpha=0 \Rightarrow \lambda=0\)。

用矩阵来描述，\(A \in M_n\)，若 \(A^m=0\)，则称 \(A\) 为幂零矩阵。

定义设幂零变换 \(\sigma\)，若存在 \(\alpha \in V\)，使得 \(\sigma^{n-1}\alpha, \sigma^{n-2}\alpha\ldots, \sigma\alpha, \alpha\) 构成 \(V\) 的一组基，\(\sigma^n\alpha=0\)，则称 \(\sigma\) 是一个循环变换，\(\sigma^{n-1}\alpha, \sigma^{n-2}\alpha\ldots, \sigma\alpha, \alpha\) 称作循环基，由循环基生成的子空间叫循环子空间。

循环变换 \(\sigma\) 在 \(\sigma^{n-1}\alpha, \sigma^{n-2}\alpha\ldots, \sigma\alpha, \alpha\) 下的表示矩阵为

\[N=\begin{bmatrix}0 & 1 \\ & 0 & \ddots \\ & & \ddots & 1 \\ & & & 0\end{bmatrix} \]

称其为循环矩阵。

定理幂零变换可以分解为若干个循环变换的直和。

考虑次数为 \(m\) 的幂零变换 \(\sigma\)，记 \(W_i= \textrm{Im } \sigma^i\)。则有 \(W_{i+1} = \sigma(W_i)\)。故

\[\{0\} =W_m \subset W_{m-1} \subset \ldots \subset W_1 \subset W_0 = V \]

其中 \(W_{m-1}=\ker \sigma\)，取一组基 \(\varepsilon^{(m-1)}_1, \varepsilon^{(m-1)}_2, \ldots, \varepsilon^{(m-1)}_{p_{m-1}}\)。

可知存在 \(\varepsilon^{(m-2)}_i\) 使得 \(\sigma\varepsilon^{(m-2)}_i = \varepsilon^{(m-1)}_i\)。

并且在 \(W_{m-2}\) 中，向量组

\[\varepsilon_1^{(m-1)}, \varepsilon_2^{(m-1)}, \ldots, \varepsilon_{p_{m-1}}^{(m-1)}, \varepsilon_1^{(m-2)}, \varepsilon_2^{(m-2)}, \ldots, \varepsilon_{p_{m-1}}^{(m-2)} \]

线性无关。这是因为当

\[k_1\varepsilon_1^{(m-1)}+k_2\varepsilon_2^{(m-1)}+ \ldots+ k_{p_{m-1}}\varepsilon_{p_{m-1}}^{(m-1)}+q_1 \varepsilon_1^{(m-2)}+q_2 \varepsilon_2^{(m-2)}+\ldots+ q_{p_{m-1}}\varepsilon_{p_{m-1}}^{(m-2)}=0 \]

时，我们对其进行 \(\sigma\) 作用后，仅剩下

\[q_1 \varepsilon_1^{(m-1)}+q_2 \varepsilon_2^{(m-1)}+\ldots+ q_{p_{m-1}}\varepsilon_{p_{m-1}}^{(m-1)}=0 \]

而第 \(m-1\) 行，我们已经知道其线性无关了。故 \(q\) 均为 \(0\)，那 \(k\) 也均为 \(0\)。

将

\[\varepsilon_1^{(m-1)}, \varepsilon_2^{(m-1)}, \ldots, \varepsilon_{p_{m-1}}^{(m-1)}, \varepsilon_1^{(m-2)}, \varepsilon_2^{(m-2)}, \ldots, \varepsilon_{p_{m-1}}^{(m-2)} \]

扩充为 \(W_{m-2}\) 的一组基

\[\varepsilon_1^{(m-1)}, \varepsilon_2^{(m-1)}, \ldots, \varepsilon_{p_{m-1}}^{(m-1)}, \varepsilon_1^{(m-2)}, \varepsilon_2^{(m-2)}, \ldots, \varepsilon_{p_{m-1}}^{(m-2)}, \ldots, \varepsilon^{(m-2)}_{p_{m-2}} \]

我们总可以使扩充的基元素在 \(\ker \sigma\) 里。

因为 \(\sigma (W_{m-2})=W_{m-1}\)，新扩充的 \(\varepsilon_k^{(m-2)}\) 总有

\[\sigma\varepsilon_k^{(m-2)} =x_1\varepsilon_1^{(m-1)}+x_2\varepsilon_2^{(m-1)}+ \ldots+ x_{p_{m-1}}\varepsilon_{p_{m-1}}^{(m-1)}=x_1\sigma\varepsilon_1^{(m-2)}+x_2\sigma\varepsilon_2^{(m-2)}+ \ldots+ x_{p_{m-1}}\sigma\varepsilon_{p_{m-1}}^{(m-2)} \]

故

\(\sigma\left(\varepsilon_k^{(m-2)}-x_1\varepsilon_1^{(m-2)}-x_2\varepsilon_2^{(m-2)}- \ldots- x_{p_{m-1}}\varepsilon_{p_{m-1}}^{(m-2)}\right)=0\)

让其为新的基元素即可。

按照这样的方法，我们可以一步步构造，最终得到 \(V\) 的基

\[\begin{aligned}&\varepsilon_1^{(m-1)}, \varepsilon_2^{(m-1)}, \ldots, \varepsilon_{p_{m-1}}^{(m-1)} \\ &\varepsilon_1^{(m-2)}, \varepsilon_2^{(m-2)}, \ldots, \varepsilon_{p_{m-1}}^{(m-2)}, \ldots, \varepsilon^{(m-2)}_{p_{m-2}} \\ &\vdots \\ & \varepsilon^{(0)}_1,\varepsilon_2^{(0)}, \ldots, \varepsilon^{(0)}_{p_{m-2}}, \ldots, \varepsilon^{(0)}_{p_{m-3}}, \ldots, \varepsilon^{(0)}_{p_0}\end{aligned} \]

其中每一列从下往上被 \(\sigma\) 不断作用，最后变为 \(0\)。因此是一个循环子空间，记作 \(T_i\)。这时便有

\[V=T_1 \oplus T_2 \oplus\ldots \oplus T_{p_0} \]

我们接下来遇到的许多问题是在每一种特征值分割出的子空间上进行讨论的，那么我们先要刻画空间与变换的局域化。

商空间

商空间类似于正交补空间，但是我们知道线性无关性可以在没有定义内积的空间中讨论。所以我们引入更为普适的商空间的概念。

定义设 \(V\) 是 \(F\) 上的一个向量空间，\(N\) 是 \(V\) 的一个子空间。定义 \(V\) 上的等价类 \(\sim\)：若 \(x-y \in N\) 则 \(x \sim y\)。记 \(x\) 所在的等价类 \([x]=x+N=\{x+n, n \in N\}\)。等价类的集合 \(V/\sim\) 记作商空间 \(V/N\)。数乘和加法定义为：

\(k[x]=[kx], [x]+[y]=[x+y]\)

可以自行验证等价关系需要满足的三条性质。

不变子空间

设 \(V\) 上的线性变换的集合为 \(L(V)\)。

设 \(\sigma \in L(V)\)，若 \(V\) 的子空间 \(W\) 满足 \(\forall w \in W, \sigma(w) \in W\)，则称 \(W\) 是 \(V\) 上 \(\sigma\) 的一个不变子空间。

写成矩阵的形式，在 \(W\) 的一组基扩充的空间的一组基下，\(\sigma\) 的表示矩阵形如

\[\begin{bmatrix}A & B \\ O & D\end{bmatrix} \]

诱导变换

诱导变换将线性变换限制在一个商空间上。

设 \(W\) 是 \(V\) 上 \(\sigma\) 的一个不变子空间，\(\dim W=r\)，\(\varepsilon_{1 \sim r}\) 是 \(W\) 的一组基，将其扩充为 \(V\) 的基 \(\varepsilon_{1 \sim r}, \varepsilon_{r+1 \sim n}\)，则 \(\varepsilon_{r+1}+W, \varepsilon_{r+2}+W, \ldots, \varepsilon_n+W\) 是 \(V/W\) 的一组基。在 \(V/W\) 上定义变换 \(\tau:V /W \to V/W\) 为

\[\tau(\alpha+W)=\sigma \alpha+W, \ \alpha \in V \]

称 \(\tau\) 为 \(\sigma\) 诱导的变换。可知，若 \(W\) 是 \(\sigma\) 的不变子空间，则 \(\tau\) 是线性变换。

接下来我们要说明，空间可以分解成若干个不变子空间的直和，每一个不变子空间对应一种特征值

根子空间与空间分解定理

定义 \(\sigma \in L(V)\)，\(\lambda\) 是 \(\sigma\) 的特征值，\(\alpha \in V\)，如果存在 \(m\)（与 \(\alpha\) 相关），使得

\[(\sigma-\lambda \varepsilon)^m \alpha=0 \]

则称 \(\alpha\) 是线性变换 \(\sigma\) 的属于 \(\lambda\) 的根向量（广义特征向量）。

引理设 \(U_{\lambda}= \{\alpha \in V, \exists m \in \mathbb N, \textrm{s.t. } (\sigma-\lambda \varepsilon)^m \alpha=0\}\)，其中 \(\lambda\) 是任意数，则 \(U_\lambda\) 是 \(V\) 的子空间，且是 \(\sigma\) 的不变子空间，且仅当 \(\lambda\) 为特征值时不只有零元素。

称 \(U_\lambda\) 为特征值 \(\lambda\) 的根子空间。诱导变换 \((\sigma - \lambda \varepsilon)_{U_\lambda}\) 是幂零变换。

引理 \(\mu \neq \lambda\) 时，\(\dim \ker (\sigma - \mu \varepsilon)_{U_\lambda}=0\)，也即其为可逆变换。

证明：设 \(\alpha \in U_\lambda\) 满足 \((\sigma - \mu\varepsilon)\alpha=0\)，则 \((\sigma-\lambda \varepsilon)\alpha=(\mu-\lambda) \alpha\)，而幂零变换的特征值为 \(0\)，故 \(\mu-\lambda\) 不为特征值，故 \(\alpha=0\)。

引理根子空间 \(U_1, U_2, \ldots, U_s\) 的和 \(U_1+U_2+\ldots+U_s\) 是直和。

证明：对 \(s\) 进行归纳。

\(s=1\) 成立。

若 \(s-1\) 成立，也即对于 \(\alpha_i \in U_i, i=1\sim s\)，\(\alpha_1+\alpha_2+\ldots+\alpha_{s-1}=0 \Leftrightarrow \alpha_i=0, i=1 \sim s-1\)。

现在 \(\alpha_1+\alpha_2+\ldots+\alpha_s=0\)，需证 \(\alpha_s=0\)。

可知存在 \(m\)，使得 \((\sigma - \lambda_s \varepsilon)^m\alpha_s=0\)。则

\[\begin{aligned}&(\sigma-\lambda_s \varepsilon)^m\alpha_1+(\sigma - \lambda_s \varepsilon)^m \alpha_2+\ldots+(\sigma - \lambda_s \varepsilon)^m \alpha_{s-1} \\ =&(\sigma - \lambda_s \varepsilon)^m(\alpha_1+\ldots+\alpha_{s-1}) \\ =&(\sigma - \lambda_s \varepsilon)^m(\alpha_1+\ldots+\alpha_{s-1}+\alpha_s) \\ =&0\end{aligned} \]

令 \(\beta_i=(\sigma - \lambda_s \varepsilon)^m \alpha_i\)。

由于 \(\sigma\) 是 \(U_1, U_2, \ldots, U_{s-1}\) 的不变子空间，那么 \(\sigma-\lambda_s \varepsilon\) 也是。故 \(\beta_i \in U_i, i = 1 \sim s-1\)。根据归纳假设，\(\beta_i=0\)。而 \(\sigma - \lambda_s \varepsilon\) 是可逆变换，故 \(\alpha_i=0, i = 1 \sim s-1\)。

因此 \(\alpha_s=0\)。

引理 \(\dim U_\lambda\) 等于 \(\lambda\) 的代数重数。

我们已经知道了，\(U_{\lambda_0}\) 是 \(\sigma - \lambda_0 \varepsilon\) 的不变子空间。故在 \(U_{\lambda_0}\) 中选一组基，扩充为 \(V\) 的基，在这组基下 \(\sigma\) 的表示矩阵为

\[A=\begin{bmatrix}B & C \\ O & D\end{bmatrix} \]

因此 \(\sigma\) 的特征多项式 \(\det(A - \lambda I)=\det(B - \lambda I)\det(D - \lambda I)=(\lambda_0 - \lambda)^s \det(D - \lambda I)\)

如果 \(\det(D - \lambda I)\) 中有 \((\lambda_0 - \lambda)\) 项，记 \(\tau:V/U_{\lambda_0} \to V / U_{\lambda_0}\) 是 \(\sigma\) 的诱导变换，设 \(\alpha_0 + U_{\lambda_0}\) 是 \(\lambda_0\) 的特征向量，则有 \(\alpha_0 \notin U_{\lambda_0}\)，使得

\[\tau(\alpha_0 + U_{\lambda_0}) = \lambda_0 (\alpha_0 + U_{\lambda_0}) \]

\[\tau(\alpha_0 + U_{\lambda_0}) = \sigma \alpha_0 + U_{\lambda_0} \]

故

\[\sigma \alpha_0 = \lambda_0\alpha_0 + \gamma, \gamma \in U_{\lambda_0} \]

\[\gamma=(\sigma - \lambda_0 \varepsilon)\alpha_0 \]

而 \(\gamma \in U_{\lambda_0}\)，故存在 \(m\)，使得

\[(\sigma - \lambda_0 \varepsilon)^m \gamma = (\sigma - \lambda_0 \varepsilon)^{m+1} \alpha_0 = 0 \]

故 \(\alpha_0 \in U_{\lambda_0}\)，矛盾。结论得证。

这个证明过程也道出了我们构造根子空间概念的某些真相。原先的特征空间之所以有可能小于代数重数，就是因为有一些 \(\alpha_0\) 满足 \((\sigma - \lambda_0 \varepsilon)^2 \alpha_0=0, (\sigma - \lambda_0 \varepsilon) \alpha_0\neq 0\)，这样的 \(\alpha_0\) 是可以藏匿在 \(D\) 中的，因为在 \(D\) 中，我们允许两者差一个 \(\gamma\)。

这也告诉我们代数重数不仅仅是由特征向量垒成的，也可以是由映射前后除了自身的数乘还差一个特征向量的次数为二的广义特征向量垒成，也可以是前后差一个次数为二的广义特征向量的三阶广义特征向量垒成，以此类推。

定理设 \(\sigma\) 是线性空间 \(V\) 的线性变换，则 \(V\) 是 \(\sigma\) 的根子空间的直和

\[V=U_{\lambda_1} \oplus U_{\lambda_2}\oplus \ldots \oplus U_{\lambda_s} \]

其中 \(\lambda_1, \ldots, \lambda_s\) 是 \(\sigma\) 的全部相异特征值，\(U\) 是根子空间。

Jordan 标准形

将 \(\sigma - \lambda \varepsilon\) 限制在 \(U_\lambda\) 上，其为幂零变换。我们知道幂零变换可以分解为若干个循环变换，故我们可以将空间进一步分解。

令 \(\rho=\sigma- \lambda \varepsilon\) 限制在某个子空间上的一个循环变换，通过循环变换一节论述的方式找到一组循环基，这时 \(\rho\) 的表示矩阵为

\[N=\begin{bmatrix}0 & 1 \\ & 0 & \ddots \\ & & \ddots & 1 \\ & & & 0\end{bmatrix} \]

\(\sigma\) 的表示矩阵便为

\[N=\begin{bmatrix}\lambda & 1 \\ & \lambda & \ddots \\ & & \ddots & 1 \\ & & & \lambda\end{bmatrix} \]

称形如这样的矩阵为 Jordan 块。由 Jordan 块构成的准对角矩阵称为 Jordan 标准形。

定理设 \(\sigma \in L(V)\)，则在 \(V\) 中存在一组基，使得 \(\sigma\) 在这组基下的矩阵为 Jordan 标准形。

矩阵语言描述为

定理任意复方阵与 Jordan 标准形相似。

让我们总结上文的论述过程，给出求解 Jordan 标准形的算法过程。

设有方阵 \(A\)，我们需要找到 \(P, J\) 使得 \(A=PJP^{-1}\)，其中 \(P\) 为可逆矩阵，\(J\) 为 Jordan 标准形。

求解 \(A\) 的特征多项式 \(f(\lambda)=(\lambda - \lambda_1)^{n_1}(\lambda - \lambda_2)^{n_2}\ldots(\lambda - \lambda_s)^{n_s}\)
对每个 \(\lambda_i\)，求解 \(\ker (A - \lambda_i I), \ker (A - \lambda_i I)^2, \ldots\) 直至 \(\dim \ker (A - \lambda_i I)^m= n_i\)。或求解 \(\textrm{Im }(A - \lambda_iI), \textrm{Im }(A - \lambda_iI)^2, \ldots\) 直至 \(\textrm{Im }(A - \lambda_iI)^m=\{0\}\)。
对每个 \(i\) 从大到小，依次进行如下构造：
- 上一层的基 \(\varepsilon^{(i+1)}_{1 \sim p_{i+1}}\)，左乘 \((A - \lambda_iI)\) 后得到一部分新基 \(\varepsilon^{(i)}_{1 \sim p_{i+1}}\)。
- 将 \(\ker (A - \lambda_i I) \cap \textrm{Im }(A - \lambda_i I)^i\) 的一组基作为另一部分新基 \(\varepsilon^{(i)}_{p_{i+1}+1 \sim p_i}\)。或用 \(\ker (A - \lambda_i I)^i / \ker(A - \lambda I)^{i-1} / \varepsilon^{(i)}_{1 \sim p_{i+1}}\) 直接得到。
竖着看，每一列是一个 Jordan 块，大小便为列长度，放在 \(J\) 中。\(P\) 中相应的位置放入 \(\varepsilon^{(0)}_j, \varepsilon^{(1)}_j, \ldots, \varepsilon^{(l)}_j\)。