矩阵论 •「线性空间、基变换与向量坐标变换」
线性空间
线性空间定义
《矩阵论》的课程上讲解了线性空间的详细定义(两种运算、满足八个性质)。在此我们只对线性空间(针对向量空间)做简要定义:
∀ x ⃗ , y ⃗ ∈ V 时 , 有唯一的 x ⃗ + y ⃗ ∈ V (加法封闭) ∀ x ⃗ ∈ V 时 , 有唯一的 k x ⃗ ∈ V (数乘封闭) \forall \vec{x},\vec{y} \in V时, 有唯一的\ \vec{x}+\vec{y} \in V (加法封闭)\\ \forall \vec{x} \in V时, 有唯一的\ k\vec{x} \in V (数乘封闭)\\ ∀x,y∈V时,有唯一的 x+y∈V(加法封闭)∀x∈V时,有唯一的 kx∈V(数乘封闭)
我们称向量集合 V V V 为一个「线性(向量)空间」。从定义中可知,关键是(向量)加法、数乘封闭,即线性空间中的元素对线性组合封闭
线性空间的基、维数
「线性相关与线性无关」:如果存在一组不全为零的数 k 1 , k 2 ⋯ , k n \ k_1,k_2\cdots,k_n k1,k2⋯,kn,使得对于向量组 v 1 ⃗ , v 2 ⃗ . . . , v n ⃗ \vec{v_1},\vec{v_2}...,\vec{v_n} v1,v2...,vn,有 ∑ i = 1 n k i v i ⃗ = 0 ⃗ \sum_{i=1}^n k_i \vec{v_i} = \vec{0} ∑i=1nkivi=0,则称向量组 v 1 ⃗ , v 2 ⃗ . . . , v n ⃗ \vec{v_1},\vec{v_2}...,\vec{v_n} v1,v2...,vn 线性相关(即存在冗余的向量,对张成线性空间没作用);否则(即 k 1 , k 2 ⋯ , k n \ k_1,k_2\cdots,k_n k1,k2⋯,kn 全为0)称向量组 v 1 ⃗ , v 2 ⃗ . . . , v n ⃗ \vec{v_1},\vec{v_2}...,\vec{v_n} v1,v2...,vn 线性无关
现在有一个线性(向量)空间 V V V, v 1 ⃗ , v 2 ⃗ . . . , v n ⃗ \vec{v_1},\vec{v_2}...,\vec{v_n} v1,v2...,vn 是 V V V 中的 n n n 个向量,如果该向量组满足:
- v 1 ⃗ , v 2 ⃗ . . . , v n ⃗ \vec{v_1},\vec{v_2}...,\vec{v_n} v1,v2...,vn 线性无关
- V V V 中的任一向量都可由 v 1 ⃗ , v 2 ⃗ . . . , v n ⃗ \vec{v_1},\vec{v_2}...,\vec{v_n} v1,v2...,vn 唯一地线性表示
则称向量组 { v 1 ⃗ , v 2 ⃗ . . . , v n ⃗ } \{\vec{v_1},\vec{v_2}...,\vec{v_n}\} {v1,v2...,vn} 是线性空间 V V V 的一个「基」,并称基中的每个向量 v i ⃗ \vec{v_i} vi 为该基的「基向量」。基是线性空间 V V V 中的最大线性无关元素组;基是不唯一的,但不同的基所含元素个数相等(即下面的维数概念);线性空间 V V V 中最大线性无关元素组所含元素个数,也即线性空间 V V V 的基中所含的基向量的个数,称为 V V V 的「维数」,记为 d i m V dimV dimV;
线性空间中元素的坐标
线性空间 V V V 的一个基 { v 1 ⃗ , v 2 ⃗ . . . , v n ⃗ } \{\vec{v_1},\vec{v_2}...,\vec{v_n}\} {v1,v2...,vn} 就是该线性空间 V V V 的一个坐标系。于是线性空间 V V V 的任意一个元素(向量) v ⃗ \vec{v} v,都可以由 V V V 的这个基 { v 1 ⃗ , v 2 ⃗ . . . , v n ⃗ } \{\vec{v_1},\vec{v_2}...,\vec{v_n}\} {v1,v2...,vn} 线性表示,即: v ⃗ = ∑ i = 1 n k i v i ⃗ \vec{v} = \sum_{i=1}^n k_i \vec{v_i} v=∑i=1nkivi,我们称 k 1 , k 2 . . . , k n k_1,k_2...,k_n k1,k2...,kn 为元素(向量) v ⃗ \vec{v} v 在该坐标系下的「坐标」,记为 ( k 1 , k 2 . . . , k n ) T (k_{1},k_{2}...,k_{n})^{T} (k1,k2...,kn)T
- 线性空间中的同一元素(向量)在不同坐标系(基)下的坐标是不同的;
- 一般来说,线性空间及其元素是抽象的对象,不同线性空间中的元素完全可以具有千差万别的类别及性质。但坐标表示却把它们统一了起来,坐标表示把这种差别留给了基和基元素,由坐标所组成的新“向量”仅由数域中的数表示出来;
- 更进一步,原本抽象线性空间中元素的“加法”及 “数乘”经过坐标表示,就演化为坐标“向量”的加法及坐标“向量”的数乘(线性变换的矩阵表示,就是处理线性空间中元素的坐标“向量”)
基变换和向量坐标变换
设 x 1 ⃗ , x 2 ⃗ . . . , x n ⃗ \vec{x_1},\vec{x_2}...,\vec{x_n} x1,x2...,xn 是线性空间 V V V 的旧基, y 1 ⃗ , y 2 ⃗ . . . , y n ⃗ \vec{y_1},\vec{y_2}...,\vec{y_n} y1,y2...,yn 是线性空间 V V V 的新基。对线性空间 V V V 中的同一个元素(向量) v ⃗ \vec{v} v,它同时可以由旧基和新基以不同的坐标进行线性表示,即:
[ x 1 ⃗ , x 2 ⃗ , . . . , x n ⃗ ] [ k 1 k 2 : k n ] = [ y 1 ⃗ , y 2 ⃗ , . . . , y n ⃗ ] [ k 1 ′ k 2 ′ : k n ′ ] \begin{bmatrix}\vec{x_1},\vec{x_2},...,\vec{x_n}\end{bmatrix} \begin{bmatrix}k_1 \\k_2 \\: \\k_n\end{bmatrix}= \begin{bmatrix}\vec{y_1},\vec{y_2},...,\vec{y_n}\end{bmatrix} \begin{bmatrix}k_1' \\k_2' \\: \\k_n'\end{bmatrix} [x1,x2,...,xn] k1k2:kn =[y1,y2,...,yn] k1′k2′:kn′
由此可以得到(这里已经给出了基变换、不同基下的坐标变换):
[ k 1 k 2 : k n ] = [ x 1 ⃗ , x 2 ⃗ , . . . , x n ⃗ ] − 1 [ y 1 ⃗ , y 2 ⃗ , . . . , y n ⃗ ] [ k 1 ′ k 2 ′ : k n ′ ] \begin{bmatrix}k_1 \\k_2 \\: \\k_n\end{bmatrix}= \begin{bmatrix}\vec{x_1},\vec{x_2},...,\vec{x_n}\end{bmatrix}^{-1} \begin{bmatrix}\vec{y_1},\vec{y_2},...,\vec{y_n}\end{bmatrix} \begin{bmatrix}k_1' \\k_2' \\: \\k_n'\end{bmatrix} k1k2:kn =[x1,x2,...,xn]−1[y1,y2,...,yn] k1′k2′:kn′
我们把中间的矩阵取出来:
[ x 1 ⃗ , x 2 ⃗ , . . . , x n ⃗ ] − 1 [ y 1 ⃗ , y 2 ⃗ , . . . , y n ⃗ ] \begin{bmatrix}\vec{x_1},\vec{x_2},...,\vec{x_n}\end{bmatrix}^{-1} \begin{bmatrix}\vec{y_1},\vec{y_2},...,\vec{y_n}\end{bmatrix} [x1,x2,...,xn]−1[y1,y2,...,yn]
称为过渡矩阵 C C C(过渡矩阵一定可逆);
另一种定义是(新基可以由旧基的线性组合来进行线性表示,即右乘过渡矩阵):
[ y 1 ⃗ , y 2 ⃗ , . . . , y n ⃗ ] = [ x 1 ⃗ , x 2 ⃗ , . . . , x n ⃗ ] C \begin{bmatrix}\vec{y_1},\vec{y_2},...,\vec{y_n}\end{bmatrix}= \begin{bmatrix}\vec{x_1},\vec{x_2},...,\vec{x_n}\end{bmatrix}C [y1,y2,...,yn]=[x1,x2,...,xn]C
后面会学到,线性变换是抽象的,矩阵则是这一抽象的具象表示;线性空间中的元素(向量)是抽象的,坐标则是这一抽象的具象表示。一个线性变换作用于一个向量,具象化为一个矩阵乘以一个坐标,因此当涉及到矩阵时,我们要明白矩阵作用的是向量的坐标而不是向量本身。对于线性空间中的同一个向量,如果线性空间的基改变了,该向量的坐标一定会改变;经由上述推理过程,利用过渡矩阵的形式,该向量的坐标变换可以表示为:
[ k 1 k 2 : k n ] = C [ k 1 ′ k 2 ′ : k n ′ ] ⟶ [ k 1 ′ k 2 ′ : k n ′ ] = C − 1 [ k 1 k 2 : k n ] \begin{bmatrix}k_1 \\k_2 \\: \\k_n\end{bmatrix}=C \begin{bmatrix}k_1' \\k_2' \\: \\k_n'\end{bmatrix} \longrightarrow \begin{bmatrix}k_1' \\k_2' \\: \\k_n'\end{bmatrix}=C^{-1} \begin{bmatrix}k_1 \\k_2 \\: \\k_n\end{bmatrix} k1k2:kn =C k1′k2′:kn′ ⟶ k1′k2′:kn′ =C−1 k1k2:kn
可以看到旧坐标等于过渡矩阵乘以新坐标,即 x = C x ′ ⇔ x ′ = C − 1 x \boldsymbol{x} = C\boldsymbol{x}' \Leftrightarrow \boldsymbol{x}' = C^{-1}\boldsymbol{x} x=Cx′⇔x′=C−1x.