What & How & Why

Matrix Algebra for Engineers

Week 1 Notes


Matrices Definitions

Definition of a Matrix

m x n 的含义
  • mm 代表行数row
  • nn 代表列数columns
  • 每行 / 每列的元素为 mm (也就是第几行)/ nn 的值 (也就是第几列)

Vector
  • column vectorm×1m \times 1 矩阵,也就是列数11 的矩阵
  • row vector: 1×n1\times n 矩阵,也就是行数11 的矩阵
矩阵的表示

矩阵的表示分为三部分:

  • 矩阵的符号 AA
  • 矩阵的元素符号 aa
  • 矩阵元素的下表 ii,和 jj

iijj 通常从 11 开始。一个 m×nm \times n 的矩阵可以表示如下: A=[a11a12a13...a1na21a22a23...a2n...............am1am2am3...amn]A=\begin{bmatrix} a_{11}&a_{12} &a_{13} &... &a_{1n} \\ a_{21}&a_{22} &a_{23} &... &a_{2n} \\ ...& ...& ...& ... &...\\ a_{m1}&a_{m2} &a_{m3} &... &a_{mn} \end{bmatrix}

Addition and Multiplication

矩阵的加法

按位相加即可: (abcd)+(efgh)=(a+eb+fc+gd+h) \begin{pmatrix} a & b\\ c&d \end{pmatrix} + \begin{pmatrix} e & f\\ g&h \end{pmatrix} = \begin{pmatrix} a+e & b+f\\ c+g&d+h \end{pmatrix}

  • 矩阵的加减法要求参与运算的矩阵大小相同,否则运算为未定义运算。
矩阵与标量的乘法

按位相乘即可: k(abcd)=(kakbkckd) k \cdot \begin{pmatrix} a & b\\ c&d \end{pmatrix} = \begin{pmatrix} k\cdot a & k\cdot b\\ k\cdot c&k\cdot d \end{pmatrix}

矩阵的乘法
  • 依照顺序,使用第一个矩阵的行,乘以第二个矩阵中的列。
  • 第一个矩阵中的行需要与所有第二个矩阵中的列相乘完毕之后,才能换行。
  • 行列相乘按点积计算
  • 结果按照从左到右,从上倒下的顺序写进新矩阵中

矩阵的乘法不遵循交换律

矩阵的乘法不遵循交换律: A×BB×A A \times B \neq B \times A

矩阵乘法对矩阵的要求

根据矩阵的乘法,矩阵的要求第一个矩阵的列数第二个矩阵的行数匹配。相乘之后的新矩阵大小为第一个矩阵的行数乘以第二个矩阵的列数,即: (m×n)(n×p)=(m×p) (m \times n) \cdot (n \times p) = (m \times p)

矩阵乘法的通用形式

对于指定的 iijj 列的成员 cijc_{ij},其值等于第一个矩阵的 ii 行元素和第二个矩阵的 jj 行元素按位相乘,最后相加的总和,也就是第一个矩阵的 ii 行与第二个矩阵的 jj 行点积的结果。因此,通项公式可以写作:

cij=k=1naikbkj c_{ij} = \sum_{k=1}^{n} a_{ik}\cdot b_{kj}



来看看这个公式的详细过程。假设参与相乘的两个矩阵名为 AA, BBAAm×nm \times n 矩阵,BBn×pn \times p 矩阵。我们希望求出 CC 中第 ii 行,第 jj 列的值 CijC_{ij}。由于矩阵的乘法是用第一个矩阵的行与第二个矩阵的对应列进行点积,也就是按号相乘再求和,那么参与运算的行列应该是:

  • 第一个矩阵的第 ii
  • 第二个矩阵的第 jj



通过观察可以从上图看出,矩阵的乘法首先会确定第一个矩阵的行位置与第二个矩阵的列位置,然后开始累加。累加的次数正好是第一个矩阵的列数(也是第二个矩阵的行数),也就是 nn。唯一不同的地方在于nn 代表的意义(下标不同)。假设 kk 为当前 nn 的值,可知:

  • kk 的范围是 [1,n][1,n]
  • kk 说明当前的计算发生在第一个矩阵的 第kk 列,与第二个矩阵中的第 kk 行的元素之间



由于 kk 可以表示任意 [1,n][1,n] 的值,因此 CijC_{ij} 的通项公式就可以写成 ii,jj 固定,但是 kk 在变化的累积和形式了。

证明矩阵乘法的结合律

矩阵乘法遵循结合律,即:

(AB)C=A(BC)(AB)C = A(BC)

由于左右两边的结果矩阵的大小相同,因此这个结论的证明实际可以转化为证明左右两边的结果矩阵中的通项是否相等,即: C=[A(BC)]ijC=[A(BC)]_{ij} 假设:

  • AAm×nm\times n 矩阵
  • BBn×pn\times p 矩阵
  • CCp×qp\times q 矩阵

对于左边,ABAB 的通项可以表示为: (AB)ij=k=1naikbkj(AB)_{ij} = \sum_{k=1}^{n}a_{ik} \cdot b_{kj} 此时,ABAB 通过乘法得到的新矩阵,其大小为 m×pm\times p,因此在 ABABCC 的乘法中,pp 代替 nn 作为了下一次的累加次数。假设 ll 为当前 pp 的值,那么 ll 的取值范围就是 [1,p][1,p],而 ABABCC 的乘法中通项可以表示为: [A(BC)]ij=knaikbkll=1pclj [A(BC)]_{ij} = \sum_{k}^{n} a_{ik} \cdot b_{kl} \cdot \sum_{l=1}^{p}c_{lj} 整理一下,也就是: [A(BC)]ij=knl=1paikbklclj [A(BC)]_{ij}= \sum_{k}^{n}\sum_{l=1}^{p} a_{ik} \cdot b_{kl} \cdot c_{lj}

注意这里 ABAB 中的 bkib_{ki} 在下一个通项公式中转换为了 bkjb_{kj}。实际上,这里的 jjll 是对应起来的。因为 ABAB 的大小为 m×pm\times p,因此 jj 的取值范围是 [1,p][1,p]。也就是说,jjll 都在表示当前 ABABCC 的乘法中,通项和的累积次数。因此,bkj=bklb_{kj}=b_{kl}



同理来计算右边的结果。首先从 BCBC 开始算,BCBC 的矩阵乘法是 n×pn\times pp×qp\times q 相乘,因此此处是 pp 作为通项累积和的积累次数。我们应该用 ll 来代表当前的次数,即: (BC)ij=l=1pbilclj (BC)_{ij} = \sum_{l=1}^{p}b_{il}\cdot c_{lj} 然后我们将 AABCBC 的结果相乘,此时是一个 m×nm\times nn×qn\times q 的乘法。

待完善。

Special Matrices

Zero matrix

Zero Matrix零矩阵)指矩阵中所有的元素都为 00 的矩阵:

  • 该矩阵扮演了矩阵中 00 的角色
  • 其尺寸不固定 (m×nm \times n)

一个 2×32 \times 3 的零矩阵表示如下:
(000000)\begin{pmatrix} 0& 0& 0\\ 0& 0&0 \end{pmatrix}
任意矩阵乘以零矩阵,得到的结果都是 00,即:

A0=0A0 = 0
Identity matrix

Identity Matrix单位矩阵),记作 II,指矩阵主对角线上元素都是 11,其他位置的元素都是 00 的矩阵。

  • 普通列表项目该矩阵扮演了矩阵中 11 的角色
  • 单位矩阵必须是方阵 n×nn \times n

一个 2×22 \times 2 的单位矩阵表示如下:
(1001) \begin{pmatrix} 1& 0\\ 0 &1 \end{pmatrix}
任意矩阵乘以对称矩阵都会得到原矩阵,且单位矩阵满足交换律,即:

AI=A=IAAI=A=IA
Diagonal matrix

Diagonal Matrix对角矩阵),记作 DD,指只有主对角线上有元素的矩阵。一个 3×33 \times 3 的对角矩阵表示如下:
(d1000d2000d3) \begin{pmatrix} d1& 0& 0\\ 0& d2& 0\\ 0& 0 &d3 \end{pmatrix}

性质一:令 C=ABC=AB,如果 AA,BB 均为对角矩阵,那么 CC 也是对角矩阵。

Banded matrix

Banded Matrix带状矩阵),指元素分布在主对角线附近的矩阵。具体的来说,除了主对角线上的元素以外,其他元素会分别填满对角线的上/下的 nn 条对角线。下面是一个带状矩阵的例子:
(d1a10b1d2a20b2d3) \begin{pmatrix} d1& {\color{Peach} a1} & 0\\ {\color{Blue} b1} & d2& {\color{Orange} a2} \\ 0& {\color{Blue} b2} &d3 \end{pmatrix}

Triangular matrix

Triangular Matrix三角矩阵),指元素分布在主对角线及以上(以下)的矩阵。其中:

  • 元素分布在对角线以上的矩阵被称为上三角矩阵upper Triangular matrix),记作 UU
  • 元素分布在对角线以下的矩阵被称为下三角矩阵lower Triangular matrix),记作 LL

下面是两个示例:

U=(abc0de00f)U=\begin{pmatrix} a& b& c\\ 0& d& e\\ 0& 0&f \end{pmatrix}

L=(a00bc0def)L=\begin{pmatrix} a& 0& 0\\ b& c& 0\\ d& e&f \end{pmatrix}


C=ABC=AB,如果 A,BA,B 均为三角矩阵,那么:

  • CC 也为三角矩阵
  • CC 对角线上的元素为 A,BA,B 对角线上元素的乘积,即 cii=aiibiic_{ii}=\sum a_{ii} \cdot b_{ii}

可以使用下标来筛选三角矩阵中为 00 的元素,比如上三角矩阵的元素 aika_{ik},当 i>ki>k 时元素为 00

Transpose and Inverses

Transpose matrix

Transpose matrix转置矩阵)指将原矩阵中的行变为列(列变为行)后形成的矩阵,记作 ATA^T。下面是 m×nm \times n 的转置矩阵示例:


几个 facts:

  • 转置实际上是基于主对角线的反射
  • 转置以后,元素的位置(下标)基于主对角线对调,即 aijT=ajia^T_{ij}=a_{ji}
  • 由于转置是行列转换,因此转换后的 ATA^T 的尺寸会变为 n×mn \times m
转置运算的几个性质
  • (AT)T=A(A^T)^T = A
  • 结合律:(A+B)T=AT+BT(A+B)^T = A^T+B^T
  • (AB)T=BTAT(AB)^T = B^TA^T
基于转置的特殊矩阵:Symmetric matrix

Symmetric matrix对称矩阵)指矩阵元素基于主对角线对称的矩阵。一个3×33\times 3 的对称矩阵表示如下:

(abcbdecef) \begin{pmatrix} a& {\color{red} b} & {\color{Violet} c} \\ {\color{Red} b } & d& {\color{Orange} e} \\ {\color{Violet} c} & {\color{Orange} e} &f \end{pmatrix}

  • 对称矩阵的转置矩阵是对称矩阵本身,即 AT=AA^T = A
基于转置的特殊矩阵:Skew-symmetric matrix

Skew-symmetric matrix反对称矩阵)。此类矩阵满足如下关系:

AT=AA^T = -A

一个 3×33\times 3 的简单示例如下:
(0bcb0ece0) \begin{pmatrix} 0& {\color{red} b} & {\color{Violet} c} \\ {\color{Red} -b } & 0& {\color{Orange} e} \\ {\color{Violet} -c} & {\color{Orange} -e} &0 \end{pmatrix}

  • 元素按主对角线进行对称,并取负
  • 由于主对角线上的元素转置后是其自身,为满足 AT=AA^T=-A,所以都必须为 00

几个扩展结论:

  • 任意方阵可以由对称矩阵与反对称矩阵的和表示,即 A=12(A+AT)+12(AAT)A=\frac{1}{2}(A+A^T)+\frac{1}{2}(A-A^T)
  • ATAA^TA 是对称矩阵

Inner & outer Products

Inner product

Inner products内积),也被称为 dot product点积)。矩阵中的内积可以表示为一个列向量矩阵的转置乘以另外一个列向量矩阵。示例如下:

令: u=(u1u2u3)   and   v=(v1v2v3) u=\begin{pmatrix} u_1\\ u_2\\ u_3 \end{pmatrix} \,\,\,\text{and}\,\,\, v=\begin{pmatrix} v_1\\ v_2\\ v_3 \end{pmatrix} 则内积可以表示为:
uTv=(u1u2u3)(v1v2v3)=u1v1+u2v2+u3v3 \begin{align*} u^Tv & = \begin{pmatrix} u_1 &u_2 &u_3 \end{pmatrix}\cdot \begin{pmatrix} v_1\\ v_2\\ v_3 \end{pmatrix} \\ & = u_1\cdot v_1+u_2\cdot v_2+u_3\cdot v_3 \end{align*}

  • 内积的结果是一个标量scalar
  • uTv=0u^Tv=0 意味着 uuvv orthogonal ,也就是内积中的垂直
  • norm(范数)
    • 向量的范数可以表示为:u=(uTu)(12)=(u12+u22+u32)||u|| = (u^Tu)^{(\frac{1}{2})} = \sqrt{(u_1^2+u_2^2+u_3^2)}
    • uu is normalized if u=1||u||=1
  • 如果 u,vu,v orthogonal and normalized,那么这些向量被称为 orthonormal
outer product

矩阵中的 Outer product外积),可以表示为一个列向量与另外一个列向量的转置的乘积。示例如下(以之前的 u,vu,v 为例):

uvT=(u1u2u3)(v1v2v3)=(u1v1u1v2u1v3u2v1u2v2u2v3u3v1u3v2u3v3) \begin{align*} uv^T & = \begin{pmatrix} u_1\\ u_2\\ u_3 \end{pmatrix}\cdot\begin{pmatrix} v_1 &v_2 &v_3 \end{pmatrix} \\ & = \begin{pmatrix} u_1v_1& u_1v_2& u_1v_3\\ u_2v_1& u_2v_2& u_2v_3\\ u_3v_1& u_3v_2&u_3v_3 \end{pmatrix} \end{align*} 其结果是一个矩阵

trace of matrix

trace),记作 TrTr,指方阵主对角线上元素的和。

  • AAn×nn\times n 方阵, Tr(ATA)=k=1n(aki)2Tr(A^TA) = \sum_{k=1}^{n} (a_{ki})^2AA 中所有元素的平方之和)

Inverse Matrix

Inverse matrix逆矩阵)可以想象为矩阵的“倒数”。矩阵 AA 的逆矩阵记作 A1A^{-1},逆矩阵的定义从用如下的性质描述:

AA1=I=A1AAA^{-1}=I=A^{-1}A

也就是矩阵与自身的逆矩阵的乘积等于单位矩阵;同时也可以看到,矩阵与逆矩阵的乘法满足交换律

  • 不是所有的矩阵都有逆矩阵
  • 只有方阵才可能拥有逆矩阵
逆矩阵的性质
  • (AB)1=B1A1(AB)^{-1} = B^{-1}A^{-1}
  • (AT)1=(A1)T(A^T)^{-1} = (A^{-1})^T
如何求二阶方阵的逆矩阵

假设我们有矩阵: (abcd) \begin{pmatrix} a& b\\ c&d \end{pmatrix} 根据逆矩阵的定义,可得到下面的等式:
(abcd)(x1x2y1y2)=(1001) \begin{pmatrix} a& b\\ c&d \end{pmatrix} \begin{pmatrix} x_1& x_2\\ y_1&y_2 \end{pmatrix} =\begin{pmatrix} 1 &0 \\ 0 &1 \end{pmatrix}
将上述的等式按矩阵的乘法展开,有: {ax1+by1=1ax2+by2=0cx1+dy1=0cx2+dy2=1 \begin{cases} ax_1+by_1=1\\ ax_2+by_2=0\\ cx_1+dy_1=0\\ cx_2+dy_2=1 \end{cases} 化简后最后可得到二阶逆矩阵的表达式:

A1=1adbc(dbca)A^{-1} = \frac{1}{{\color{Red} ad-bc} }\begin{pmatrix} d & -b\\ -c&a \end{pmatrix}
矩阵的 Determinant

上面的表达式中,红色部分 adbcad-bc 被称为矩阵的 Determinant,记作:

det(dbca)=adbc det\begin{pmatrix} d & -b\\ -c&a \end{pmatrix}={\color{Red} ad-bc}
Determinant 用于判断一个矩阵的逆矩阵是否存在。当 Determinant00 时,逆矩阵不存在。

计算四边形面积的公式,用于证明 determinant

Orthogonal Matrices

Orthogonal Matrices

Orthogonal Matrices正交矩阵)记作 QQ,其满足以下的定义:

Q1=QTQ^{-1} = Q^T
orthogonal 和 orthonormal 向量

理解 Q1=QTQ^{-1} = Q^T 这一条需要弄明白 orthogonal vectororthonormal vector 两个概念:

  • orthogonal vector 指两个向量的内积00,即 uv=0u \cdot v = 0
  • orthonormal vector 指:
    • 两个向量的内积为 00,即 uv=0u \cdot v = 0
    • 且两个向量的长度均为 11,即 u=v=1||u|| = ||v|| = 1
理解 Orthogonal Matrices 的定义

由逆矩阵的性质:QQ1=IQQ^{-1}=I,可将定义转化为如下形式:
QQT=I QQ^T = I
什么样的矩阵才能由这种性质呢?假设 QQ 是一个 n×nn \times n 的方阵,首先来看看 QQTQQ^T 是什么样子的:

(q11q12...q1nq21q22...q2n............qn1qn2...qnn)×(q11q21...qn1q12q22...qn2............q1nq2n...qnn)=I \begin{pmatrix} q_{11}&q_{12} &... & q_{1n}\\ q_{21}&q_{22} &... & q_{2n}\\ ...& ...& ...& ...\\ q_{n1}&q_{n2} & ... &q_{nn} \end{pmatrix} \times \begin{pmatrix} q_{11}&q_{21} &... & q_{n1}\\ q_{12}&q_{22} &... & q_{n2}\\ ...& ...& ...& ...\\ q_{1n}&q_{2n} & ... &q_{nn} \end{pmatrix} =I

我们发现在矩阵乘法中,QQ 中每一个列向量都有与自身内积的一次机会,而该结果的位置正好在主对角线上,比如 QQ 的第一行与 QTQ^T 的第一列,其结果位置在 i11i_{11} 上:



由于单位矩阵的对角元素均为 11,其他位置的元素均为 00,因此我们得到结论:

  • QQ 中的列向量与自身的内积等于 11
  • QQ 中的列向量与 QQ 中其他非自身的列向量内积为 00

也就是 QQ 中:

  • 任意列向量的单位长度为 11
  • 任意列向量两两垂直(即互为 orthogonal vector

也就是说,QQ 中所有的列向量均互为 orthonormal vector 时,QQ 被称为 Orthogonal Matrix

由于 QTQ=IQ^TQ=I 也成立,因此行向量也满足上述的推论。因此:QQOrthogonal Matrix 成立的前提是 QQ所有的向量两两互为 orthonormal vector

正交矩阵的重要特性1:preserve lentgh

正交矩阵的第一个重要特性,是在使用正交矩阵进行变换的时候,正交矩阵不会改变原有矩阵中向量的长度。简单的证明如下:

假设 QQn×nn \times n 的正交矩阵,xxn×1n \times 1 的列向量。如果正交矩阵可以保留长度,那么我们只需要证明变换前与变换后的矩阵长度一致即可,即:
Qx=x ||Qx|| = ||x||
证明该等式的过程只需要下面的形式:
(Qx)T(Qx) (Qx)^T(Qx)
上述的形式是 QxQx 的内积形式,因此其结果是 QxQx 的 norm 的平方,也就是:
(Qx)T(Qx)=Qx2 (Qx)^T(Qx) = ||Qx||^2
接下来再对 (Qx)T(Qx)(Qx)^T(Qx) 变形,可得:
(Qx)T(Qx)=xTQTQx=xTIx=xTx=x2 \begin{align*} (Qx)^T(Qx) & = x^TQ^TQx\\ & = x^TIx\\ & = x^Tx\\ &= ||x||^2 \end{align*}
到此即可得正我们需要的关系:
Qx2=x2Qx=x ||Qx||^2 = ||x||^2 \Rightarrow ||Qx|| = ||x||

正交矩阵与旋转

正交矩阵可以应用于矩阵的旋转操作。假设有以下列向量 uu (xy)\displaystyle \begin{pmatrix} x \\ y \end{pmatrix} 我们希望将其旋转角度 θ\theta 令旋转矩阵为 RR,那么有: Rθ(xy)=(xy) R_{\theta} \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} x' \\ y' \end{pmatrix} 令向量 uu 的长度为 rr,由三角关系可得:

x=rcos(θ+ϕ)=r(cos(θ)cos(ϕ)sin(θ)sin(ϕ))=cos(θ)rcos(ϕ)sin(θ)rsin(ϕ)=xcos(θ)ysin(θ)y=rsin(θ+ϕ)=r(sin(θ)cos(ϕ)+cos(θ)sin(ϕ))=(sin(θ)rcos(ϕ)+cos(θ)rsin(ϕ))=xsin(θ)+ycos(θ) \begin{align*} x’ & = r\cdot cos(\theta+\phi) \\ & = r(cos(\theta)cos(\phi)-sin(\theta)sin(\phi))\\ & = cos(\theta){\color{Orange} rcos(\phi)} -sin(\theta){\color{Orange} rsin(\phi)} \\ & = xcos(\theta)-ysin(\theta) \\ \\ y' & = r\cdot sin(\theta+\phi)\\ & = r(sin(\theta)cos(\phi)+cos(\theta)sin(\phi))\\ & = (sin(\theta){\color{Orange} rcos(\phi)}+cos(\theta){\color{Orange} rsin(\phi)} )\\ & = xsin(\theta)+ycos(\theta) \end{align*}

将上述的结果带入之前的旋转等式,即可得到结果:

(cos(θ)sin(θ)sin(θ)cos(θ))(xy)=(xcos(θ)ysin(θ)ycos(θ)+xsin(θ)) {\color{Blue} \begin{pmatrix} cos(\theta)&-sin(\theta) \\ sin(\theta)&cos(\theta) \end{pmatrix}} \begin{pmatrix} x\\y \end{pmatrix} =\begin{pmatrix} xcos(\theta)-ysin(\theta)\\ ycos(\theta)+xsin(\theta) \end{pmatrix}
R0R_0 很容易被证明是正交矩阵。

orthgonal martix 在实际应用中就是作为旋转矩阵使用的。旋转的过程中,该矩阵不但能保持被旋转矩阵中向量的大小不变,也能保证向量的夹角不变。

Permutation Matrices

Premutaion matrix交换矩阵)是orthogonal matrix 的一种,其功能是可以交换被乘矩阵的行(列)。交换矩阵必须是方阵。一个 2×22 \times 2 的交换矩阵示例如下:
(0110)(abcd)=(cdab) \begin{pmatrix} 0&1 \\ 1&0 \end{pmatrix} \begin{pmatrix} a & b\\ c&d \end{pmatrix} = \begin{pmatrix} c&d \\ a&b \end{pmatrix}
上面的例子中,使用交换矩阵左乘目标矩阵,达到了行交换的效果。对应的是,如果使用交换矩阵右乘目标矩阵,那实现的是对目标矩阵的列交换

单位矩阵与目标矩阵相乘可以视作不改变行(列)顺序的交换矩阵;因此单位矩阵也是交换矩阵的一种。

交换矩阵对应的行(列)

交换矩阵可以被视作行列交换过的单位矩阵。以左乘为例,那么单位矩阵aiia_{ii} 代表的是目标矩阵的第 ii 行;而交换矩阵中 aiia_{ii} 所在的位置,则是目标矩阵的第 ii 行经过交换后的位置。