本 Wiki 开启了 HTTPS。但由于同 IP 的 Blog 也开启了 HTTPS,因此本站必须要支持 SNI 的浏览器才能浏览。为了兼容一部分浏览器,本站保留了 HTTP 作为兼容。如果您的浏览器支持 SNI,请尽量通过 HTTPS 访问本站,谢谢!
MITx 6.431x notes Unit.1
建立概率模型分为两个步骤:
Sample space 描述的是一个包含了所有可能结果的 set,记作 $\Omega$
在 sample space 中,如果两个元素之间所有相关的层面(relevant aspects)上均不同(互斥),那么可以称这两个元素为 Physically different outcomes。选取 sample space 应该基于 Physically different outcomes。比如下面的 sample space:
//sample space 1:
硬币朝上
硬币朝下
//sample space 2:
硬币朝上,天下雨
硬币朝上,天不下雨
硬币朝下,天下雨
硬币朝下,天不下雨
如果我们只研究硬币的朝向,那么第一个 sample space 就是最适合的,其中包含的都是相关于硬币朝向的 physically different outcomes。而反观第二个 sample space,则附带了无关层面的结果(天下不下雨)。sample sampce 分为两种类型:
离散型的的 sample space 有两种描述方式:
比如描述表示扔两次四面骰子(每次 4 种)的所有结果的 sample space:
与离散型的 sample space 不同,连续型的 sample space 拥有无限的精度,因此基于某个确切点(元素)的概率为 $0$。因此,在正式的描述中,概率的表示以 set 为单位。该单位被称为 Event,每个 event 都是 sample space 的子集。Event 使用大写的字母标记(比如 $A$),而概率被记作 $P(A)$。
描述过程中,如果某个结果出现,则称描述该结果的 Event 出现。
概率的三大公理:
在 Events 均为独立的(disjointed)的情况下:
$$ P(s_1,s_2....,s_k) = P(s_1)+...P(s_k) $$
上述推广通过文氏图均可轻松理解。等于的情况一般出现在某个 event 出现概率为 $1$ 的情况下。
概率的计算分为如下几个步骤:
probability law 的指定是一个比较复杂的过程。不同类型的 sample place 中,probability law 的合法性也不同;因此需要分开进行讨论。
对于离散 / 有限的样本空间,probability law 可以视作对应元素(outcome)的概率。比如之前扔四面骰子的例子,我们可以假设投掷两次骰子得到的每种结果,其概率是相等的。由于有 $4 \times 4=16$ 种结果,因此每种结果的概率为 $\frac{1}{16}$。
如果需要求指定 set 的概率,那么只需要知道该 set 中存在多少个元素,再与每个结果的概率进行相乘就可以。本例中,假设我们要求两次投掷的点之和是偶数的概率,很容易得出满足条件的 set 为 $\text{{1,1}, {1,3}, {2,2},{4,4}, {3,1},{3,3}, {4,2}, {4,4}}$ ,总计 $8$ 个。因此该 set 出现的概率为 $8 \times \frac{1}{16} = \frac{1}{2}$。
在离散/有限的 sample place 中,假设每一个元素(outcome)概率相等的 probability law 被称为 Discrete uniform law。假设 sample place $\Omega$ 包含了 $n$ 个元素,那么每一个元素的概率为 $\frac{1}{n}$。如果 set $A$ 包含了 $k$ 个元素,那么 $A$ 的概率为:
$$ P(A) = k \times \frac{1}{n} $$
连续的 sample space 中需要以 event 作为单位来赋予概率,因此 uniform law 需要以另外的表现方式存在。一种比较好的方式是将 probability law 定义为面积,将 Omega 面积视作为 $1$。对于需要计算的 event,只需要知道该 event 所占的面积,即可得出其概率。
比如下面的例子,可以将 sample space 视作面积为 $1$ 的单位正方形。满足 $x+y \leq \frac{1}{2}$ 的 event 的概率实际上是 $x+y=\frac{1}{2}$ 围成的三角形的面积:
使用面积表示 uniform law 时需要注意总面积的单位。计算完之后需要对面积进行标准化。
除了以上两种情况,我们还会遇到一种 sample place 是离散的,但又是无限的情况。来看看下面的例子:
假设我们对一个硬币无限次的进行投掷,那么最终投掷到正面的概率是多少?
该例子中,有两个重点:
那么实际上该例子可以被描述为如下的图像:
其中提出的 probability law 为 $\frac{1}{2^n}$。
那么,此类型的例子应该如何计算概率呢?从直觉上来说,我们应该利用有限 / 离散中的 addtivity axiom 性质来处理这种情况。比如我们想统计所有偶数次硬币投掷向上的概率,则可得:
\begin{align}
P(outcome\,\,is\,\,even) & = P(\text{{2,4,6...}} )\\
& =P(\left \{2 \right \}\cup \left \{4 \right \}\cup \left \{6 \right \}...)\\
&=P(\left \{2 \right \}) +P(\left \{4 \right \})+P(\left \{6 \right \})...\\
&= \frac{1}{2^2}+ \frac{1}{2^4}+ \frac{1}{2^6}...\\
&= \sum_{n=1}^{\infty}\frac{1}{2^{2n}}\\
&= \frac{1}{2^2}\sum_{n=0}^{\infty}(\frac{1}{2})^{2n}\\
&= \frac{1}{4} \times \frac{1}{1-\frac{1}{4}}=\frac{1}{3}
\end{align}
但这里有一个问题,infinite additivity axiom 中并没有说明离散但连续的 sample space 可以使用此类性质。实际上,概率论中对此做出了公理上的扩充用于解决此类问题。该公理被称为 Countable additivity Axiom,定义如下:
if $A_1, A_2, A_3,...$ is an infinite sequence of disjoint events,
then
$$P(A_1 ∪ A_2 ∪ A_3 ∪ ··· ) = P(A_1) + P(A_2) + P(A_3) + ··$$
上面的公理中,有一个条件非常重要:Sequence。这个条件意味着整个样本空间是无限的,但是是可记数(countable)的。那么到底什么样的 sample space 才是可记数的?
总的来说,任意可以排列为序列的元素,都是可记数的。比如自然数,整数等等。作为反例,点 / 线 等等连续的,作为无限细分的单位(由无限细分的单位组成的)元素,都是不可计数的。Countable additivity Axiom 对于此类 sample space 不适用。
可以看出来的是,使用 Countable additivity Axiom 的 sample space,其基本单位(无论是 set 还是元素)必须是离散的;只有这样才能做到可计数。
\in
\ \notin
\cup
, \cap
并集的补集等于补集的交集,交集的补集等于补集的并集。 $$ \qquad \displaystyle {\Big(\bigcup _ n S_ n\Big)^ c=\bigcap _ n S_ n^ c,\qquad \Big(\bigcap _ n S_ n\Big)^ c=\bigcup _ n S_ n^ c} $$
Sequences 指一系列的,被自然数索引的元素组成的集合。元素本身可以是各种各样类型的数据(实数,欧式 n 维空间中的值,或者是其他的 set 等等)。Sequences 中的单位通常以大括号加上元素的方式书写,比如 $\{a_i\}$
正式的定义将 Sequences 视为一个函数:该函数读入对应元素的索引值,即可获得对应元素的值,即:
\begin{align} f:\mathbb{N} \to S \\ f(i)=a_i \end{align}
简单数学定义:sequence 的收敛(Convergence),指 sequence $a_i$ 在 index $i$ 趋于无穷大时,自身总和 $a_i$ 趋于一个指定的值 $a$,即: $$ \displaystyle \lim_{i\to\infty}a_i=a $$ 可以看出来,sequence 的收敛实际上是在看该数列是否在 index 趋于无穷大时存在极限。因此,上述的定义如果用极限定义的方式可以表示为:
For any $\epsilon >0$, there exists $i_0$, such that if $i \geq i_0$, then $$|a_i-a|<\epsilon$$
也就是说,当 sequence 的长度达到一定限度以后,如果 sequence 的值会再以 $[a-\epsilon,a+\epsilon]$ 的这个范围变化的话,那么该 sequence 的极限为 $a$,换句话说就是收敛于 $a$。
如果 sequence 是收敛的,那么:
条件可以从两种角度来理解:
本节不用深究,要看详细的去看微积分。真的太坑了,这一节的定义是指的收敛的无穷级数。
无穷级数被定义为: $$ \sum_{i=1}^{\infty}a_i= \lim_{n \to \infty} \sum_{i=1}^{n}a_i $$ 也就是说,如果存在这样一种无穷数列,其前 $n$ 个元素之和存在极限,那么我们可以说这整个数列是收敛的;换句话说,该数列的(无穷和)是一个 well-defined,收敛的,无穷级数。
某些 sequence 的元素可能会拥有不同的符号。这种情况下:
一个典型的例子就是交错级数,比如下面的例子: $$\sum_{i=1}^{\infty}(-1)^ia_i$$ 这种情况下,如果 sequence 可以表现为非负(绝对值形式),那么我们就可以对其收敛性做出判断。比如上述的例子可以转化为: $$\sum_{i=1}^{\infty}|a_i|$$ 如果该无穷和是有界的($< \infty$),那么就能说 ${a_i}$ 是 well-defined 的无穷级数