======Probability models and axioms====== //MITx 6.431x notes Unit.1// ---- ====Sample space==== 建立概率模型分为两个步骤: * 描述所有**可能**的结果 * 描述所有结果的可能性 ===Sample space=== //Sample space// 描述的是一个包含了**所有可能结果**的 set,记作 $\Omega$ ==sample space 的两个要求== * 结果的**独立性**(//Mutually exclusive//),即最终只会出现一个结果 * 结果的**有穷性**(//Collectively Exhaustive//),即 set 中所有的元素代表了所有可能得结果 ==Physically different outcomes== 在 sample space 中,如果两个元素之间所有**相关的层面**(//relevant aspects//)上均不同(互斥),那么可以称这两个元素为 //Physically different outcomes//。选取 sample space 应该基于 //Physically different outcomes//。比如下面的 sample space: //sample space 1: 硬币朝上 硬币朝下 //sample space 2: 硬币朝上,天下雨 硬币朝上,天不下雨 硬币朝下,天下雨 硬币朝下,天不下雨 如果我们只研究硬币的朝向,那么第一个 sample space 就是最适合的,其中包含的都是相关于硬币朝向的 //physically different outcomes//。而反观第二个 sample space,则附带了无关层面的结果(天下不下雨)。\\ \\ 但如果需要研究硬币朝向和天是否下雨的关系时,此时第二个 sample space 中的所有结果都成为了 //physically different outcomes//。此时选取第二个 sample space 具有更正确粒度的选择(//At the “right” granularity//)。 ===描述 sample space=== sample sampce 分为两种类型: * 离散型,即元素数量可数 * 连续型,即元素数量不可数 ==离散型的 sample space== 离散型的的 sample space 有两种描述方式: * 网格表示法 * 树形表示法 比如描述表示扔两次**四面骰子**(每次 4 种)的所有结果的 sample space: \\ \\ {{ :math:statistics:mitx_6_431_x:sample_space_description.png?400 |}} * 网格表示法中,每一个格子代表了一种可能的结果。需要注意的是,不同的顺序代表了不同的结果,比如 (2,3) 代表投 2 再投 3,而 (3,2) 则是 投 3 再投 2 * 树形表示法中,节点代表了阶段 (//stage//),而终点(也被称为 leave)被视作当前阶段下的最终结果。所有的结果可以通过 //stage// 与 //leave// 的组合表示出来。 ==连续型的 sample space== 连续型的 sample space 存在着无限多的元素,因此通常使用区间来表示。比如下面的例子: \\ \\ {{ :math:statistics:mitx_6_431_x:sample_space_description_countine.png?250 |}} \\ 任何方形区域中的结果都可以用 $(x,y)$ 表示($x,y$ 为实数) ====Probability axioms=== ===Event=== 与离散型的 sample space 不同,连续型的 sample space 拥有无限的精度,因此基于某个确切点(元素)的概率为 $0$。因此,在正式的描述中,概率的表示以 set 为单位。该单位被称为 //Event//,每个 //event// 都是 sample space 的子集。//Event// 使用大写的字母标记(比如 $A$),而概率被记作 $P(A)$。\\ \\ 描述过程中,如果某个结果出现,则称描述该结果的 //Event// 出现。 ===Probability axioms=== 概率的三大公理: * 概率**不能为负**(//Nonnegtivity//):$P(A) \geq 0$ * 概率的范围为 $[0,1]$(//Normalization//),$1$ 代表了所有的结果,即:$P(\Omega)=1$ * (有限情况下)叠加定理(//Additivity//):如果 $A$ 与 $B$ 没有交集,那么 $P(A∪B) = P(A)+P(B)$ ===Properties of probabilities=== ==由公理直接可得的性质== * $P(A) \leq 1$ * $P(\varnothing) = 0$ ==基于 additivity 的性质== 在 //Events// 均为独立的(//disjointed//)的情况下: * //event// 与其补集的概率之和为 $1$,即 $P(A)+P(A^c) = 1$ * $P(A∪B) = P(A) +P(B)$ 可以推广到无限多个 //disjointed events//,即: $$ P(s_1,s_2....,s_k) = P(s_1)+...P(s_k) $$ ==推广性质(不考虑 event 的独立性)== * 子集的概率小于等于父集:$if \,\, A ⊂ B, \,\, then\,\, P(A) \leq P(B)$ * 并集的概率等于集合概率之和减去交集的概率:$P(A∪B) = P(A)+P(B)-P(A∩B)$ * 推广版本:$P(A ∪ B ∪ C) = P(A) + P(A^c ∩ B) + P(A^c ∩ B^c ∩ C)$ * 并集的概率小于等于集合概率之和:$P(A∪B) \leq P(A)+P(B)$ 上述推广通过文氏图均可轻松理解。等于的情况一般出现在某个 //event// 出现概率为 $1$ 的情况下。 ====Probability Caculations==== 概率的计算分为如下几个步骤: - 指定 sample space - 指定对应的 probability law - 选取需要计算的 event 进行计算 probability law 的指定是一个比较复杂的过程。不同类型的 sample place 中,probability law 的合法性也不同;因此需要分开进行讨论。 ===Discrete and infinite=== 对于离散 / 有限的样本空间,probability law 可以视作对应元素(outcome)的概率。比如之前扔四面骰子的例子,我们可以假设投掷两次骰子得到的每种结果,其概率是相等的。由于有 $4 \times 4=16$ 种结果,因此每种结果的概率为 $\frac{1}{16}$。\\ \\ 如果需要求指定 set 的概率,那么只需要知道该 set 中存在多少个元素,再与每个结果的概率进行相乘就可以。本例中,假设我们要求两次投掷的点之和是偶数的概率,很容易得出满足条件的 set 为 $\text{{1,1}, {1,3}, {2,2},{4,4}, {3,1},{3,3}, {4,2}, {4,4}}$ ,总计 $8$ 个。因此该 set 出现的概率为 $8 \times \frac{1}{16} = \frac{1}{2}$。 ==Discrete uniform law== 在离散/有限的 sample place 中,假设每一个元素(outcome)概率相等的 probability law 被称为 **//Discrete uniform law//**。假设 sample place $\Omega$ 包含了 $n$ 个元素,那么每一个元素的概率为 $\frac{1}{n}$。如果 set $A$ 包含了 $k$ 个元素,那么 $A$ 的概率为: >$$ P(A) = k \times \frac{1}{n} $$ ===Continuous example== 连续的 sample space 中需要以 event 作为单位来赋予概率,因此 uniform law 需要以另外的表现方式存在。一种比较好的方式是将 probability law 定义为面积,将 //Omega// 面积视作为 $1$。对于需要计算的 event,只需要知道该 event 所占的面积,即可得出其概率。\\ \\ 比如下面的例子,可以将 sample space 视作面积为 $1$ 的单位正方形。满足 $x+y \leq \frac{1}{2}$ 的 event 的概率实际上是 $x+y=\frac{1}{2}$ 围成的三角形的面积:\\ \\ {{ :math:statistics:mitx_6_431_x:sample_space_description_countine_exa.png?500 |}} 使用面积表示 uniform law 时需要注意总面积的单位。计算完之后需要对面积进行**标准化**。 ===Countable additivity=== 除了以上两种情况,我们还会遇到一种 sample place 是**离散的,但又是无限**的情况。来看看下面的例子:\\ \\ //假设我们对一个硬币无限次的进行投掷,那么最终投掷到正面的概率是多少?//\\ \\ 该例子中,有两个重点: * 硬币会被无限次投掷,也就是说 event 是无限的 * 硬币投掷是按次数计算的,也就是说 event 是离散的 那么实际上该例子可以被描述为如下的图像: \\ \\ {{ :math:statistics:mitx_6_431_x:sp_discrete_but_infinite.png?600 |}} \\ 其中提出的 probability law 为 $\frac{1}{2^n}$。 ==Countable additivity Axiom== 那么,此类型的例子应该如何计算概率呢?从直觉上来说,我们应该利用有限 / 离散中的 addtivity axiom 性质来处理这种情况。比如我们想统计所有偶数次硬币投掷向上的概率,则可得: \begin{align} P(outcome\,\,is\,\,even) & = P(\text{{2,4,6...}} )\\ & =P(\left \{2 \right \}\cup \left \{4 \right \}\cup \left \{6 \right \}...)\\ &=P(\left \{2 \right \}) +P(\left \{4 \right \})+P(\left \{6 \right \})...\\ &= \frac{1}{2^2}+ \frac{1}{2^4}+ \frac{1}{2^6}...\\ &= \sum_{n=1}^{\infty}\frac{1}{2^{2n}}\\ &= \frac{1}{2^2}\sum_{n=0}^{\infty}(\frac{1}{2})^{2n}\\ &= \frac{1}{4} \times \frac{1}{1-\frac{1}{4}}=\frac{1}{3} \end{align} \\ 但这里有一个问题,//infinite additivity axiom// 中并没有说明离散但连续的 sample space 可以使用此类性质。实际上,概率论中对此做出了公理上的扩充用于解决此类问题。该公理被称为 //Countable additivity Axiom//,定义如下: >if $A_1, A_2, A_3,...$ is an **infinite** sequence of **disjoint** events, >then >$$P(A_1 ∪ A_2 ∪ A_3 ∪ ··· ) = P(A_1) + P(A_2) + P(A_3) + ··$$ ==什么是 countable?== 上面的公理中,有一个条件非常重要://Sequence//。这个条件意味着整个样本空间是无限的,但是是**可记数**(//countable//)的。那么到底什么样的 sample space 才是可记数的? \\ \\ 总的来说,任意**可以排列为序列**的元素,都是可记数的。比如自然数,整数等等。作为反例,点 / 线 等等连续的,作为无限细分的单位(由无限细分的单位组成的)元素,都是不可计数的。//Countable additivity Axiom// 对于此类 sample space 不适用。 可以看出来的是,使用 //Countable additivity Axiom// 的 sample space,其基本单位(无论是 set 还是元素)必须是**离散**的;只有这样才能做到可计数。 ====Interpretations of probability theory==== * 当 sample space 可记数时,probability 通常被视作频率(//frequncy//) * 当 sample space 不存在记数时,probability 也被视作 //Description of beliefs//,或是 //betting preferences//,也就是我们到底有多相信该 event 会发生 ===The role of probabiility therory=== {{ :math:statistics:mitx_6_431_x:probability_theory.png?400 |}} ====相关的数学背景知识==== ===Sets=== ==set 的表示方法== * 有限的 set 使用大括号:$\{a,b,c,d\}$ * 无限的 set 使用特定的标记:$R: real number$ ==属于 / 不属于关系== * 元素 $x$ 属于/不属于 set $S$: * 符号:$x \in S$ / $x \notin S$。 * latex: ''\in'' \ ''\notin'' * 记录方法:元素与 set 的关系,加上元素需要满足的性质,比如 $\{x \in R:cos(x)>\frac{1}{2}\}$ ==全集,补集与空集== * 全集:$\Omega$ * 补集(//complement//):$S^c$,$x\in \Omega, \,x\notin S$ * 空集:$\varnothing$ ==子集== * S 为 T 的 subset: $S \subset T $ * $S$ 中的元素也是 $T$ 中的元素 * $S$ 可能与 $T$ 相等(也可以表示为 $\subseteq$) ==并集与交集== * 符号:并集(//union//): $\cup$,交集(//intersection//):$\cap$ * latex: ''\cup'', ''\cap'' ==De Morgan's laws== 并集的补集等于补集的交集,交集的补集等于补集的并集。 $$ \qquad \displaystyle {\Big(\bigcup _ n S_ n\Big)^ c=\bigcap _ n S_ n^ c,\qquad \Big(\bigcap _ n S_ n\Big)^ c=\bigcup _ n S_ n^ c} $$ ===Sequences and their limits=== ==Sequences 的理解与定义== //Sequences// 指一系列的,被**自然数索引的**元素组成的集合。元素本身可以是各种各样类型的数据(实数,欧式 n 维空间中的值,或者是其他的 set 等等)。//Sequences// 中的单位通常以大括号加上元素的方式书写,比如 $\{a_i\}$ 正式的定义将 //Sequences// 视为一个函数:该函数读入对应元素的索引值,即可获得对应元素的值,即: \\ >\begin{align} f:\mathbb{N} \to S \\ f(i)=a_i \end{align} ==数列的收敛与性质== 简单数学定义://sequence// 的收敛(//Convergence//),指 //sequence// $a_i$ 在 index $i$ 趋于无穷大时,自身总和 $a_i$ 趋于一个指定的值 $a$,即: $$ \displaystyle \lim_{i\to\infty}a_i=a $$ 可以看出来,//sequence// 的收敛实际上是在看该数列是否在 index 趋于无穷大时存在极限。因此,上述的定义如果用极限定义的方式可以表示为: >For any $\epsilon >0$, there exists $i_0$, such that if $i \geq i_0$, then $$|a_i-a|<\epsilon$$ 也就是说,当 //sequence// 的长度达到一定限度以后,如果 //sequence// 的值会再以 $[a-\epsilon,a+\epsilon]$ 的这个范围变化的话,那么该 //sequence// 的极限为 $a$,换句话说就是收敛于 $a$。\\ \\ 如果 //sequence// 是收敛的,那么: * $a_i+b_i$ 收敛于 $a+b$ * $a_i \cdot b_i$ 收敛于 $a \cdot b$ * 如果 $g$ 是连续的函数,那么 $g(a_i)$ 会于 $g(a)$ 处收敛 ==数列收敛的条件== 条件可以从两种角度来理解: * 如果 //sequences// 不是一直在增长的,即 $|a_i-a_{a+i}|$ 趋近于 0,那么可以说该 //sequence// 是收敛的 * 如果 //sequence// 的总和与某个点的距离逐渐趋近于 0,那么可以说该 //sequence// 收敛于该点。 ===无穷级数=== 本节不用深究,要看详细的去看微积分。真的太坑了,这一节的定义是指的收敛的无穷级数。 无穷级数被定义为: $$ \sum_{i=1}^{\infty}a_i= \lim_{n \to \infty} \sum_{i=1}^{n}a_i $$ 也就是说,如果存在这样一种无穷数列,其前 $n$ 个元素之和存在极限,那么我们可以说这整个数列是收敛的;换句话说,该数列的(无穷和)是一个 //well-defined//,收敛的,无穷级数。 ==特殊情况== 某些 //sequence// 的元素可能会拥有不同的符号。这种情况下: * 极限可能不存在 * 极限可能存在但根据求和的顺序会得到不同的极限 一个典型的例子就是交错级数,比如下面的例子: $$\sum_{i=1}^{\infty}(-1)^ia_i$$ 这种情况下,如果 //sequence// 可以表现为非负(绝对值形式),那么我们就可以对其收敛性做出判断。比如上述的例子可以转化为: $$\sum_{i=1}^{\infty}|a_i|$$ 如果该无穷和是有界的($< \infty$),那么就能说 ${a_i}$ 是 //well-defined// 的无穷级数 ==几何级数==