======Probability models and axioms======
//MITx 6.431x notes Unit.1//
----
====Sample space====
建立概率模型分为两个步骤:
* 描述所有**可能**的结果
* 描述所有结果的可能性
===Sample space===
//Sample space// 描述的是一个包含了**所有可能结果**的 set,记作 $\Omega$
==sample space 的两个要求==
* 结果的**独立性**(//Mutually exclusive//),即最终只会出现一个结果
* 结果的**有穷性**(//Collectively Exhaustive//),即 set 中所有的元素代表了所有可能得结果
==Physically different outcomes==
在 sample space 中,如果两个元素之间所有**相关的层面**(//relevant aspects//)上均不同(互斥),那么可以称这两个元素为 //Physically different outcomes//。选取 sample space 应该基于 //Physically different outcomes//。比如下面的 sample space:
//sample space 1:
硬币朝上
硬币朝下
//sample space 2:
硬币朝上,天下雨
硬币朝上,天不下雨
硬币朝下,天下雨
硬币朝下,天不下雨
如果我们只研究硬币的朝向,那么第一个 sample space 就是最适合的,其中包含的都是相关于硬币朝向的 //physically different outcomes//。而反观第二个 sample space,则附带了无关层面的结果(天下不下雨)。\\ \\
但如果需要研究硬币朝向和天是否下雨的关系时,此时第二个 sample space 中的所有结果都成为了 //physically different outcomes//。此时选取第二个 sample space 具有更正确粒度的选择(//At the “right” granularity//)。
===描述 sample space===
sample sampce 分为两种类型:
* 离散型,即元素数量可数
* 连续型,即元素数量不可数
==离散型的 sample space==
离散型的的 sample space 有两种描述方式:
* 网格表示法
* 树形表示法
比如描述表示扔两次**四面骰子**(每次 4 种)的所有结果的 sample space:
\\ \\
{{ :math:statistics:mitx_6_431_x:sample_space_description.png?400 |}}
* 网格表示法中,每一个格子代表了一种可能的结果。需要注意的是,不同的顺序代表了不同的结果,比如 (2,3) 代表投 2 再投 3,而 (3,2) 则是 投 3 再投 2
* 树形表示法中,节点代表了阶段 (//stage//),而终点(也被称为 leave)被视作当前阶段下的最终结果。所有的结果可以通过 //stage// 与 //leave// 的组合表示出来。
==连续型的 sample space==
连续型的 sample space 存在着无限多的元素,因此通常使用区间来表示。比如下面的例子:
\\ \\
{{ :math:statistics:mitx_6_431_x:sample_space_description_countine.png?250 |}}
\\
任何方形区域中的结果都可以用 $(x,y)$ 表示($x,y$ 为实数)
====Probability axioms===
===Event===
与离散型的 sample space 不同,连续型的 sample space 拥有无限的精度,因此基于某个确切点(元素)的概率为 $0$。因此,在正式的描述中,概率的表示以 set 为单位。该单位被称为 //Event//,每个 //event// 都是 sample space 的子集。//Event// 使用大写的字母标记(比如 $A$),而概率被记作 $P(A)$。\\ \\
描述过程中,如果某个结果出现,则称描述该结果的 //Event// 出现。
===Probability axioms===
概率的三大公理:
* 概率**不能为负**(//Nonnegtivity//):$P(A) \geq 0$
* 概率的范围为 $[0,1]$(//Normalization//),$1$ 代表了所有的结果,即:$P(\Omega)=1$
* (有限情况下)叠加定理(//Additivity//):如果 $A$ 与 $B$ 没有交集,那么 $P(A∪B) = P(A)+P(B)$
===Properties of probabilities===
==由公理直接可得的性质==
* $P(A) \leq 1$
* $P(\varnothing) = 0$
==基于 additivity 的性质==
在 //Events// 均为独立的(//disjointed//)的情况下:
* //event// 与其补集的概率之和为 $1$,即 $P(A)+P(A^c) = 1$
* $P(A∪B) = P(A) +P(B)$ 可以推广到无限多个 //disjointed events//,即:
$$
P(s_1,s_2....,s_k) = P(s_1)+...P(s_k)
$$
==推广性质(不考虑 event 的独立性)==
* 子集的概率小于等于父集:$if \,\, A ⊂ B, \,\, then\,\, P(A) \leq P(B)$
* 并集的概率等于集合概率之和减去交集的概率:$P(A∪B) = P(A)+P(B)-P(A∩B)$
* 推广版本:$P(A ∪ B ∪ C) = P(A) + P(A^c ∩ B) + P(A^c ∩ B^c ∩ C)$
* 并集的概率小于等于集合概率之和:$P(A∪B) \leq P(A)+P(B)$
上述推广通过文氏图均可轻松理解。等于的情况一般出现在某个 //event// 出现概率为 $1$ 的情况下。
====Probability Caculations====
概率的计算分为如下几个步骤:
- 指定 sample space
- 指定对应的 probability law
- 选取需要计算的 event 进行计算
probability law 的指定是一个比较复杂的过程。不同类型的 sample place 中,probability law 的合法性也不同;因此需要分开进行讨论。
===Discrete and infinite===
对于离散 / 有限的样本空间,probability law 可以视作对应元素(outcome)的概率。比如之前扔四面骰子的例子,我们可以假设投掷两次骰子得到的每种结果,其概率是相等的。由于有 $4 \times 4=16$ 种结果,因此每种结果的概率为 $\frac{1}{16}$。\\ \\
如果需要求指定 set 的概率,那么只需要知道该 set 中存在多少个元素,再与每个结果的概率进行相乘就可以。本例中,假设我们要求两次投掷的点之和是偶数的概率,很容易得出满足条件的 set 为 $\text{{1,1}, {1,3}, {2,2},{4,4}, {3,1},{3,3}, {4,2}, {4,4}}$ ,总计 $8$ 个。因此该 set 出现的概率为 $8 \times \frac{1}{16} = \frac{1}{2}$。
==Discrete uniform law==
在离散/有限的 sample place 中,假设每一个元素(outcome)概率相等的 probability law 被称为 **//Discrete uniform law//**。假设 sample place $\Omega$ 包含了 $n$ 个元素,那么每一个元素的概率为 $\frac{1}{n}$。如果 set $A$ 包含了 $k$ 个元素,那么 $A$ 的概率为:
>$$
P(A) = k \times \frac{1}{n}
$$
===Continuous example==
连续的 sample space 中需要以 event 作为单位来赋予概率,因此 uniform law 需要以另外的表现方式存在。一种比较好的方式是将 probability law 定义为面积,将 //Omega// 面积视作为 $1$。对于需要计算的 event,只需要知道该 event 所占的面积,即可得出其概率。\\ \\
比如下面的例子,可以将 sample space 视作面积为 $1$ 的单位正方形。满足 $x+y \leq \frac{1}{2}$ 的 event 的概率实际上是 $x+y=\frac{1}{2}$ 围成的三角形的面积:\\ \\
{{ :math:statistics:mitx_6_431_x:sample_space_description_countine_exa.png?500 |}}
使用面积表示 uniform law 时需要注意总面积的单位。计算完之后需要对面积进行**标准化**。
===Countable additivity===
除了以上两种情况,我们还会遇到一种 sample place 是**离散的,但又是无限**的情况。来看看下面的例子:\\ \\
//假设我们对一个硬币无限次的进行投掷,那么最终投掷到正面的概率是多少?//\\ \\
该例子中,有两个重点:
* 硬币会被无限次投掷,也就是说 event 是无限的
* 硬币投掷是按次数计算的,也就是说 event 是离散的
那么实际上该例子可以被描述为如下的图像:
\\ \\
{{ :math:statistics:mitx_6_431_x:sp_discrete_but_infinite.png?600 |}}
\\
其中提出的 probability law 为 $\frac{1}{2^n}$。
==Countable additivity Axiom==
那么,此类型的例子应该如何计算概率呢?从直觉上来说,我们应该利用有限 / 离散中的 addtivity axiom 性质来处理这种情况。比如我们想统计所有偶数次硬币投掷向上的概率,则可得:
\begin{align}
P(outcome\,\,is\,\,even) & = P(\text{{2,4,6...}} )\\
& =P(\left \{2 \right \}\cup \left \{4 \right \}\cup \left \{6 \right \}...)\\
&=P(\left \{2 \right \}) +P(\left \{4 \right \})+P(\left \{6 \right \})...\\
&= \frac{1}{2^2}+ \frac{1}{2^4}+ \frac{1}{2^6}...\\
&= \sum_{n=1}^{\infty}\frac{1}{2^{2n}}\\
&= \frac{1}{2^2}\sum_{n=0}^{\infty}(\frac{1}{2})^{2n}\\
&= \frac{1}{4} \times \frac{1}{1-\frac{1}{4}}=\frac{1}{3}
\end{align}
\\
但这里有一个问题,//infinite additivity axiom// 中并没有说明离散但连续的 sample space 可以使用此类性质。实际上,概率论中对此做出了公理上的扩充用于解决此类问题。该公理被称为 //Countable additivity Axiom//,定义如下:
>if $A_1, A_2, A_3,...$ is an **infinite** sequence of **disjoint** events,
>then
>$$P(A_1 ∪ A_2 ∪ A_3 ∪ ··· ) = P(A_1) + P(A_2) + P(A_3) + ··$$
==什么是 countable?==
上面的公理中,有一个条件非常重要://Sequence//。这个条件意味着整个样本空间是无限的,但是是**可记数**(//countable//)的。那么到底什么样的 sample space 才是可记数的?
\\ \\
总的来说,任意**可以排列为序列**的元素,都是可记数的。比如自然数,整数等等。作为反例,点 / 线 等等连续的,作为无限细分的单位(由无限细分的单位组成的)元素,都是不可计数的。//Countable additivity Axiom// 对于此类 sample space 不适用。
可以看出来的是,使用 //Countable additivity Axiom// 的 sample space,其基本单位(无论是 set 还是元素)必须是**离散**的;只有这样才能做到可计数。
====Interpretations of probability theory====
* 当 sample space 可记数时,probability 通常被视作频率(//frequncy//)
* 当 sample space 不存在记数时,probability 也被视作 //Description of beliefs//,或是 //betting preferences//,也就是我们到底有多相信该 event 会发生
===The role of probabiility therory===
{{ :math:statistics:mitx_6_431_x:probability_theory.png?400 |}}
====相关的数学背景知识====
===Sets===
==set 的表示方法==
* 有限的 set 使用大括号:$\{a,b,c,d\}$
* 无限的 set 使用特定的标记:$R: real number$
==属于 / 不属于关系==
* 元素 $x$ 属于/不属于 set $S$:
* 符号:$x \in S$ / $x \notin S$。
* latex: ''\in'' \ ''\notin''
* 记录方法:元素与 set 的关系,加上元素需要满足的性质,比如 $\{x \in R:cos(x)>\frac{1}{2}\}$
==全集,补集与空集==
* 全集:$\Omega$
* 补集(//complement//):$S^c$,$x\in \Omega, \,x\notin S$
* 空集:$\varnothing$
==子集==
* S 为 T 的 subset: $S \subset T $
* $S$ 中的元素也是 $T$ 中的元素
* $S$ 可能与 $T$ 相等(也可以表示为 $\subseteq$)
==并集与交集==
* 符号:并集(//union//): $\cup$,交集(//intersection//):$\cap$
* latex: ''\cup'', ''\cap''
==De Morgan's laws==
并集的补集等于补集的交集,交集的补集等于补集的并集。
$$
\qquad \displaystyle {\Big(\bigcup _ n S_ n\Big)^ c=\bigcap _ n S_ n^ c,\qquad \Big(\bigcap _ n S_ n\Big)^ c=\bigcup _ n S_ n^ c}
$$
===Sequences and their limits===
==Sequences 的理解与定义==
//Sequences// 指一系列的,被**自然数索引的**元素组成的集合。元素本身可以是各种各样类型的数据(实数,欧式 n 维空间中的值,或者是其他的 set 等等)。//Sequences// 中的单位通常以大括号加上元素的方式书写,比如 $\{a_i\}$
正式的定义将 //Sequences// 视为一个函数:该函数读入对应元素的索引值,即可获得对应元素的值,即:
\\
>\begin{align}
f:\mathbb{N} \to S \\
f(i)=a_i
\end{align}
==数列的收敛与性质==
简单数学定义://sequence// 的收敛(//Convergence//),指 //sequence// $a_i$ 在 index $i$ 趋于无穷大时,自身总和 $a_i$ 趋于一个指定的值 $a$,即:
$$
\displaystyle \lim_{i\to\infty}a_i=a
$$
可以看出来,//sequence// 的收敛实际上是在看该数列是否在 index 趋于无穷大时存在极限。因此,上述的定义如果用极限定义的方式可以表示为:
>For any $\epsilon >0$, there exists $i_0$, such that if $i \geq i_0$, then $$|a_i-a|<\epsilon$$
也就是说,当 //sequence// 的长度达到一定限度以后,如果 //sequence// 的值会再以 $[a-\epsilon,a+\epsilon]$ 的这个范围变化的话,那么该 //sequence// 的极限为 $a$,换句话说就是收敛于 $a$。\\ \\
如果 //sequence// 是收敛的,那么:
* $a_i+b_i$ 收敛于 $a+b$
* $a_i \cdot b_i$ 收敛于 $a \cdot b$
* 如果 $g$ 是连续的函数,那么 $g(a_i)$ 会于 $g(a)$ 处收敛
==数列收敛的条件==
条件可以从两种角度来理解:
* 如果 //sequences// 不是一直在增长的,即 $|a_i-a_{a+i}|$ 趋近于 0,那么可以说该 //sequence// 是收敛的
* 如果 //sequence// 的总和与某个点的距离逐渐趋近于 0,那么可以说该 //sequence// 收敛于该点。
===无穷级数===
本节不用深究,要看详细的去看微积分。真的太坑了,这一节的定义是指的收敛的无穷级数。
无穷级数被定义为:
$$
\sum_{i=1}^{\infty}a_i= \lim_{n \to \infty} \sum_{i=1}^{n}a_i
$$
也就是说,如果存在这样一种无穷数列,其前 $n$ 个元素之和存在极限,那么我们可以说这整个数列是收敛的;换句话说,该数列的(无穷和)是一个 //well-defined//,收敛的,无穷级数。
==特殊情况==
某些 //sequence// 的元素可能会拥有不同的符号。这种情况下:
* 极限可能不存在
* 极限可能存在但根据求和的顺序会得到不同的极限
一个典型的例子就是交错级数,比如下面的例子:
$$\sum_{i=1}^{\infty}(-1)^ia_i$$
这种情况下,如果 //sequence// 可以表现为非负(绝对值形式),那么我们就可以对其收敛性做出判断。比如上述的例子可以转化为:
$$\sum_{i=1}^{\infty}|a_i|$$
如果该无穷和是有界的($< \infty$),那么就能说 ${a_i}$ 是 //well-defined// 的无穷级数
==几何级数==