======Probability models and axioms======
//MITx 6.431x notes Unit.1//
----
====Sample space====
建立概率模型分为两个步骤：
  * 描述所有**可能**的结果
  * 描述所有结果的可能性
===Sample space===
//Sample space// 描述的是一个包含了**所有可能结果**的 set，记作 $\Omega$
==sample space 的两个要求==
  * 结果的**独立性**（//Mutually exclusive//），即最终只会出现一个结果
  * 结果的**有穷性**（//Collectively Exhaustive//），即 set 中所有的元素代表了所有可能得结果
==Physically different outcomes==
在 sample space 中，如果两个元素之间所有**相关的层面**（//relevant aspects//）上均不同（互斥），那么可以称这两个元素为 //Physically different outcomes//。选取 sample space 应该基于 //Physically different outcomes//。比如下面的 sample space：
<code>
//sample space 1:
硬币朝上
硬币朝下

//sample space 2:
硬币朝上，天下雨
硬币朝上，天不下雨
硬币朝下，天下雨
硬币朝下，天不下雨
</code>
如果我们只研究硬币的朝向，那么第一个 sample space 就是最适合的，其中包含的都是相关于硬币朝向的 //physically different outcomes//。而反观第二个 sample space，则附带了无关层面的结果（天下不下雨）。\\ \\ 
但如果需要研究硬币朝向和天是否下雨的关系时，此时第二个 sample space 中的所有结果都成为了 //physically different outcomes//。此时选取第二个 sample space 具有更正确粒度的选择（//At the “right” granularity//）。
===描述 sample space===
sample sampce 分为两种类型：
  * 离散型，即元素数量可数
  * 连续型，即元素数量不可数
==离散型的 sample space==
离散型的的 sample space 有两种描述方式：
  * 网格表示法
  * 树形表示法
比如描述表示扔两次**四面骰子**（每次 4 种）的所有结果的 sample space：
\\ \\ 
{{ :math:statistics:mitx_6_431_x:sample_space_description.png?400 |}}

  * 网格表示法中，每一个格子代表了一种可能的结果。需要注意的是，不同的顺序代表了不同的结果，比如 (2,3) 代表投 2 再投 3，而 (3,2) 则是 投 3 再投 2
  * 树形表示法中，节点代表了阶段 (//stage//)，而终点（也被称为 leave）被视作当前阶段下的最终结果。所有的结果可以通过 //stage// 与 //leave// 的组合表示出来。
==连续型的 sample space==
连续型的 sample space 存在着无限多的元素，因此通常使用区间来表示。比如下面的例子：
\\ \\ 
{{ :math:statistics:mitx_6_431_x:sample_space_description_countine.png?250 |}}
\\ 
任何方形区域中的结果都可以用 $(x,y)$ 表示（$x,y$ 为实数）
====Probability axioms===
===Event===
与离散型的 sample space 不同，连续型的 sample space 拥有无限的精度，因此基于某个确切点（元素）的概率为 $0$。因此，在正式的描述中，概率的表示以 set 为单位。该单位被称为 //Event//，每个 //event// 都是 sample space 的子集。//Event// 使用大写的字母标记（比如 $A$），而概率被记作 $P(A)$。\\ \\ 
描述过程中，如果某个结果出现，则称描述该结果的 //Event// 出现。
===Probability axioms===
概率的三大公理：
  * 概率**不能为负**（//Nonnegtivity//)：$P(A) \geq 0$
  * 概率的范围为 $[0,1]$（//Normalization//），$1$ 代表了所有的结果，即：$P(\Omega)=1$
  * （有限情况下）叠加定理（//Additivity//）：如果 $A$ 与 $B$ 没有交集，那么 $P(A∪B) = P(A)+P(B)$
===Properties of probabilities===
==由公理直接可得的性质==
  * $P(A) \leq 1$
  * $P(\varnothing) = 0$
==基于 additivity 的性质==
在 //Events// 均为独立的（//disjointed//）的情况下： 
  * //event// 与其补集的概率之和为 $1$，即 $P(A)+P(A^c) = 1$
  * $P(A∪B) = P(A) +P(B)$ 可以推广到无限多个 //disjointed events//，即：
$$
P(s_1,s_2....,s_k) = P(s_1)+...P(s_k)
$$
==推广性质（不考虑 event 的独立性）==
  * 子集的概率小于等于父集：$if \,\, A ⊂ B, \,\, then\,\, P(A) \leq P(B)$
  * 并集的概率等于集合概率之和减去交集的概率：$P(A∪B) = P(A)+P(B)-P(A∩B)$
    * 推广版本：$P(A ∪ B ∪ C) = P(A) + P(A^c ∩ B) + P(A^c ∩ B^c ∩ C)$
  * 并集的概率小于等于集合概率之和：$P(A∪B) \leq P(A)+P(B)$
<WRAP center round tip 100%>
上述推广通过文氏图均可轻松理解。等于的情况一般出现在某个 //event// 出现概率为 $1$ 的情况下。
</WRAP>
====Probability Caculations====
概率的计算分为如下几个步骤：
  - 指定 sample space
  - 指定对应的 probability law
  - 选取需要计算的 event 进行计算
<WRAP center round box 100%>
probability law 的指定是一个比较复杂的过程。不同类型的 sample place 中，probability law 的合法性也不同；因此需要分开进行讨论。
</WRAP>

===Discrete and infinite===
对于离散 / 有限的样本空间，probability law 可以视作对应元素（outcome）的概率。比如之前扔四面骰子的例子，我们可以假设投掷两次骰子得到的每种结果，其概率是相等的。由于有 $4 \times 4=16$ 种结果，因此每种结果的概率为 $\frac{1}{16}$。\\ \\ 
如果需要求指定 set 的概率，那么只需要知道该 set 中存在多少个元素，再与每个结果的概率进行相乘就可以。本例中，假设我们要求两次投掷的点之和是偶数的概率，很容易得出满足条件的 set 为 $\text{{1,1}, {1,3}, {2,2},{4,4}, {3,1},{3,3}, {4,2}, {4,4}}$ ，总计 $8$ 个。因此该 set 出现的概率为 $8 \times \frac{1}{16} = \frac{1}{2}$。
==Discrete uniform law==
在离散/有限的 sample place 中，假设每一个元素（outcome）概率相等的 probability law 被称为 **//Discrete uniform law//**。假设 sample place $\Omega$ 包含了 $n$ 个元素，那么每一个元素的概率为 $\frac{1}{n}$。如果 set $A$ 包含了 $k$ 个元素，那么 $A$ 的概率为：
>$$
P(A) = k \times \frac{1}{n}
$$
===Continuous example==
连续的 sample space 中需要以 event 作为单位来赋予概率，因此 uniform law 需要以另外的表现方式存在。一种比较好的方式是将 probability law 定义为面积，将 //Omega// 面积视作为 $1$。对于需要计算的 event，只需要知道该 event 所占的面积，即可得出其概率。\\ \\ 
比如下面的例子，可以将 sample space 视作面积为 $1$ 的单位正方形。满足 $x+y \leq \frac{1}{2}$ 的 event 的概率实际上是 $x+y=\frac{1}{2}$ 围成的三角形的面积：\\ \\ 
{{ :math:statistics:mitx_6_431_x:sample_space_description_countine_exa.png?500 |}}
<WRAP center round important 100%>
使用面积表示 uniform law 时需要注意总面积的单位。计算完之后需要对面积进行**标准化**。
</WRAP>
===Countable additivity===
除了以上两种情况，我们还会遇到一种 sample place 是**离散的，但又是无限**的情况。来看看下面的例子：\\ \\ 
//假设我们对一个硬币无限次的进行投掷，那么最终投掷到正面的概率是多少?//\\ \\ 
该例子中，有两个重点：
  * 硬币会被无限次投掷，也就是说 event 是无限的
  * 硬币投掷是按次数计算的，也就是说 event 是离散的
那么实际上该例子可以被描述为如下的图像：
\\ \\ 
{{ :math:statistics:mitx_6_431_x:sp_discrete_but_infinite.png?600 |}}
\\ 
其中提出的 probability law 为 $\frac{1}{2^n}$。


==Countable additivity Axiom==
那么，此类型的例子应该如何计算概率呢？从直觉上来说，我们应该利用有限 / 离散中的 addtivity axiom 性质来处理这种情况。比如我们想统计所有偶数次硬币投掷向上的概率，则可得：

\begin{align}
P(outcome\,\,is\,\,even) & = P(\text{{2,4,6...}} )\\
& =P(\left \{2  \right \}\cup  \left \{4  \right \}\cup \left \{6  \right \}...)\\
&=P(\left \{2 \right \}) +P(\left \{4 \right \})+P(\left \{6 \right \})...\\
&= \frac{1}{2^2}+ \frac{1}{2^4}+ \frac{1}{2^6}...\\
&= \sum_{n=1}^{\infty}\frac{1}{2^{2n}}\\
&= \frac{1}{2^2}\sum_{n=0}^{\infty}(\frac{1}{2})^{2n}\\
&= \frac{1}{4} \times \frac{1}{1-\frac{1}{4}}=\frac{1}{3}
\end{align}
\\ 
但这里有一个问题，//infinite additivity axiom// 中并没有说明离散但连续的 sample space 可以使用此类性质。实际上，概率论中对此做出了公理上的扩充用于解决此类问题。该公理被称为 //Countable additivity Axiom//，定义如下：
>if $A_1, A_2, A_3,...$ is an **infinite** <wrap em>sequence</wrap> of **disjoint** events,
>then 
>$$P(A_1 ∪ A_2 ∪ A_3 ∪ ··· ) = P(A_1) + P(A_2) + P(A_3) + ··$$
==什么是 countable?==
上面的公理中，有一个条件非常重要：//Sequence//。这个条件意味着整个样本空间是无限的，但是是**可记数**（//countable//）的。那么到底什么样的 sample space 才是可记数的？
\\ \\ 
总的来说，任意**可以排列为序列**的元素，都是可记数的。比如自然数，整数等等。作为反例，点 / 线 等等连续的，作为无限细分的单位（由无限细分的单位组成的）元素，都是不可计数的。//Countable additivity Axiom// 对于此类 sample space 不适用。

<WRAP center round tip 100%>
可以看出来的是，使用 //Countable additivity Axiom// 的 sample space，其基本单位（无论是 set 还是元素）必须是**离散**的；只有这样才能做到可计数。
</WRAP>
====Interpretations of probability theory====
  * 当 sample space 可记数时，probability 通常被视作频率（//frequncy//）
  * 当 sample space 不存在记数时，probability 也被视作 //Description of beliefs//，或是 //betting preferences//，也就是我们到底有多相信该 event 会发生
===The role of probabiility therory===
{{ :math:statistics:mitx_6_431_x:probability_theory.png?400 |}}
====相关的数学背景知识====
===Sets===
==set 的表示方法==
    * 有限的 set 使用大括号：$\{a,b,c,d\}$
    * 无限的 set 使用特定的标记：$R: real number$
==属于 / 不属于关系==
  * 元素 $x$ 属于/不属于 set $S$：
    * 符号：$x \in S$ / $x \notin S$。
    * latex: ''\in'' \ ''\notin''
    * 记录方法：元素与 set 的关系，加上元素需要满足的性质，比如 $\{x \in R:cos(x)>\frac{1}{2}\}$
==全集，补集与空集==
  * 全集：$\Omega$
  * 补集（//complement//）：$S^c$，$x\in \Omega, \,x\notin S$ 
  * 空集：$\varnothing$ 
==子集==
  * S 为 T 的 subset: $S \subset T $
    * $S$ 中的元素也是 $T$ 中的元素
    * $S$ 可能与 $T$ 相等（也可以表示为 $\subseteq$）
==并集与交集==
  * 符号：并集（//union//）: $\cup$，交集（//intersection//）：$\cap$ 
  * latex: ''\cup'', ''\cap''
==De Morgan's laws==
并集的补集等于补集的交集，交集的补集等于补集的并集。
$$
\qquad \displaystyle {\Big(\bigcup _ n S_ n\Big)^ c=\bigcap _ n S_ n^ c,\qquad \Big(\bigcap _ n S_ n\Big)^ c=\bigcup _ n S_ n^ c}
$$
===Sequences and their limits===
==Sequences 的理解与定义==
//Sequences// 指一系列的，被**自然数索引的**元素组成的集合。元素本身可以是各种各样类型的数据（实数，欧式 n 维空间中的值，或者是其他的 set 等等）。//Sequences// 中的单位通常以大括号加上元素的方式书写，比如 $\{a_i\}$
正式的定义将 //Sequences// 视为一个函数：该函数读入对应元素的索引值，即可获得对应元素的值，即：
\\ 
>\begin{align}
f:\mathbb{N} \to S \\
f(i)=a_i
\end{align}
==数列的收敛与性质==
简单数学定义：//sequence// 的收敛（//Convergence//），指 //sequence// $a_i$ 在 index $i$ 趋于无穷大时，自身总和 $a_i$ 趋于一个指定的值 $a$，即：
$$
\displaystyle \lim_{i\to\infty}a_i=a
$$
可以看出来，//sequence// 的收敛实际上是在看该数列是否在 index 趋于无穷大时存在极限。因此，上述的定义如果用极限定义的方式可以表示为：
>For any $\epsilon >0$, there exists $i_0$, such that if $i \geq i_0$, then $$|a_i-a|<\epsilon$$
也就是说，当 //sequence// 的长度达到一定限度以后，如果 //sequence// 的值会再以 $[a-\epsilon,a+\epsilon]$ 的这个范围变化的话，那么该 //sequence// 的极限为 $a$，换句话说就是收敛于 $a$。\\ \\ 
如果 //sequence// 是收敛的，那么：
  * $a_i+b_i$ 收敛于 $a+b$
  * $a_i \cdot  b_i$ 收敛于 $a \cdot b$
  * 如果 $g$ 是连续的函数，那么 $g(a_i)$ 会于 $g(a)$ 处收敛
==数列收敛的条件==
条件可以从两种角度来理解：
  * 如果 //sequences// 不是一直在增长的，即 $|a_i-a_{a+i}|$ 趋近于 0，那么可以说该 //sequence// 是收敛的
  * 如果 //sequence// 的总和与某个点的距离逐渐趋近于 0，那么可以说该 //sequence// 收敛于该点。
===无穷级数===
<WRAP center round box 100%>
本节不用深究，要看详细的去看微积分。真的太坑了，这一节的定义是指的收敛的无穷级数。
</WRAP>
无穷级数被定义为：
$$
\sum_{i=1}^{\infty}a_i= \lim_{n \to \infty} \sum_{i=1}^{n}a_i
$$
也就是说，如果存在这样一种无穷数列，其前 $n$ 个元素之和存在极限，那么我们可以说这整个数列是收敛的；换句话说，该数列的（无穷和）是一个 //well-defined//，收敛的，无穷级数。
==特殊情况==
某些 //sequence// 的元素可能会拥有不同的符号。这种情况下：
  * 极限可能不存在
  * 极限可能存在但根据求和的顺序会得到不同的极限
一个典型的例子就是交错级数，比如下面的例子：
$$\sum_{i=1}^{\infty}(-1)^ia_i$$
这种情况下，如果 //sequence// 可以表现为非负（绝对值形式），那么我们就可以对其收敛性做出判断。比如上述的例子可以转化为：
$$\sum_{i=1}^{\infty}|a_i|$$
如果该无穷和是有界的（$< \infty$），那么就能说 ${a_i}$ 是 //well-defined// 的无穷级数
==几何级数==