機率論建構

引入機率論會使用到的集合論、極限、sigma-Field 的基本概念，並用測度論的方始討論機率測度。

2024/03/18

引言

封面故事是用機率的方式計算出圓周率 $\pi$ ，重複 $n$ 次獨立取出兩個介在 $(0, 1)$ 的數 $X$ 與 $Y$ ，定義 $m$ 是 $X^2 + Y^2 \leq 1$ 成立的次數，會發現隨著 $n$ 上升， $4m / n$ 會逐漸往 $\pi$ 收斂，這就是靠採樣逼近圓周率的方式。

由 Laplace 首次定義機率為"目標事件數 / 總事件數"，然而這隱藏了每個事件都是同等機率 (equally likely)，且僅適用於有限 (finite) 事件，其適用性太低，因此我們會透過測度論的方式建構整個機率體系。

機率空間 (Probability Space)

定義 $\Omega$ 是蒐集所有可能樣本的集合，稱為樣本空間 (sample space)，任意 $x \in \Omega$ 稱為樣本 (space)。 $\mathcal F$ 是蒐集 $\Omega$ 子集合的集合，稱為事件空間 (event space)，任意 $E \in \mathcal F$ 稱為事件 (event)。而評估事件發生機率的函數 $P : \mathcal F \to [0, 1]$ ，稱其為機率函數 (probability function)。本段的目標在於建構出一個合理的 $(\Omega, \mathcal F, P)$ 稱為 機率空間 (probability space)。

例如骰子，其樣本空間就是

\Omega = \{1, 2, 3, 4, 5, 6\}

若我們關注的是"點數是奇數或偶數"的事件，則可以定義

\mathcal F = \{ \{ 1, 3, 5 \}, \{ 2, 4, 6 \} \}

假設這顆骰子是公正的，則擲出偶數與奇數的事件理應相同，寫作

0.5 = P (\{ 1, 3, 5 \}) = P (\{ 2, 4, 6 \} )

因此可以稱 ( $\Omega, \mathcal F, P$ ) 為"骰子點數是奇數或偶數"的機率空間。根據這個例子會發現， $\Omega$ 是自然產生的， $\mathcal F$ 是針對問題建構的， $P$ 也可能因為是非公正骰子而有所改動，因此我們需要定義 $\mathcal F$ 和 $P$ 的建構規則。

Sigma-Field

建構事件空間 $\mathcal F$ 時，我們需要確保其在集合操作下的封閉性 (closure)。 $\mathcal F$ 被稱為 $\sigma$ -field (sigma-field)，如果其滿足

$\Omega \in \mathcal F$
若 $E \in \mathcal F$ ，則 $E^c \in \mathcal F$
若 $\contiai{E} \in \mathcal F$ ，則 $\bigcup_{i = 1}^{\infty} E_i \in F$

根據 De Morgan's laws，若 $\mathcal F$ 是 $\sigma$ -field 且 $\contiai{E} \in \mathcal F$ 則 $\bigcap_{i = 1}^{\infty} E_i \in F$ 。且 $\emptyset$ 與 $\Omega$ 存在於所有 $\sigma$ -field。

Partition Construction

給定一個可數 $\Omega$ ，從 $\Omega$ 的切分 (partition) 開始建構一個 $\sigma$ -field，定義 $\varepsilon = \{ \contiai{E} \}$ 是 $\Omega$ 的 partition 滿足

互不相交 (pairwise disjoint): $E_i \cap E_j = \emptyset$ 對任意 $i \ne j$
且 $\bigcup_{i = 1}^{\infty} E_i = \Omega$

則可以寫作 $\mathcal F$ gnerated from $\varepsilon$

\mathcal F = \sigma (\varepsilon) = \mathcal P (\varepsilon) = \{ S : S \subseteq \varepsilon \}

其中 $\mathcal P (\varepsilon)$ 是指 $\varepsilon$ 的 power set。

例如 $\Omega = \{ 1, 2, 3 \}$ ，令 $\varepsilon_1 = \{ \{ 1 \}, \{ 2 \} , \{ 3 \} \}$ 和 $\varepsilon_2 = \{ \{ 1, 2 \}, \{ 3 \} \}$ ，則

\begin{align*} \mathcal F_1 & = \sigma (\varepsilon_1) = \{ \emptyset, \{ 1 \}, \{ 2 \} , \{ 3 \}, \{ 1, 2 \}, \{ 1, 3 \} , \{ 2, 3 \}, \{ 1, 2, 3 \} \}, \newline \mathcal F_2 & = \sigma (\varepsilon_2) = \{ \emptyset, \{ 1, 2 \}, \{ 3 \}, \{ 1, 2, 3 \} \} \end{align*}

對於有限 $|\varepsilon| = n$ ，其建構的 $\sigma$ -field 元素數量會是 $2^n$ 。

Borel Sigma-Field

此時若 $\Omega$ 是不可數，例 $\Omega = [0, 1]$ ，以 $\mathcal F = \sigma (\{ x \}_{x \in \Omega})$ 建構方式雖然仍然是 $\sigma$ -field，但不存在機率測度適用於此 $\mathcal F$ 。

取而代之，會利用 Borel 建構方式，稱為 Borel $\sigma$ -field

\mathcal B = \sigma ( [x, y)_{x < y \in \Omega} )

例如 $[0, 1]$ 上的 Borel $\sigma$ -field， $\{1\} = [0, 1) \in \mathcal B$ ，而任意 $x \in [0, 1)$ ， $\{ x \} = \bigcup_{i = 1}^{\infty} [x, x + 1 / i) \in \mathcal B$ ，因此 $[0, 1) \in \mathcal B$ 。而實數 $\bb R$ 上的 $\mathcal B$ 能透過上述相同方式證明 $\bb Q \in \mathcal B$ ，根據封閉性得到 $\bb Q^c \in \mathcal B$ ，從而使 $\bb R \in \mathcal B$ 。

測度 (Measure)

接著要引入測度 (measure) 概念，目標是用個集合函數 (set function) $\mu$ 來描述集合的大小。現給定 $\Omega$ 上的 $\sigma$ -field $\mathcal F$ ，稱一個集合函數 $\mu : \mathcal F \to \bb R$ 是個測度 (measure)，若其滿足

$\mu (E) \geq 0$ 對任意 $E \in \mathcal F$
$\mu (\emptyset) = 0$
可數可加性 (countalbe addivity): 對任意 $\{ E_i : i \in \bb N \} \subset \mathcal F$ 且互不相交，則 $\mu \left( \bigcup_{i = 1}^{\infty} E_i \right) = \sum_{i = 1}^{\infty} \mu (E_i)$

稱 $(\Omega, \mathcal F)$ 為可測空間 (measurable space)，稱 $\mathcal F$ 為可測集 (measurable sets)，稱 $(\Omega, \mathcal F, \mu)$ 為測度空間 (measure space)。

對應 Borel $\sigma$ -field 的測度稱為 Lebesgue measure，定義為

L ([x, y)) = y - x

若 $\mu$ 的輸出值都是有限的，即 $\mu (E) < \infty$ 對任意 $E \in \mathcal F$ ，則稱 $\mu$ 為 $\sigma$ -finite measure。目標建構的機率空間就是測度空間的一個特例。

機率測度 (Probability Measure)

在可測空間 $(\Omega, \mathcal F)$ 上，機率測度 $P$ 是一種 $\sigma$ -finite measure，其滿足

$P (\Omega) = 1$
$P (A) \in [0, 1]$ ，對任意 $A \in \mathcal F$
$P (\bigcup_{i = 1}^{\infty} A_i) = \sum_{i = 1}^{\infty} P (A_i)$ 對任意互不相交 $\{ A_i \}_{i = 1}^{\infty} \subseteq \mathcal F$

其自然擁有的性質

$P (A^c) = 1 - P (A)$
$P (\emptyset) = 0$
若 $A \subset B$ ，則 $P (A) \leq P (B)$
$P (A \cup B) = P (A) + P (B) - P (AB)$ ，其中 $AB = A \cap B$
Inclusion exclusion formula: $\begin{align*} P (A_1 \cup \cdots \cup A_n) & = \sum_{i = 1}^{n} P (A_i) - \sum_{i_1 \leq i_2} P (A_{i_1} A_{i_2}) + \cdots \newline & \quad + (-1)^{r + 1} \sum_{i_1 \leq \cdots \leq i_r} P (A_{i_1} \cdots A_{i_r}) + \cdots \newline & \quad + (-1)^{n + 1} P (A_1 \cdots A_n) \end{align*}$

機率連續性

本段的目標在討論，給定事件序列 $\{ E_n \}_{n = 1}^{\infty}$ ，在滿足何種條件下 $P$ 與 $\lim$ 具有交換性，即討論

\lim_{n \to \infty} P (E_n) \overset{?}{=} P \left( \lim_{n \to \infty} E_n \right)

其中需先定義集合序列 $\{ E_n \}_{n = 1}^{\infty}$ 的極限

\begin{align*} \liminf_{n \to \infty} E_n = \bigcup_{n = 1}^{\infty} \bigcap_{i = n}^{\infty} E_i \quad \text{and} \quad \limsup_{n \to \infty} E_n = \bigcap_{n = 1}^{\infty} \bigcup_{i = n}^{\infty} E_i \end{align*}

若 $\liminf_{n} E_n = \limsup_{n} E_n$ ，則定義 $\lim_n E_n$ 存在且

\lim_n E_n = \liminf_{n} E_n = \limsup_{n} E_n

其擁有性質是

$\liminf_{n} E_n \subseteq \limsup_{n} E_n$
證明
$\begin{align*} \liminf_{n} E_n & = \bigcup_{n = 1}^{\infty} \bigcap_{i = n}^{\infty} E_i \newline & = \left( \bigcap_{i = 1}^{\infty} E_i \right) \cap \left( \bigcup_{n = 2}^{\infty} \bigcap_{i = n}^{\infty} E_i \right) \newline & \subseteq \bigcap_{i = 1}^{\infty} E_i = \bigcap_{n = 1}^{\infty} E_n \newline & = \bigcap_{n = 1}^{\infty} \bigcup_{i = n}^{n} E_i \newline & \subseteq \bigcap_{n = 1}^{\infty} \bigcup_{i = n}^{\infty} E_i \newline & = \limsup_{n} E_n \end{align*}$
$(\liminf_{n} E_n)^c = \limsup_{n} E_n^c$
證明
$\begin{align*} (\liminf_{n} E_n)^c & = \left( \bigcup_{n = 1}^{\infty} \bigcap_{i = n}^{\infty} E_i \right)^c \newline & = \bigcap_{n = 1}^{\infty} \left( \bigcap_{i = n}^{\infty} E_i \right)^c \newline & = \bigcap_{n = 1}^{\infty} \bigcup_{i = n}^{\infty} E_i^c \newline \newline & = \limsup_{n} E_n^c \end{align*}$
若 $\{ E_n \}$ 是遞增的 ( $E_n \subseteq E_{n + 1}$ )，則 $\lim_{n} E_n = \bigcup_{n = 1}^{\infty} E_n$
證明
因為 $\{ E_n \}$ 是遞增的，所以 $\bigcap_{i = n}^{\infty} E_i = E_n$
$\liminf_{n \to \infty} E_n = \bigcup_{n = 1}^{\infty} \bigcap_{i = n}^{\infty} E_i = \bigcup_{n = 1}^{\infty} E_i$
另一邊， $\bigcup_{i = n}^{\infty} E_i = \bigcup_{i = 1}^{\infty} E_i$ 所以
$\limsup_{n \to \infty} E_n = \bigcap_{n = 1}^{\infty} \bigcup_{i = n}^{\infty} E_i = \bigcap_{n = 1}^{\infty} \bigcup_{i = 1}^{\infty} E_i = \bigcup_{i = 1}^{\infty} E_i$
因此
$\lim_{n \to \infty} E_n = \liminf_{n \to \infty} E_n = \limsup_{n \to \infty} E_n = \bigcup_{i = 1}^{\infty} E_i$
若 $\{ E_n \}$ 是遞減的 ( $E_n \supseteq E_{n + 1}$ )，則 $\lim_{n} E_n = \bigcap_{n = 1}^{\infty} E_n$

最後推論出的性質是，若 $\lim_{n} E_n = E$ ，則機率測度 $P$ 與極限 $\lim$ 具有交換性，即

\lim_{n \to \infty} P (E_n) = P (E) = P \left( \lim_{n \to \infty} E_n \right)

證明

證明分兩步，第一步先證明當 $E_n$ 是單調的 (monotone，即遞增或遞減的) 會滿足交換性，第二步再證明 $\lim_{n} E_n = E$ 時滿足交換性。現假設 $\{E_n\}$ 是遞減的，則

\begin{align*} \lim_{n \to \infty} P (E_n) & = \lim_{n \to \infty} P \left( \bigcup_{i = 1}^{n} E_n \right) && (\{ E_n \} 遞減) \newline & = \lim_{n \to \infty} P \left( \bigcup_{i = 1}^{n} E_n \backslash E_{n - 1} \right) && (任意 n, E_n \backslash E_{n - 1} 互不相交) \newline & = \lim_{n \to \infty} \sum_{i = 1}^{n} P \left( E_n \backslash E_{n - 1} \right) && (\sigma\text{-field} 定義 3) \newline & = \sum_{i = 1}^{\infty} P \left( E_n \backslash E_{n - 1} \right) \newline & = P \left( \bigcup_{i = 1}^{\infty} E_n \backslash E_{n - 1} \right) && (\sigma\text{-field} 定義 3) \newline & = P \left( \lim_{n \to \infty} E_n \right) \end{align*}

若 $\{E_n\}$ 是遞增的，則 $\{E_n^c\}$ 會是遞減的，因此能套用上式

\begin{align*} \lim_{n \to \infty} P (E_n) & = \lim_{n \to \infty} 1 - P (E_n^c) \newline & = 1 - \lim_{n \to \infty} P (E_n^c) \newline & = 1 - P \left( \lim_{n \to \infty} E_n^c \right) \newline & = P \left[ \left( \lim_{n \to \infty} E_n^c \right)^c \right] \newline & = P \left( \lim_{n \to \infty} E_n \right) \end{align*}

最後，對於滿足 $\lim_{n} E_n = E$ 的情況，定義 $A_n = \bigcup_{i = n}^{\infty} E_i$ ，則 $\{A_n\}$ 是遞減的且

\begin{align*} P \left( \lim_{n \to \infty} E_n \right) & = P \left( \limsup_{n \to \infty} E_n \right) \newline & = P \left( \bigcap_{n = 1}^{\infty} \bigcup_{i = n}^{\infty} E_n \right) \newline & = P \left( \bigcap_{n = 1}^{\infty} A_n \right) \newline & = \lim_{n \to \infty} P (A_n) \end{align*}

相似的，定義 $B_n = \bigcap_{i = n}^{\infty} E_i$ ，則 $\{B_n\}$ 是遞減且

\begin{align*} P \left( \lim_{n \to \infty} E_n \right) = P \left( \liminf_{n \to \infty} E_n \right) = \lim_{n \to \infty} P (B_n) \end{align*}

由於

\begin{align*} B_n = \bigcap_{i = n}^{\infty} E_i \subseteq E_n \subseteq \bigcup_{i = n}^{\infty} E_i = A_n \end{align*}

因此

\begin{align*} P (B_n) \leq P (E_n) \leq P (A_n) \end{align*}

最後根據 $\lim_{n \to \infty} P (B_n) = \lim_{n \to \infty} P (A_n)$ ，夾擠出

\begin{align*} P \left( \lim_{n \to \infty} E_n \right) = \lim_{n \to \infty} P \left( E_n \right) \end{align*}

隨機變數 (Random Variable)

隨機變數 (random variable) $X$ 是從樣本空間映射至實數的函數，即 $X : \Omega \to \bb R$ 。給定一個 $\sigma$ -field $\mathcal F$ ，稱 $X$ 是 $\mathcal F$ -measurable 的，若任意 Borel set $\mathcal B$ ，

\begin{align*} X^{-1} (\mathcal B) = \{ \omega \in \Omega : X (\omega) \in \mathcal B \} \in \mathcal F \end{align*}

要求 $X$ 是 $\mathcal F$ -measurable，是因為用數字 ( $\bb R$ ) 表達事件 ( $\Omega$ )，並套用機率測度 $P : \mathcal F \to \bb R$ ，因此要求 $X$ 是能被 $\mathcal F$ 刻劃的。

也經常用區間描述，例如

\begin{align*} X^{-1} ((-\infty, x]) = \{ X \leq x \} = \{ \omega \in \Omega : X (\omega) \leq x \} \in \mathcal F \end{align*}

分布函數 (Distribution Function)

用函數 $F : \bb R \to [0, 1]$ 來描述隨機變數 $X$ 累積的機率分布，稱為 累積分布函數 (cumulative distribution function, cdf)

\begin{align*} F (x) = P (X \leq x) \end{align*}

然而以此定義的 $F$ 牽涉到隨機變數 $X$ (與背後的 $\sigma$ -field $\mathcal F$ )，若僅給定一個函數 $F$ ，稱其是個 cdf 若其滿足

$\lim_{x \to -\infty} F (x) = 0$
$\lim_{x \to \infty} F (x) = 1$
單調 (monotonic increasing)：若 $x_1 \leq x_2$ 則 $F (x_1) \leq F (x_2)$
右連續 (right continuous)： $\lim_{x \to c^+} F (x) = F (c)$

參考資料

A Second Course in Probability, S. M. Ross, E. A. Pekoz