
從擲硬幣到統計理論
引言
封面是用 ChatGPT 繪製的「投擲硬幣,極簡畫風」。乍看還不錯,但仔細一看發現僅有 4 根手指頭。
在擲硬幣問題中,我們想知道硬幣擲出正面的機率,直覺上會重複投擲硬幣,接著看正面出現的比例,並認為投擲越多就能越準。為什麼?這件事情是合理的嗎?這牽涉到兩個議題:
- 什麼是好的參數估計?
- 為什麼樣本數增加會比較準?
參數估計有無窮多種方式,例如看正面與反面出現的比例差,或者連續出現幾次正面的比例,這麼多種方法為什麼偏好用「平均」,所有問題都能用平均嗎?斬釘截鐵的說,不是,這也是統計中參數估計為何重要也困難的原因。
另一方面,樣本數代表什麼意思?比較多的樣本真的會比較準嗎?如果真的比較準,那會準多少?這問題就是所謂信賴區間。
參數估計
在估計硬幣正面機率問題中,以 $1$ 表示正面,$0$ 表示反面,$x_i$ 表示第 $i$ 次的實驗結果,例如 $x_1 = 1, x_2 = 0$ 表示第一次投擲出正面,第二次投擲出反面。我們得從有限的 $n$ 次實驗中 $(\contia{x}{n})$ 估計出「未知的」硬幣正面機率 $p$。
從前面的論述可知,每次硬幣擲出正面的機率都是 $p$,寫做:
$$ \begin{align*} f (x_i; p) & = \begin{cases} p & \text{ if } x_i = 1 \\ 1 - p & \text{ if } x_i = 0 \end{cases} \\ & = p^{x_i} (1 - p)^{1 - x_i} \end{align*} $$那麼 $n$ 次實驗中,出現 $\contia{x}{n}$ 結果的機率為:
$$ \begin{align*} f (\contia{x}{n}; p) & = \prod_{i = 1}^{n} p^{x_i} (1 - p)^{1 - x_i} \\ & = p^{\sum_{i = 1}^{n} x_i} (1 - p)^{n - \sum_{i = 1}^{n} x_i} \\ & = p^{n \ol x} (1 - p)^{n - n \ol x} \\ \end{align*} $$其中 $\ol x = \frac{1}{n} \sum_{i = 1}^{n} x_i$ 就是平均。實驗結果 $\contia{x}{n}$ 是固定的,那 $p$ 的估計量 $\hat p$ 也就是找到能使發生機率 $f (\contia{x}{n}; p)$ 最大的 $p$。
$$ \begin{align*} \hat p = \argmax_{p \in [0, 1]} f (\contia{x}{n}; p) \end{align*} $$直接解這問題不容易處理,因此透過取對數 (log) 解,因 $\hat p$ 同為 $f (\contia{x}{n}; p)$ 與 $\ln f (\contia{x}{n}; p)$ 的極值,其中
$$ \begin{align*} \ln f (\contia{x}{n}; p) = n \ol x \ln (p) + (n - n \ol x) \ln (1 - p) \end{align*} $$透過微積分的求極值方法 (derivative),令一階導數為 0,並檢驗其二階導數為負
$$ \begin{align*} 0 & = \frac{d}{dp} \ln f (\contia{x}{n}; p) \\ & = \frac{n \ol x}{p} - \frac{n - n \ol x}{1 - p} \end{align*} $$得出 $p = \ol x$ 使 $\ln f (\contia{x}{n}; p)$ 一階導數為 0,而其二階導數為
$$ \begin{align*} & \, \left. \frac{d^2}{dp^2} \ln f (\contia{x}{n}; p) \right|_{p = \ol x} \\ = & \, \left. - \frac{n \ol x}{p^2} - \frac{n - n \ol x}{(1 - p)^2} \right|_{p = \ol x} \\ = & \, -n \left[ \frac{1}{\ol x} + \frac{1}{1 - \ol x} \right] \\ < & \, 0 \end{align*} $$其中 $\ol x \in (0, 1)$,所以二階求導必定小於 0,因此 $\ol x$ 為使 $f (\contia{x}{n}; p)$ 最大化的值,即 $\hat p = \ol x$ 是最能夠根據資料描述實際機率的數值。
中央極限定理
上述的 $\hat p = \ol x$ 被稱為點估計,是理論上最佳的參數 $p$ 估計量,然而這沒有提供關於準確度的描述,也就是估計量 $\hat p$ 與真實參數 $p$ 的距離有多遠,雖然這實際上也是未知的。但直覺上,靠 $100$ 個樣本估計比靠 $1$ 個樣本估計來的靠譜。
這時就會提及統計界的重要理論「中央極限定理」,這保障了樣本平均 $\ol X$ 會收練到母體平均 $E [X] = \mu$,除此之外也能用於描述估計的準確度。
給定獨立且同分配的 $\contia{X}{n}$,若其平均 $E [X] = \mu$ 與變異數 $\var (X) = \sigma^2$ 存在,則
$$ \begin{align*} \frac{\ol X - \mu}{\sigma / \sqrt{n}} \xrightarrow{D} N (0, 1) \end{align*} $$其中 $N (0, 1)$ 為標準常態分佈,而這個議題有兩個重點
- 不假設 $\contia{X}{n}$ 為常態分佈,也就是任意分佈只要平均和變異數存在就都能適用,例如前面的伯努利分佈。
- 母體變異數 $\sigma^2$ 實務上也是未知的,因此會用樣本變異數 $s^2$ 估計 $$ \begin{align*} s^2 = \frac{1}{n - 1} (x_i - \ol x)^2 \end{align*} $$
經過轉換,會發現樣本平均收斂到一個常態分佈,其中心為 $\mu$,標準差為 $\sigma / \sqrt {n}$,會隨著樣本數增加,而導致標準差降低,即分佈更加集中。
$$ \begin{align*} \ol X \approx \mu + \frac{s}{\sqrt{n}} N (0, 1) = N \left( \mu, \left( \frac{s}{\sqrt n} \right)^2 \right) \end{align*} $$舉例來說,一個硬幣正面機率為 $0.8$,即母體平均 $\mu = 0.8$ 與標準差為 $\sigma = 0.4$,若重複執行執行樣本數為 $n = 100$ 的投擲實驗以此估計其樣本平均 $\ol x$,則會發現這樣實驗的 $\ol x$ 分佈就大致上服從
$$ \begin{align*} N \left( 0.6, \left( \frac{0.4}{10} \right)^2 \right) \end{align*} $$若擴大實驗至 $n = 10000$,則會發現 $\ol x$ 的分佈會大致上服從
$$ \begin{align*} N \left( 0.6, \left( \frac{0.4}{100} \right)^2 \right) \end{align*} $$由此可知,在重複實驗中,提高樣本數能使採樣的標準差降低,即採樣的結果更加集中,或者說「更加可信」。
信賴區間
上述理論保障了估計的 $\hat p$ 會以 $\sqrt n$ 的速度收斂至真實的 $p$,此時我們就能著重在分佈範圍上,並希望描述平均的估計方法有效範圍,最終的輸出會類似「真實的平均 $\mu$ 有足夠高的機率落在 $[a, b]$ 區間中」(儘管這有點誤區,但不妨成為一個直覺的起點)。
此時從常態分佈出發,定義常數 $Z_{\alpha / 2}$ 為「在標準常態分佈採樣時,能有 $1 - \alpha$ 機率採樣到的區間範圍」,又因常態分佈為對稱的,即定義為
$$ \begin{align*} P (- Z_{\alpha / 2} < N (0, 1) < Z_{\alpha / 2}) = 1 - \alpha \end{align*} $$此方法為建構信賴區間的絕佳方法,若我們希望有足夠高的機率,如 $95\% = 1 - \alpha$ ($\alpha = 0.05$) 能落在某區間內,即滿足
$$ \begin{align*} 1 - \alpha & = P \left( N (0, 1) \in (\pm Z_{\alpha / 2}) \right) \\ & = P \left( \mu + \frac{s}{\sqrt n} N (0, 1) \in \left( \mu \pm \frac{s}{\sqrt n} Z_{\alpha / 2} \right) \right) \\ & \approx P \left( \ol x \in \left( \mu \pm \frac{s}{\sqrt n} Z_{\alpha / 2} \right) \right) \\ & = P \left( \mu \in \left( \ol x \pm \frac{s}{\sqrt n} Z_{\alpha / 2} \right) \right) \\ \end{align*} $$最終建構出來的意思是,$\mu$ 落在 $\ol x \pm \frac{s}{\sqrt n} Z_{\alpha_2}$ 的範圍內的機率為 $1 - \alpha$,因此稱以下區間為 $\mu$ 的 $1 - \alpha$ 信賴區間:
$$ \begin{align*} \ol x \pm \frac{s}{\sqrt n} Z_{\alpha / 2} \end{align*} $$舉例來說,考慮 $0.95$ ($\alpha = 0.05$) 的信賴區間,其 $Z_{\alpha / 2} \approx 1.96$。若實驗 $n = 100$ 次後獲得 $80$ 次正面,即 $\ol x = 0.8$ 與 $s = 0.4$,則其信賴區間為
$$ \begin{align*} 0.8 \pm \frac{0.4}{\sqrt{100}} \times 1.96 & \approx 0.8 \pm 0.0784 \\ & = (0.7216, 0.874) \end{align*} $$若擴大實驗至 $n = 10000$ 得到 8000 次正面,即相同的 $\ol x = 0.8$ 與 $s = 0.4$,則其信賴區間為
$$ \begin{align*} 0.8 \pm \frac{0.4}{\sqrt{10000}} \times 1.96 & \approx 0.8 \pm 0.00784 \\ & = (0.79216, 0.80784) \end{align*} $$能看出 $\mu$ 的信賴區間範圍隨著樣本數增加而減少,即「樣本數越高,準確度越高」。最終回答了原本的問題,隨著樣本數增加,抽樣的準越度或者說可信度的確會增加,且信賴區間的寬度以 $\sqrt{n}$ 的速度收斂。
AB Test
最後一個議題是「如果我有兩個硬幣,那這兩個硬幣出現正面的機率一樣嗎?」這被稱為 AB test,可以應用於回答兩組的機率是否相同的檢定,例如「無投藥的 A 組與投藥的 B 組存活率一樣高嗎?」。
給定兩個獨立的族群 $\contia{X}{n} \iid \ber (p_0)$ 與 $\contia{Y}{m} \iid \ber (p_1)$,要驗證 $p_0$ 是否有別於 $p_1$,還是只是隨機性的導致的差異,即討論假設檢定 $H : p_0 = p_1$ 對上 $A : p_0 \ne p_1$。在 $H$ 的假設條件下,令 $p = p_0 = p_1$,則有
$$ \begin{align*} \ol X = \hat p_0 & \approx N \left( p, \frac{p (1 - p)}{n} \right), \\ \ol Y = \hat p_1 & \approx N \left( p, \frac{p (1 - p)}{m} \right). \end{align*} $$則 $\hat p_0$ 與 $\hat p_1$ 差異也為常態分布
$$ \begin{align*} \hat p_0 - \hat p_1 \approx N \left( 0, p (1 - p) \left( \frac{1}{n} + \frac{1}{m} \right) \right) \end{align*} $$由於 $p$ 實際是未知的,會以 $\hat p$ 估計
$$ \begin{align*} \hat p = \frac{\sum_{i = 1}^{n} X_i + \sum_{j = 1}^{m} Y_j}{n + m} \end{align*} $$轉換後為標準常態分布
$$ \begin{align*} Z = \frac{\hat p_0 - \hat p_1 }{\sqrt{\hat p (1 - \hat p) \left( \frac{1}{n} + \frac{1}{m} \right) }} \approx N \left( 0, 1 \right) \end{align*} $$因此總結為
- $Z \in (- Z_{\alpha / 2}, Z_{\alpha / 2})$ 則不拒絕 $H : p_0 = p_1$
- $Z \notin (- Z_{\alpha / 2}, Z_{\alpha / 2})$ 則拒絕 $H : p_0 = p_1$
結論
回到原本的問題,好的參數估計有時相當直覺,例如擲硬幣的正面機率估計;但更多時候並不容易處理,不過從平均估計硬幣正面機率的過程仍給予了一個啟發「好的參數估計得善用每筆資料」。
另一方面,樣本數增加能使估計更加「準確」,或者說信賴區間的寬度更小,這樣的特性能讓我們知道統計方法的穩定度,也對大致上真實參數的範圍有所理解,這就是在各種民調或是統計數據中經常聽到的信賴區間。