圓州率
🌐

Feature Image

多變數線性回歸

數學, 資料科學, 機器學習, 監督式學習
多變性線性回歸的完整推論。
   最後更新:

引言

多變數線性回歸的適用範圍相對於單變數的版本又更加廣闊,例如 Stat 501Example on Underground Air Quality,實驗問題是地下的空氣品質不如地上的空氣,那在地下呼吸方式會有所改變嗎?測量一種鳥類在不同環境的呼吸量

  1. 每分鐘呼吸空氣量 (YY)
  2. 氧氣百分比 (X1X_1)
  3. 二氧化碳百分比 (X2X_2)

我們仍然假設存在無法控制的隨機現象 ε\varepsilon

Yi=β0+β1Xi1+β1Xi2+εi Y_i = \beta_0 + \beta_1 X_{i1} + \beta_1 X_{i2} + \varepsilon_i

而我們的目標在建立一個多變數的預測模型

E(Y)=β0+β1X1+β2X2 E(Y) = \beta_0 + \beta_1 X_{1} + \beta_2 X_{2}

此時能觀察到,XX22 個維度,但參數 β\beta 卻有 33 個維度需要估計。在後續的推論中,我們會假設 XXp1p - 1 個維度,而我們需要估計 pp 個參數 β0\beta_0, β1\beta_1, β2\beta_2, \cdots, βp1\beta_{p - 1},寫成

E(Y)=β0+β1X1+β1X2++βp1Xp1 E (Y) = \beta_0 + \beta_1 X_1 + \beta_1 X_2 + \cdots + \beta_{p - 1} X_{p - 1}

為了後續的符號簡潔易懂,引入線性代數的操作。

準備

矩陣表達式

接下來的內容將會大量使用線性代數。用粗體的符號 X\bs XY\bs Yε\bs \varepsilon 表示為矩陣形式,例如

A=(A11A12A1pA21A12A2pAn1An2Anp) \bs A = \begin{pmatrix} A_{11} & A_{12} & \cdots & A_{1p} \\ A_{21} & A_{12} & \cdots & A_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ A_{n1} & A_{n2} & \cdots & A_{np} \\ \end{pmatrix}

ARn×p\bs A \in \bb R^{n \times p},若

b=(b1b2bn) \bs b = \begin{pmatrix} b_1 \\ b_2 \\ \vdots \\ b_n \end{pmatrix}

bRn×1\bs b \in \bb R^{n \times 1} 簡寫為 bRn\bs b \in \bb R^{n} 表示 b\bs b 是一個向量。

矩陣表示的隨機變數

εRn\bs \varepsilon \in \bb R^n 是個 random variable,則其期望值表示為

E(ε)=(E(ε1)E(ε2)E(εn)) E (\bs \varepsilon) = \begin{pmatrix} E (\varepsilon_1) \\ E (\varepsilon_2) \\ \vdots \\ E (\varepsilon_n) \end{pmatrix}

其 variance-covariance matrix 表示為

σ2(ε)=(σ2(ε1)σ(ε1,ε2)σ(ε1,εn)σ(ε2,ε1)σ2(ε2)σ(εn,ε2)σ(εn,ε1)σ(εn,ε2)σ2(εn)) \sigma^2 (\bs \varepsilon) = \begin{pmatrix} \sigma^2 (\varepsilon_1) & \sigma (\varepsilon_1, \varepsilon_2) & \cdots & \sigma (\varepsilon_1, \varepsilon_n) \\ \sigma (\varepsilon_2, \varepsilon_1) & \sigma^2 (\varepsilon_2) & \cdots & \sigma (\varepsilon_n, \varepsilon_2) \\ \vdots & \vdots & \ddots & \vdots \\ \sigma (\varepsilon_n, \varepsilon_1) & \sigma (\varepsilon_n, \varepsilon_2) & \cdots & \sigma^2 (\varepsilon_n) \\ \end{pmatrix}

給定任意 ARm×n\bs A \in \bb R^{m \times n} 矩陣,其具有下列性質性質

E(Aε)=AE(ε)σ2(Aε)=Aσ2(ε)AT \begin{align*} E (\bs A \bs \varepsilon) & = \bs A E (\bs \varepsilon) \\ \sigma^2 (\bs A \bs \varepsilon) & = \bs A \sigma^2 (\bs \varepsilon) \bs A^T \end{align*} Y=Xβ+εβ^=(XTX)1XTY \begin{align*} Y & = \bs X \beta + \varepsilon \\ \hat \beta & = (\bs X^T \bs X)^{-1} \bs X^T Y \end{align*} E(β)=E[(XTX)1XTY]=(XTX)1XTE(Y)=(XTX)1XTXβ=β \begin{align*} E (\beta) & = E \left[ (\bs X^T \bs X)^{-1} \bs X^T Y \right] \\ & = (\bs X^T \bs X)^{-1} \bs X^T E (Y) \\ & = (\bs X^T \bs X)^{-1} \bs X^T \bs X \beta \\ & = \beta \end{align*} Var(β)=Var[(XTX)1XTY]=[(XTX)1XT]Var(Y)[(XTX)1XT]T=[(XTX)1XT]σ2I[X(XTX)1]=σ2(XTX)1 \begin{align*} \var (\beta) & = \var \left[ (\bs X^T \bs X)^{-1} \bs X^T Y \right] \\ & = \left[ (\bs X^T \bs X)^{-1} \bs X^T \right] \var (Y) \left[ (\bs X^T \bs X)^{-1} \bs X^T \right]^T \\ & = \left[ (\bs X^T \bs X)^{-1} \bs X^T \right] \sigma^2 I \left[ \bs X (\bs X^T \bs X)^{-1} \right] \\ & = \sigma^2 (\bs X^T \bs X)^{-1} \end{align*}

where

σ2=SSEnp \begin{align*} \sigma^2 = \frac{SSE}{n - p} \end{align*}

The test statistic for H:βi=0H: \beta_i = 0 v.s. A:βi0A : \beta_i \ne 0 is

β^iE(β^i)Var(β^)=β^iVar(β^)tnp \begin{align*} \frac{\hat \beta_i - E (\hat \beta_i)}{\sqrt{\var (\hat \beta)}} = \frac{\hat \beta_i}{\sqrt{\var (\hat \beta)}} \sim t_{n - p} \end{align*}

參考資料

Applied linear statistical models. NETER, John, et al. 1996.