圓州率
🌐

Feature Image

多變數線性回歸

數學, 資料科學, 機器學習, 監督式學習
多變性線性回歸的完整推論。
   最後更新:

引言

多變數線性回歸的適用範圍相對於單變數的版本又更加廣闊,例如 Stat 501Example on Underground Air Quality,實驗問題是地下的空氣品質不如地上的空氣,那在地下呼吸方式會有所改變嗎?測量一種鳥類在不同環境的呼吸量

  1. 每分鐘呼吸空氣量 ($Y$)
  2. 氧氣百分比 ($X_1$)
  3. 二氧化碳百分比 ($X_2$)

我們仍然假設存在無法控制的隨機現象 $\varepsilon$

$$ Y_i = \beta_0 + \beta_1 X_{i1} + \beta_1 X_{i2} + \varepsilon_i $$

而我們的目標在建立一個多變數的預測模型

$$ E(Y) = \beta_0 + \beta_1 X_{1} + \beta_2 X_{2} $$

此時能觀察到,$X$ 有 $2$ 個維度,但參數 $\beta$ 卻有 $3$ 個維度需要估計。在後續的推論中,我們會假設 $X$ 有 $p - 1$ 個維度,而我們需要估計 $p$ 個參數 $\beta_0$, $\beta_1$, $\beta_2$, $\cdots$, $\beta_{p - 1}$,寫成

$$ E (Y) = \beta_0 + \beta_1 X_1 + \beta_1 X_2 + \cdots + \beta_{p - 1} X_{p - 1} $$

為了後續的符號簡潔易懂,引入線性代數的操作。

準備

矩陣表達式

接下來的內容將會大量使用線性代數。用粗體的符號 $\bs X$、$\bs Y$、$\bs \varepsilon$ 表示為矩陣形式,例如

$$ \bs A = \begin{pmatrix} A_{11} & A_{12} & \cdots & A_{1p} \\ A_{21} & A_{12} & \cdots & A_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ A_{n1} & A_{n2} & \cdots & A_{np} \\ \end{pmatrix} $$

則 $\bs A \in \bb R^{n \times p}$,若

$$ \bs b = \begin{pmatrix} b_1 \\ b_2 \\ \vdots \\ b_n \end{pmatrix} $$

則 $\bs b \in \bb R^{n \times 1}$ 簡寫為 $\bs b \in \bb R^{n}$ 表示 $\bs b$ 是一個向量。

矩陣表示的隨機變數

若 $\bs \varepsilon \in \bb R^n$ 是個 random variable,則其期望值表示為

$$ E (\bs \varepsilon) = \begin{pmatrix} E (\varepsilon_1) \\ E (\varepsilon_2) \\ \vdots \\ E (\varepsilon_n) \end{pmatrix} $$

其 variance-covariance matrix 表示為

$$ \sigma^2 (\bs \varepsilon) = \begin{pmatrix} \sigma^2 (\varepsilon_1) & \sigma (\varepsilon_1, \varepsilon_2) & \cdots & \sigma (\varepsilon_1, \varepsilon_n) \\ \sigma (\varepsilon_2, \varepsilon_1) & \sigma^2 (\varepsilon_2) & \cdots & \sigma (\varepsilon_n, \varepsilon_2) \\ \vdots & \vdots & \ddots & \vdots \\ \sigma (\varepsilon_n, \varepsilon_1) & \sigma (\varepsilon_n, \varepsilon_2) & \cdots & \sigma^2 (\varepsilon_n) \\ \end{pmatrix} $$

給定任意 $\bs A \in \bb R^{m \times n}$ 矩陣,其具有下列性質性質

$$ \begin{align*} E (\bs A \bs \varepsilon) & = \bs A E (\bs \varepsilon) \\ \sigma^2 (\bs A \bs \varepsilon) & = \bs A \sigma^2 (\bs \varepsilon) \bs A^T \end{align*} $$$$ \begin{align*} Y & = \bs X \beta + \varepsilon \\ \hat \beta & = (\bs X^T \bs X)^{-1} \bs X^T Y \end{align*} $$$$ \begin{align*} E (\beta) & = E \left[ (\bs X^T \bs X)^{-1} \bs X^T Y \right] \\ & = (\bs X^T \bs X)^{-1} \bs X^T E (Y) \\ & = (\bs X^T \bs X)^{-1} \bs X^T \bs X \beta \\ & = \beta \end{align*} $$$$ \begin{align*} \var (\beta) & = \var \left[ (\bs X^T \bs X)^{-1} \bs X^T Y \right] \\ & = \left[ (\bs X^T \bs X)^{-1} \bs X^T \right] \var (Y) \left[ (\bs X^T \bs X)^{-1} \bs X^T \right]^T \\ & = \left[ (\bs X^T \bs X)^{-1} \bs X^T \right] \sigma^2 I \left[ \bs X (\bs X^T \bs X)^{-1} \right] \\ & = \sigma^2 (\bs X^T \bs X)^{-1} \end{align*} $$

where

$$ \begin{align*} \sigma^2 = \frac{SSE}{n - p} \end{align*} $$

The test statistic for $H: \beta_i = 0$ v.s. $A : \beta_i \ne 0$ is

$$ \begin{align*} \frac{\hat \beta_i - E (\hat \beta_i)}{\sqrt{\var (\hat \beta)}} = \frac{\hat \beta_i}{\sqrt{\var (\hat \beta)}} \sim t_{n - p} \end{align*} $$

參考資料

Applied linear statistical models. NETER, John, et al. 1996.