多變數線性回歸

多變性線性回歸的完整推論。

2024/02/19 最後更新: 2024/07/02

引言

多變數線性回歸的適用範圍相對於單變數的版本又更加廣闊，例如 Stat 501 的 Example on Underground Air Quality，實驗問題是地下的空氣品質不如地上的空氣，那在地下呼吸方式會有所改變嗎？測量一種鳥類在不同環境的呼吸量

每分鐘呼吸空氣量 ( $Y$ )
氧氣百分比 ( $X_1$ )
二氧化碳百分比 ( $X_2$ )

我們仍然假設存在無法控制的隨機現象 $\varepsilon$

Y_i = \beta_0 + \beta_1 X_{i1} + \beta_1 X_{i2} + \varepsilon_i

而我們的目標在建立一個多變數的預測模型

E(Y) = \beta_0 + \beta_1 X_{1} + \beta_2 X_{2}

此時能觀察到， $X$ 有 $2$ 個維度，但參數 $\beta$ 卻有 $3$ 個維度需要估計。在後續的推論中，我們會假設 $X$ 有 $p - 1$ 個維度，而我們需要估計 $p$ 個參數 $\beta_0$ , $\beta_1$ , $\beta_2$ , $\cdots$ , $\beta_{p - 1}$ ，寫成

E (Y) = \beta_0 + \beta_1 X_1 + \beta_1 X_2 + \cdots + \beta_{p - 1} X_{p - 1}

為了後續的符號簡潔易懂，引入線性代數的操作。

準備

矩陣表達式

接下來的內容將會大量使用線性代數。用粗體的符號 $\bs X$ 、 $\bs Y$ 、 $\bs \varepsilon$ 表示為矩陣形式，例如

\bs A = \begin{pmatrix} A_{11} & A_{12} & \cdots & A_{1p} \\ A_{21} & A_{12} & \cdots & A_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ A_{n1} & A_{n2} & \cdots & A_{np} \\ \end{pmatrix}

則 $\bs A \in \bb R^{n \times p}$ ，若

\bs b = \begin{pmatrix} b_1 \\ b_2 \\ \vdots \\ b_n \end{pmatrix}

則 $\bs b \in \bb R^{n \times 1}$ 簡寫為 $\bs b \in \bb R^{n}$ 表示 $\bs b$ 是一個向量。

矩陣表示的隨機變數

若 $\bs \varepsilon \in \bb R^n$ 是個 random variable，則其期望值表示為

E (\bs \varepsilon) = \begin{pmatrix} E (\varepsilon_1) \\ E (\varepsilon_2) \\ \vdots \\ E (\varepsilon_n) \end{pmatrix}

其 variance-covariance matrix 表示為

\sigma^2 (\bs \varepsilon) = \begin{pmatrix} \sigma^2 (\varepsilon_1) & \sigma (\varepsilon_1, \varepsilon_2) & \cdots & \sigma (\varepsilon_1, \varepsilon_n) \\ \sigma (\varepsilon_2, \varepsilon_1) & \sigma^2 (\varepsilon_2) & \cdots & \sigma (\varepsilon_n, \varepsilon_2) \\ \vdots & \vdots & \ddots & \vdots \\ \sigma (\varepsilon_n, \varepsilon_1) & \sigma (\varepsilon_n, \varepsilon_2) & \cdots & \sigma^2 (\varepsilon_n) \\ \end{pmatrix}

給定任意 $\bs A \in \bb R^{m \times n}$ 矩陣，其具有下列性質性質

\begin{align*} E (\bs A \bs \varepsilon) & = \bs A E (\bs \varepsilon) \\ \sigma^2 (\bs A \bs \varepsilon) & = \bs A \sigma^2 (\bs \varepsilon) \bs A^T \end{align*}

\begin{align*} Y & = \bs X \beta + \varepsilon \\ \hat \beta & = (\bs X^T \bs X)^{-1} \bs X^T Y \end{align*}

\begin{align*} E (\beta) & = E \left[ (\bs X^T \bs X)^{-1} \bs X^T Y \right] \\ & = (\bs X^T \bs X)^{-1} \bs X^T E (Y) \\ & = (\bs X^T \bs X)^{-1} \bs X^T \bs X \beta \\ & = \beta \end{align*}

\begin{align*} \var (\beta) & = \var \left[ (\bs X^T \bs X)^{-1} \bs X^T Y \right] \\ & = \left[ (\bs X^T \bs X)^{-1} \bs X^T \right] \var (Y) \left[ (\bs X^T \bs X)^{-1} \bs X^T \right]^T \\ & = \left[ (\bs X^T \bs X)^{-1} \bs X^T \right] \sigma^2 I \left[ \bs X (\bs X^T \bs X)^{-1} \right] \\ & = \sigma^2 (\bs X^T \bs X)^{-1} \end{align*}

where

\begin{align*} \sigma^2 = \frac{SSE}{n - p} \end{align*}

The test statistic for $H: \beta_i = 0$ v.s. $A : \beta_i \ne 0$ is

\begin{align*} \frac{\hat \beta_i - E (\hat \beta_i)}{\sqrt{\var (\hat \beta)}} = \frac{\hat \beta_i}{\sqrt{\var (\hat \beta)}} \sim t_{n - p} \end{align*}

參考資料

Applied linear statistical models. NETER, John, et al. 1996.