多變數線性回歸
多變性線性回歸的完整推論。
最後更新:
引言
多變數線性回歸的適用範圍相對於單變數的版本又更加廣闊,例如 Stat 501 的 Example on Underground Air Quality,實驗問題是地下的空氣品質不如地上的空氣,那在地下呼吸方式會有所改變嗎?測量一種鳥類在不同環境的呼吸量
- 每分鐘呼吸空氣量 (Y)
- 氧氣百分比 (X1)
- 二氧化碳百分比 (X2)
我們仍然假設存在無法控制的隨機現象 ε
Yi=β0+β1Xi1+β1Xi2+εi而我們的目標在建立一個多變數的預測模型
E(Y)=β0+β1X1+β2X2此時能觀察到,X 有 2 個維度,但參數 β 卻有 3 個維度需要估計。在後續的推論中,我們會假設 X 有 p−1 個維度,而我們需要估計 p 個參數 β0, β1, β2, ⋯, βp−1,寫成
E(Y)=β0+β1X1+β1X2+⋯+βp−1Xp−1為了後續的符號簡潔易懂,引入線性代數的操作。
準備
矩陣表達式
接下來的內容將會大量使用線性代數。用粗體的符號 X、Y、ε 表示為矩陣形式,例如
A=A11A21⋮An1A12A12⋮An2⋯⋯⋱⋯A1pA2p⋮Anp則 A∈Rn×p,若
b=b1b2⋮bn則 b∈Rn×1 簡寫為 b∈Rn 表示 b 是一個向量。
矩陣表示的隨機變數
若 ε∈Rn 是個 random variable,則其期望值表示為
E(ε)=E(ε1)E(ε2)⋮E(εn)其 variance-covariance matrix 表示為
σ2(ε)=σ2(ε1)σ(ε2,ε1)⋮σ(εn,ε1)σ(ε1,ε2)σ2(ε2)⋮σ(εn,ε2)⋯⋯⋱⋯σ(ε1,εn)σ(εn,ε2)⋮σ2(εn)給定任意 A∈Rm×n 矩陣,其具有下列性質性質
E(Aε)σ2(Aε)=AE(ε)=Aσ2(ε)ATYβ^=Xβ+ε=(XTX)−1XTYE(β)=E[(XTX)−1XTY]=(XTX)−1XTE(Y)=(XTX)−1XTXβ=βVar(β)=Var[(XTX)−1XTY]=[(XTX)−1XT]Var(Y)[(XTX)−1XT]T=[(XTX)−1XT]σ2I[X(XTX)−1]=σ2(XTX)−1where
σ2=n−pSSEThe test statistic for H:βi=0 v.s. A:βi=0 is
Var(β^)β^i−E(β^i)=Var(β^)β^i∼tn−p參考資料
Applied linear statistical models. NETER, John, et al. 1996.