圓州率
🌐

Feature Image

Fisher's Linear Discriminant (FDA, LDA, QDA)

數學, 資料科學, 監督式學習, 機器學習
一種監督式學習的機器學習模型,根據資料常態假設做的線性分類模型

引言

給定資料 (X,Y)i.i.d.PX,Y(X, Y) \iid P_{X, Y},其中 Y{1,2,,K}=YY \in \{ \conti{K} \} = \mathcal Y 是類別型的,根據貝氏定理

P(Y=kX=x)=P(X=xY=k)P(Y=k)uYP(X=xY=u)P(Y=u) \begin{align*} P (Y = k | X = x) & = \frac{P (X = x | Y = k) P (Y = k)}{\sum_{u \in \mathcal Y} P (X = x | Y = u) P (Y = u)} \end{align*}

左側的 P(Y=kX=x)P (Y = k | X = x) 就是目標函數,用於描述 “給定 xx 的條件下,YY 是第 kk 類的機率”。

G(x)G (x)YY 的預測函數,在 0-1 loss function L(Y,G(x))=I(YG(x))L (Y, G (x)) = I (Y \ne G (x)) 情況下,則「最小化 Bayes Risk 的 GG」同時也是「最大化 P(Y=yX=x)P (Y = y | X = x) 的解」

G(x)=arg minGFEYxL(Y,G(x))=arg maxkYP(Y=kX=x)=arg maxkYP(X=xY=k)P(Y=k) \begin{align*} G (x) & = \argmin_{G \in \mathcal F} E_{Y | x } L (Y, G (x)) \newline & = \argmax_{k \in \mathcal Y} P (Y = k | X = x) \newline & = \argmax_{k \in \mathcal Y} P (X = x | Y = k) P (Y = k) \end{align*}

Fisher’s Linear Discriminant 是藉由分配假設,將資料視為 KK 群 normal,藉此找到在給定 xx 的條件下,能使 P(Y=kX=x)P (Y = k | X = x) 最大化的 kk

模型假設

P(Y=kX=x)P (Y = k | X = x) 的等式中有兩部分需要運算,分別是 P(Y=k)P (Y = k)P(X=xY=k)P (X = x | Y = k)。此時會假設

  1. P(Y=k)=πkP (Y = k) = \pi_k
  2. XY=kNp(μk,Σk)X | Y = k \sim N_p (\mu_k, \Sigma_k)

對於 πk\pi_k 通常直接採用第 kk 類所佔比例直接估計且 kYπk=1\sum_{k \in \mathcal Y} \pi_k = 1。對於常態假設,理解為「不同群的 Y=kY = k,其 XX 分屬於不同群體的 normal 群體。」寫作

fk(x)=P(XY=k)=1(2π)p/2Σk1/2exp[12(xμk)TΣk1(xμk)] \begin{align*} f_k (x) & = P (X | Y = k) \newline & = \frac{1}{(2 \pi)^{p / 2} |\Sigma_k|^{1/2}} \exp \left[ - \frac{1}{2} (x - \mu_k)^T \Sigma_k^{-1} (x - \mu_k) \right] \end{align*}

模型在此分成兩種,若假設

  1. Σk\Sigma_k 相同,則此分類問題稱為 linear discriminant analysis (LDA)
  2. Σk\Sigma_k 不同,則此分類問題稱為 quadratic discriminant analysis (QDA)

Base Line Method

以第 KK 項作為 base line,比較在給定 xx 時,YY 為何類的機率最高

G(x)=arg maxkYP(X=xY=k)P(Y=k)=arg maxkYln[P(Y=kX=x)P(Y=KX=x)]=arg maxkYln(fk(x)fK(x))+ln(πkπK) \begin{align*} G (x) & = \argmax_{k \in \mathcal Y} P (X = x | Y = k) P (Y = k) \newline & = \argmax_{k \in \mathcal Y} \ln \left[ \frac{P (Y = k | X = x)}{P (Y = K | X = x)} \right] \newline & = \argmax_{k \in \mathcal Y} \ln \left( \frac{f_k (x)}{f_K (x)} \right) + \ln \left( \frac{\pi_k}{\pi_K} \right) \end{align*}

會選擇將兩項對除的理由是,能消除常數項;取 ln\ln 的理由是,且此機率有關 normal 分布,能與 exp\exp 對消。

Linear Discriminant Analysis (LDA)

假設 Σk=Σ\Sigma_k = \Sigma 全部相同

ln(fk(x)fK(x))+ln(πkπK)= xTΣ1(μkμK)12(μk+μK)TΣ1(μkμK) \begin{align*} & \ln \left( \frac{f_k (x)}{f_K (x)} \right) + \ln \left( \frac{\pi_k}{\pi_K} \right) \newline = & \ x^T \Sigma^{-1} (\mu_k - \mu_K) - \frac{1}{2} (\mu_k + \mu_K)^T \Sigma^{-1} (\mu_k - \mu_K) \end{align*}

其中的 KK 有關次項在 G(x)G (x) 最大化的目標 arg maxkY\argmax_{k \in \mathcal Y} 不起作用,因此等價於

G(x)=arg maxkYln(fk(x)fK(x))+ln(πkπK)=arg maxkYxTΣ1μk12μkTΣ1μk+ln(πk) \begin{align*} G (x) & = \argmax_{k \in \mathcal Y} \ln \left( \frac{f_k (x)}{f_K (x)} \right) + \ln \left( \frac{\pi_k}{\pi_K} \right) \newline & = \argmax_{k \in \mathcal Y} x^T \Sigma^{-1} \mu_k - \frac{1}{2} \mu_k^T \Sigma^{-1} \mu_k + \ln (\pi_k) \end{align*}

設其中的

δk(x)=xTΣ1μk12μkTΣ1μk+ln(πk) \begin{align*} \delta_k (x) & = x^T \Sigma^{-1} \mu_k - \frac{1}{2} \mu_k^T \Sigma^{-1} \mu_k + \ln (\pi_k) \end{align*}

因此 G(x)=arg maxkYδk(x)G (x) = \argmax_{k \in \mathcal Y} \delta_k (x)。其中有數個參數需要估計

  1. μ^k=nk/n\hat \mu_k = n_k / n,其中 nKn_K 是第 kk 類的數量,nn 是樣本總數
  2. μ^k=yi=kxi/nk\hat \mu_k = \sum_{y_i = k} x_i / n_k
  3. Σ^=k=1Kyi=k(xiμ^k)(xiμ^k)T/(nK)\hat \Sigma = \sum_{k = 1}^{K} \sum_{y_i = k} (x_i - \hat \mu_k) (x_i - \hat \mu_k)^T / (n - K)

Auadratic Discriminant Analysis (QDA)

假設 Σk\Sigma_k 是不同的,使得 base line 函式寫成

δk(x)=12(xμk)TΣk1(xμk)12lnΣk1+ln(πk) \begin{align*} \delta_k (x) & = -\frac{1}{2} (x - \mu_k)^T \Sigma_k^{-1} (x - \mu_k) - \frac{1}{2} \ln |\Sigma_k^{-1}| + \ln (\pi_k) \end{align*}

其中的

Σ^k=1nkyi=k(xiμ^k)(xiμ^k)T \hat \Sigma_k = \frac{1}{n_k} \sum_{y_i = k} (x_i - \hat \mu_k) (x_i - \hat \mu_k)^T

LDA vs QDA

這討論這兩個模型的好壞前,先了解到 LDA 與 QDA 並沒有 nested 的關係,例如線性回歸的 f1(x)=β0+β1xf_1(x) = \beta_0 + \beta_1 xf2(x)=β0+β1x+β2x2f_2(x) = \beta_0 + \beta_1 x + \beta_2 x^2,可以透過 H:β2=0H : \beta_2 = 0 的假設檢定,若 β2\beta_2 顯著為 0 則 f2f_2 會退化成 f1f_1,因此稱為 nested。由於 LDA 與 QDA 並不 nested,因此建議是兩種模型均嘗試。

xRpx \in \bb R^p,則 LDA 需要估計 μ1,μ2,,μK\contia{\mu}{K}Σ\Sigma,大致上需要估計 Kp+p2K p + p^2 個參數;相對於 QDA 需要估計更多 Σ1,Σ2,,ΣK\contia{\Sigma}{K},大致上需要估計 K(p2+p)K (p^2 + p) 個參數,眾多參數量使得 QDA 在小樣本,多分類情況下表現並不一定理想。

參數假設

QDA 假設每個群組都有不同的 Σk\Sigma_k,雖然能更適用範圍更大,但複雜模型有太多參數需要估計,有時用更強的假設會得到更好的結果。

Normal

XX 的分布並非常態分布,可以考慮

  1. 降低維度
  2. 轉換 (ex: x1/2x^{1/2}ln(x)\ln (x))

Variance-Covariance

  1. 假設 Σk=Σ\Sigma_k = \Sigma 都相同,即用 LDA 取代 QDA
  2. Independent: 假設 Σ=diag(σ12,σ22,,σp2)\Sigma = \text{diag} (\sigma_1^2, \sigma_2^2, \cdots, \sigma_p^2)
  3. Common variance: 假設 Σ=σ2Ip×p\Sigma = \sigma^2 I_{p \times p}

參考資料