判别分析

2026-04-13 18:00:27 +08:00 · 2019-12-28 16:22:53 +08:00
parent b97b5d0d96
commit 700a7b5e5b
3 changed files with 233 additions and 12 deletions
--- a/概率论与数理统计/第23节距离判别.md
+++ b/概率论与数理统计/第23节距离判别.md
@@ -5,33 +5,81 @@

 ## 1 欧氏距离与马氏距离

-### 定义
+### 定义：距离判别
 * 判别分析：根据样品的观察值判定归属。
 * 距离判别原理：对距离进行规定，就近原则判定样品的归属。
 ### 定义：欧氏距离
 $$
-d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}
+d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}\\
+=\sqrt{(x-y)'(x-y)}
 $$
 > 缺点：指标的量纲不同，意义不同。距离会因各个指标单位的变化而改变

 ### 定义：马氏距离
 * 声明
 $$
-p元总体G的均值\mu和协方差矩阵\Sigma(\Sigma>0)
+p元总体G的均值\mu和协方差矩阵\Sigma(\Sigma>0)\\
+x,y是取自G的两个样本
 $$
+* 结论
+$$
+马氏距离d(x,y)=\sqrt{(x-y)'\Sigma^{-1}(x-y)}
+$$
+> 马氏距离与欧氏距离只相差一个协方差矩阵。具体原理的理解放到第二轮复习当中。

 ### 性质

+1. 非负性：$d(x,y)\geq 0,当且仅当x=y时，d(x,y)=0$
+2. 自反性：$d(x,y)=d(y,x)$
+3. 三角不等式：对任意的$x,y,z$，有$d(x,z)\leqd(x,y)+d(y,z)$
+
+### 特点
+1. 当$\Sigma = I_p$时，即总体x的各项指标相互独立且方差相同时，马氏距离为欧氏距离。
+2. 马氏距离是将x和y标准化后的欧氏距离。
+$$
+x^*=\Sigma^{-\frac{1}{2}}(x-\mu)\\
+y^*=\Sigma^{-\frac{1}{2}}(y-\mu)
+$$
+3. 马氏距离不受变量的两杠变化的影响，是一个无量纲的量。
+
+
+## 2 两个总体的距离
+
+### 定理：距离判别
+$$
+\omega(x)=d^2(x,G_2)-d^2(x,G_1)\\
+\omega(x)=a'(x-\overline{\mu})\\
+$$
+几何意义：用p-1维平面将p维超平面分割成两部分。两个p维空间分别代表$G_1,G_2$
+
+### 分类步骤
+* 使用样本估计参数
+$$
+\hat{\mu}=\overline{x}\\
+\hat{\Sigma}=\frac{1}{n-1}S
+$$
+* 定义判别函数
+$$
+\omega(x)=a'(x-\overline{\mu})
+$$
+* 带入判别分析
+* 评价判别效果
+

 ### 判别的优劣-回报法
-使用训练集检验判别的优劣
+使用训练集检验判别的优劣。
 ### 判别的优劣-交叉验证法
-将带标签的数据分为两部分，训练集和测试集。
-
-分成多份。分别计算f
+将带标签的数据分为两部分，训练集和测试集。分成多份。分别计算f。

 ### 判别的优劣-刀切法
 轮流剔除，得到多个模型，用被剔除的数据进行检验。统计误判率。
-## 2 两个总体的距离

-## 3 多个总体的距离
+## 3 多个总体的距离
+
+### 判别方法
+
+$$
+d^2(x,G_i)=(x-\mu_i)'\Sigma_i^{-1}(x-\mu_i)\\
+d^2(x,G_l)=min_{1\leq i\leq m}d^2(x,G_i)
+$$
+ 
--- a/概率论与数理统计/第24节
+++ b/概率论与数理统计/第24节
@@ -2,14 +2,128 @@

 ## 1 错判风险ECM最小准则

+### 定义：Bayes判别规则
+
+* 条件
+$$
+m个正太总体G_1,\cdots,G_m;\\
+密度函数f_1(x),\cdots,f_m(x)\\
+m个个体各自发生的先验概率q_1,\cdots,q_m\\
+错判损失C(j|i),错判矩阵C(R)\\
+错判概率P(j|i,R)=\int_{R_j}f_i(x)d(x)\\
+总平均错判损失:ECM(R)=\sum_{i=1}^mq_i\sum_{j=1}^mC(j|i)P(j|i,R)
+$$
+* 结论
+$$
+ECM(R^*)=min_R\{EMC(R)\}
+$$
+错判损失最小的划分方法称为bayes判别。

 ## 2 两个总体的bayes判别

-### 定理：损失最小判别
+### 定理1：损失最小判别

 * 声明
 $$
-总体G_1,G_2
+总体G_1,G_2\\
+密度函数f_1(x),f_2(x)\\
+先验概率q_1,q_2\\
+错判损失C(2|1)和C(1|2)
 $$
 * 结论
-## 3 多个总体的bayes判别
+
+使得EMC(R)达到最小的判别区域$R^*=(R_1^*,R_2^*)$
+$$
+R_1^*={x:q_1C(2|1)f_1(x)\geq q_2C(1|2)f_2(x)}\\
+R_2^*={x:q_1C(2|1)f_1(x)< q_2C(1|2)f_2(x)}
+$$
+
+### 定理2：正太总体
+
+* 条件
+$$
+G_1,G_2分别服从正太分布N_p(\mu_1,\Sigma_1)和N_p(\mu_2,\Sigma_2)
+$$
+* 结论
+$$
+R_1^*=\{x:g(x)\geq \ln \frac{|\Sigma|}{\Sigma_2}+2\ln d\}\\
+g(x)=d^2(x,G_2)-d^2(x,G_1)\\
+d^2(x,G_i)=(x-\mu_i)'\Sigma_i^{-1}(x-\mu_i)
+$$
+
+
+### 定理3：正太总体
+
+* 条件
+$$
+G_1,G_2分别服从正太分布N_p(\mu_1,\Sigma_1)和N_p(\mu_2,\Sigma_2)
+$$
+* 结论
+$$
+R_1^*=\{x:\varphi(x)\geq \ln d\}\\
+\varphi(x)=a'(x-\overline{\mu})\\
+a'=\Sigma^{-1}(\mu_1-\mu_2),\overline{\mu}=\frac{\mu_1+\mu_2}{2}
+$$
+## 3 多个总体的bayes判别
+
+### 定理1：Bayes判别
+* 条件
+$$
+m个总体G_1,\cdots,G_m\\
+密度函数f_1(x),\cdots,f_m(x)\\
+先验概率q_1,\cdots,q_m\\
+错误损失C(j|i)
+$$
+* 结论
+$$
+取平均损失最小l时G_l为目标类R_l^*=\{x:h_l(x)=\min_{1\leq j\leq m}h_j(x)\}\\
+将样本x归为G_j的平均损失h_j(x)=\sum_{i=1}^mq_iC(j|i)f_i(x)\\
+$$
+
+> 对于给定的样品x，计算将样品x归为G_j的平均损失$h_j(x)$，比较h_j(x)的大小。若h_l(x)最小，则判断$x\in G_l$。显然这是最直观的解释。对
+
+### 定理2：Bayes判别-损失相同
+* 条件加强
+$$
+m个总体G_1,\cdots,G_m\\
+密度函数f_1(x),\cdots,f_m(x)\\
+先验概率q_1,\cdots,q_m\\
+错判损失都相同C(j|i)=1,C(i|i)=0
+$$
+* 结论
+$$
+R_l^*=\{x:q_lf_l(x)=\max_{1\leq j\leq m}q_jf_j(x)\}
+$$
+
+### 定理3：Bayes判别-正太总体
+
+* 条件加强
+$$
+m个\underline{正太}总体G_1,\cdots,G_m\sim N_p(\mu_i,\Sigma_i)\\
+密度函数f_1(x),\cdots,f_m(x)\\
+先验概率q_1,\cdots,q_m\\
+错判损失都相同C(j|i)=1,C(i|i)=0
+$$
+* 结论
+$$
+R_l^*=\{x:g_l(x)=\min_{1\leq j\leq m}g_j(x)\}\\
+g_j(x)=(x-\mu_j)'\Sigma_j^{-1}(x-\mu_j)-2\ln q_j+\ln |\Sigma_j|
+$$
+
+### 定理4：Bayes判别-协方差矩阵相同正太总体
+* 条件加强
+$$
+m个\underline{协方差相同正太}总体G_1,\cdots,G_m\sim N_p(\mu_i,\Sigma)\\
+密度函数f_1(x),\cdots,f_m(x)\\
+先验概率q_1,\cdots,q_m\\
+错判损失都相同C(j|i)=1,C(i|i)=0
+$$
+* 结论
+$$
+R_l^*=\{x:\varphi(x)=\max_{1\leq j\leq m}\varphi_j(x)\}\\
+\varphi_j(x)=\mu_j'\Sigma^{-1}x-\frac{1}{2}\mu'_j\Sigma^{-1}\mu_j+\ln q_j
+$$
+
+
+
+
--- a/概率论与数理统计/第25节
+++ b/概率论与数理统计/第25节
@@ -0,0 +1,59 @@
+# Fisher判别
+
+## 1 原理
+### 概念
+
+Fisher 利用投影，将n为的向量特征投射到一维或者其他几个维度。借助方差分析的思想导出判别函数。
+
+### 定义：Fisher投影
+
+* 条件
+$$
+m个正太总体G_1,\cdots,G_m\\
+均值\mu_1,\cdots,\mu_m\\
+协方差阵\Sigma_1,\cdots,\Sigma_m\\
+$$
+* 结论
+$$
+线性变换y=a'x\\
+m个1维总体G_1^*,\cdots,G_m^*\\
+均值a'\mu_1,\cdots,a'\mu_m\\
+协方差阵a'\Sigma_1a,\cdots,a'\Sigma_ma\\
+$$
+
+### 定义：方差分析
+
+* 条件
+
+$$
+组间方差，各个向量之间的方差B_0=\sum_{i=1}^m(a'\mu_i-a'\overline{\mu})^2=a'Ba\\
+组内方差，向量各维度间的方差E_0=\sum_{i=1}^ma'\Sigma_ia=a'Ea\\
+\overline{\mu}=\frac{1}{m}\sum_{i=1}^m\mu_i\\
+B=\sum_{i=1}^m(\mu_i-\overline{\mu})(\mu_i-\overline{\mu})'\\
+E=\sum_{i=1}^m\Sigma_i
+$$
+* 结论
+$$
+\varphi(a)=\frac{B_0}{E_0}=\frac{a'Ba}{a'Ea}
+$$
+这个值越大，表示组间方差越大，表示通过a的投影，区分度越高。取$a'Ea=1的情况下，求a使得\varphi(a)=a'Ba$取最大值。
+
+### 定理：Lagrange乘数法
+* 条件
+$$
+矩阵E是正定的\\
+\lambda是E^{-1}B最大特征值，所对应的特征向量a
+$$
+* 结论
+
+$$
+a'Ea=1\\
+\max_{a'Ea=1}a'Ba=\lambda\\
+$$
+
+### 定义：Fisher判别优化
+可以将多维向量投射到多维当中，依次选择$E^{-1}B$特征值最大的特征向量$a_i$作为投影向量。最终压缩为r维指标进行判别。
+$$
+y_i=a'_ix
+$$
+## 2 例题