diff --git a/概率论与数理统计/第23节 距离判别.md b/概率论与数理统计/第23节 距离判别.md index 36a2056d..6ab0f3a5 100644 --- a/概率论与数理统计/第23节 距离判别.md +++ b/概率论与数理统计/第23节 距离判别.md @@ -5,33 +5,81 @@ ## 1 欧氏距离与马氏距离 -### 定义 +### 定义:距离判别 * 判别分析:根据样品的观察值判定归属。 * 距离判别原理:对距离进行规定,就近原则判定样品的归属。 ### 定义:欧氏距离 $$ -d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2} +d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}\\ +=\sqrt{(x-y)'(x-y)} $$ > 缺点:指标的量纲不同,意义不同。距离会因各个指标单位的变化而改变 ### 定义:马氏距离 * 声明 $$ -p元总体G的均值\mu和协方差矩阵\Sigma(\Sigma>0) +p元总体G的均值\mu和协方差矩阵\Sigma(\Sigma>0)\\ +x,y是取自G的两个样本 $$ +* 结论 +$$ +马氏距离d(x,y)=\sqrt{(x-y)'\Sigma^{-1}(x-y)} +$$ +> 马氏距离与欧氏距离只相差一个协方差矩阵。具体原理的理解放到第二轮复习当中。 ### 性质 +1. 非负性:$d(x,y)\geq 0,当且仅当x=y时,d(x,y)=0$ +2. 自反性:$d(x,y)=d(y,x)$ +3. 三角不等式:对任意的$x,y,z$,有$d(x,z)\leqd(x,y)+d(y,z)$ + +### 特点 +1. 当$\Sigma = I_p$时,即总体x的各项指标相互独立且方差相同时,马氏距离为欧氏距离。 +2. 马氏距离是将x和y标准化后的欧氏距离。 +$$ +x^*=\Sigma^{-\frac{1}{2}}(x-\mu)\\ +y^*=\Sigma^{-\frac{1}{2}}(y-\mu) +$$ +3. 马氏距离不受变量的两杠变化的影响,是一个无量纲的量。 + + +## 2 两个总体的距离 + +### 定理:距离判别 +$$ +\omega(x)=d^2(x,G_2)-d^2(x,G_1)\\ +\omega(x)=a'(x-\overline{\mu})\\ +$$ +几何意义:用p-1维平面将p维超平面分割成两部分。两个p维空间分别代表$G_1,G_2$ + +### 分类步骤 +* 使用样本估计参数 +$$ +\hat{\mu}=\overline{x}\\ +\hat{\Sigma}=\frac{1}{n-1}S +$$ +* 定义判别函数 +$$ +\omega(x)=a'(x-\overline{\mu}) +$$ +* 带入判别分析 +* 评价判别效果 + ### 判别的优劣-回报法 -使用训练集检验判别的优劣 +使用训练集检验判别的优劣。 ### 判别的优劣-交叉验证法 -将带标签的数据分为两部分,训练集和测试集。 - -分成多份。分别计算f +将带标签的数据分为两部分,训练集和测试集。分成多份。分别计算f。 ### 判别的优劣-刀切法 轮流剔除,得到多个模型,用被剔除的数据进行检验。统计误判率。 -## 2 两个总体的距离 -## 3 多个总体的距离 \ No newline at end of file +## 3 多个总体的距离 + +### 判别方法 + +$$ +d^2(x,G_i)=(x-\mu_i)'\Sigma_i^{-1}(x-\mu_i)\\ +d^2(x,G_l)=min_{1\leq i\leq m}d^2(x,G_i) +$$ + \ No newline at end of file diff --git a/概率论与数理统计/第24节 Bayes判别.md b/概率论与数理统计/第24节 Bayes判别.md index b5982c54..122f34a2 100644 --- a/概率论与数理统计/第24节 Bayes判别.md +++ b/概率论与数理统计/第24节 Bayes判别.md @@ -2,14 +2,128 @@ ## 1 错判风险ECM最小准则 +### 定义:Bayes判别规则 + +* 条件 +$$ +m个正太总体G_1,\cdots,G_m;\\ +密度函数f_1(x),\cdots,f_m(x)\\ +m个个体各自发生的先验概率q_1,\cdots,q_m\\ +错判损失C(j|i),错判矩阵C(R)\\ +错判概率P(j|i,R)=\int_{R_j}f_i(x)d(x)\\ +总平均错判损失:ECM(R)=\sum_{i=1}^mq_i\sum_{j=1}^mC(j|i)P(j|i,R) +$$ +* 结论 +$$ +ECM(R^*)=min_R\{EMC(R)\} +$$ +错判损失最小的划分方法称为bayes判别。 ## 2 两个总体的bayes判别 -### 定理:损失最小判别 +### 定理1:损失最小判别 * 声明 $$ -总体G_1,G_2 +总体G_1,G_2\\ +密度函数f_1(x),f_2(x)\\ +先验概率q_1,q_2\\ +错判损失C(2|1)和C(1|2) $$ * 结论 -## 3 多个总体的bayes判别 \ No newline at end of file + +使得EMC(R)达到最小的判别区域$R^*=(R_1^*,R_2^*)$ +$$ +R_1^*={x:q_1C(2|1)f_1(x)\geq q_2C(1|2)f_2(x)}\\ +R_2^*={x:q_1C(2|1)f_1(x)< q_2C(1|2)f_2(x)} +$$ + +### 定理2:正太总体 + +* 条件 +$$ +G_1,G_2分别服从正太分布N_p(\mu_1,\Sigma_1)和N_p(\mu_2,\Sigma_2) +$$ +* 结论 +$$ +R_1^*=\{x:g(x)\geq \ln \frac{|\Sigma|}{\Sigma_2}+2\ln d\}\\ +g(x)=d^2(x,G_2)-d^2(x,G_1)\\ +d^2(x,G_i)=(x-\mu_i)'\Sigma_i^{-1}(x-\mu_i) +$$ + + +### 定理3:正太总体 + +* 条件 +$$ +G_1,G_2分别服从正太分布N_p(\mu_1,\Sigma_1)和N_p(\mu_2,\Sigma_2) +$$ +* 结论 +$$ +R_1^*=\{x:\varphi(x)\geq \ln d\}\\ +\varphi(x)=a'(x-\overline{\mu})\\ +a'=\Sigma^{-1}(\mu_1-\mu_2),\overline{\mu}=\frac{\mu_1+\mu_2}{2} +$$ +## 3 多个总体的bayes判别 + +### 定理1:Bayes判别 +* 条件 +$$ +m个总体G_1,\cdots,G_m\\ +密度函数f_1(x),\cdots,f_m(x)\\ +先验概率q_1,\cdots,q_m\\ +错误损失C(j|i) +$$ +* 结论 +$$ +取平均损失最小l时G_l为目标类R_l^*=\{x:h_l(x)=\min_{1\leq j\leq m}h_j(x)\}\\ +将样本x归为G_j的平均损失h_j(x)=\sum_{i=1}^mq_iC(j|i)f_i(x)\\ +$$ + +> 对于给定的样品x,计算将样品x归为G_j的平均损失$h_j(x)$,比较h_j(x)的大小。若h_l(x)最小,则判断$x\in G_l$。显然这是最直观的解释。对 + +### 定理2:Bayes判别-损失相同 +* 条件加强 +$$ +m个总体G_1,\cdots,G_m\\ +密度函数f_1(x),\cdots,f_m(x)\\ +先验概率q_1,\cdots,q_m\\ +错判损失都相同C(j|i)=1,C(i|i)=0 +$$ +* 结论 +$$ +R_l^*=\{x:q_lf_l(x)=\max_{1\leq j\leq m}q_jf_j(x)\} +$$ + +### 定理3:Bayes判别-正太总体 + +* 条件加强 +$$ +m个\underline{正太}总体G_1,\cdots,G_m\sim N_p(\mu_i,\Sigma_i)\\ +密度函数f_1(x),\cdots,f_m(x)\\ +先验概率q_1,\cdots,q_m\\ +错判损失都相同C(j|i)=1,C(i|i)=0 +$$ +* 结论 +$$ +R_l^*=\{x:g_l(x)=\min_{1\leq j\leq m}g_j(x)\}\\ +g_j(x)=(x-\mu_j)'\Sigma_j^{-1}(x-\mu_j)-2\ln q_j+\ln |\Sigma_j| +$$ + +### 定理4:Bayes判别-协方差矩阵相同正太总体 +* 条件加强 +$$ +m个\underline{协方差相同正太}总体G_1,\cdots,G_m\sim N_p(\mu_i,\Sigma)\\ +密度函数f_1(x),\cdots,f_m(x)\\ +先验概率q_1,\cdots,q_m\\ +错判损失都相同C(j|i)=1,C(i|i)=0 +$$ +* 结论 +$$ +R_l^*=\{x:\varphi(x)=\max_{1\leq j\leq m}\varphi_j(x)\}\\ +\varphi_j(x)=\mu_j'\Sigma^{-1}x-\frac{1}{2}\mu'_j\Sigma^{-1}\mu_j+\ln q_j +$$ + + + + diff --git a/概率论与数理统计/第25节 Fisher判别.md b/概率论与数理统计/第25节 Fisher判别.md index e69de29b..abe97a9c 100644 --- a/概率论与数理统计/第25节 Fisher判别.md +++ b/概率论与数理统计/第25节 Fisher判别.md @@ -0,0 +1,59 @@ +# Fisher判别 + +## 1 原理 +### 概念 + +Fisher 利用投影,将n为的向量特征投射到一维或者其他几个维度。借助方差分析的思想导出判别函数。 + +### 定义:Fisher投影 + +* 条件 +$$ +m个正太总体G_1,\cdots,G_m\\ +均值\mu_1,\cdots,\mu_m\\ +协方差阵\Sigma_1,\cdots,\Sigma_m\\ +$$ +* 结论 +$$ +线性变换y=a'x\\ +m个1维总体G_1^*,\cdots,G_m^*\\ +均值a'\mu_1,\cdots,a'\mu_m\\ +协方差阵a'\Sigma_1a,\cdots,a'\Sigma_ma\\ +$$ + +### 定义:方差分析 + +* 条件 + +$$ +组间方差,各个向量之间的方差B_0=\sum_{i=1}^m(a'\mu_i-a'\overline{\mu})^2=a'Ba\\ +组内方差,向量各维度间的方差E_0=\sum_{i=1}^ma'\Sigma_ia=a'Ea\\ +\overline{\mu}=\frac{1}{m}\sum_{i=1}^m\mu_i\\ +B=\sum_{i=1}^m(\mu_i-\overline{\mu})(\mu_i-\overline{\mu})'\\ +E=\sum_{i=1}^m\Sigma_i +$$ +* 结论 +$$ +\varphi(a)=\frac{B_0}{E_0}=\frac{a'Ba}{a'Ea} +$$ +这个值越大,表示组间方差越大,表示通过a的投影,区分度越高。取$a'Ea=1的情况下,求a使得\varphi(a)=a'Ba$取最大值。 + +### 定理:Lagrange乘数法 +* 条件 +$$ +矩阵E是正定的\\ +\lambda是E^{-1}B最大特征值,所对应的特征向量a +$$ +* 结论 + +$$ +a'Ea=1\\ +\max_{a'Ea=1}a'Ba=\lambda\\ +$$ + +### 定义:Fisher判别优化 +可以将多维向量投射到多维当中,依次选择$E^{-1}B$特征值最大的特征向量$a_i$作为投影向量。最终压缩为r维指标进行判别。 +$$ +y_i=a'_ix +$$ +## 2 例题 \ No newline at end of file