更新 6.SVM公式

2026-06-30 02:06:14 +08:00 · 2017-04-19 17:06:39 +08:00
parent c25cad8f09
commit cff2ae54c4
2 changed files with 23 additions and 22 deletions
--- a/docs/6.支持向量机.md
+++ b/docs/6.支持向量机.md
@@ -53,53 +53,54 @@ This is the simplest kind of SVM (Called an LSVM) Support Vectors are those data
 ```

 * 选择D会比B、C分隔的效果要好很多，原因是上述的5个结论。
+* 所有的点看作地雷吧，那么我们(超平面)得找到最近所有的地雷，并保证我们离它最远。
 ![线性可分](/images/6.SVM/SVM_3_linearly-separable.jpg)

 ### 怎么寻找最大间隔

 > 点到超平面的距离

-* 分隔超平面`函数间距`: $$y(x)=w^Tx+b$$ 
-* 分类的结果： $$f(x)=sign(w^Tx+b)$$  (sign表示>0为1，<0为-1，=0为0) 
-* 点到超平面的`几何间距`: $$d(x)=(w^Tx+b)/||w||$$  [ ||w||表示w矩阵的二范式=> sqrt(w*w^T), 点到超平面的距离也是类似的，需要复习一下向量的知识 ]
+* 分隔超平面`函数间距`:  \\(y(x)=w^Tx+b\\)
+* 分类的结果： \\(f(x)=sign(w^Tx+b)\\)  (sign表示>0为1，<0为-1，=0为0) 
+* 点到超平面的`几何间距`: \\(d(x)=(w^Tx+b)/||w||\\)  （||w||表示w矩阵的二范式=> \\(\sqrt{w*w^T}\\), 点到超平面的距离也是类似的，需要复习一下向量的知识）
 ![点到直线的几何距离](/images/6.SVM/SVM_4_point2line-distance.png)

 > 拉格朗日乘子法的使用

-* 类别标签用-1、1，是为了后期方便`lable*(w^Tx+b)`的标识和距离计算；如果`lable*(w^Tx+b)>0`表示预测正确，否则预测错误。
+* 类别标签用-1、1，是为了后期方便 \\(lable*(w^Tx+b)\\) 的标识和距离计算；如果 \\(lable*(w^Tx+b)>0\\) 表示预测正确，否则预测错误。
 * 现在目标很明确，就是要找到`w`和`b`，因此我们必须要找到最小间隔的数据点，也就是前面所说的`支持向量`。
    * 也就说，让最小的距离取最大.(最小的距离：就是最小间隔的数据点；最大：就是最大间距，为了找出最优超平面--最终就是支持向量)
    * 怎么理解呢？ 例如： 所有的点看作地雷吧，那么我们(超平面)得找到最近所有的地雷，并保证我们离它最远。
-    * 目标函数：`arg max{min(lable*(w^Tx+b)/||w||)}`
-    * 1.如果`lable*(w^Tx+b)>0`表示预测正确，`||w||`可以理解为归一化，我们始终可以找到一个阈值让`lable*(w^Tx+b)>=1`
-    * 2.所以令`lable*(w^Tx+b)=1`，我们本质上是求 `arg max[关于w, b] (1/||w||)`；也就说，我们约束(前提)条件是`lable*(w^Tx+b)>=1`
-* 新的目标函数求解： `arg max[关于w, b] (1/||w||)`
-    * => 就是求: `arg min[关于w, b] (||w||)` (求矩阵会比较麻烦，如果x只是1/2*X^2的偏导数，那么。。同样是求最小值)
-    * => 就是求: `arg min[关于w, b] (1/2*||w||^2)`  (二次函数求导，求极值，平方也方便计算)
+    * 目标函数：\\(arg: max\ \{min\ [lable*(w^Tx+b)/||w||]\}\\)
+    * 1.如果 \\(lable*(w^Tx+b)>0\\) 表示预测正确，也称`函数间隔`，\\(||w||\\) 可以理解为归一化，也称`几何间隔`，我们始终可以找到一个阈值让 \\(lable*(w^Tx+b)>=1\\)
+    * 2.所以令 \\(lable*(w^Tx+b)=1\\)，我们本质上是求 \\(arg: max\{关于w, b\}(1/||w||)\\)；也就说，我们约束(前提)条件是: \\(lable*(w^Tx+b)>=1\\)
+* 新的目标函数求解： \\(arg: max\{关于w, b\}\ (1/||w||)\\)
+    * => 就是求: \\(arg: min\{关于w, b\}\ (||w||)\\) (求矩阵会比较麻烦，如果x只是1/2*X^2的偏导数，那么。。同样是求最小值)
+    * => 就是求: \\(arg: min\{关于w, b\}\ (\frac{1}{2}*||w||^2)\\) (二次函数求导，求极值，平方也方便计算)
    * 本质上就是求线性不等式的二次优化问题(求分隔超平面，等价于求解相应的凸二次规划问题。)
 * 通过拉格朗日乘子法，求二次优化问题
-    * 假设需要求极值的目标函数 (objective function) 为 f(x,y)，限制条件为 φ(x,y)=M
-    * 设g(x,y)=M-φ(x,y)   # 临时φ(x,y)表示下文中`label*(w^Tx+b)`
+    * 假设需要求极值的目标函数 (objective function) 为 f(x,y)，限制条件为 φ(x,y)=M  # M>=1
+    * 设g(x,y)=M-φ(x,y)   # 临时φ(x,y)表示下文中 \\(label*(w^Tx+b)\\)
    * 定义一个新函数: F(x,y,λ)=f(x,y)+λg(x,y)
    * a为λ，代表要引入的拉格朗日乘子(Lagrange multiplier)
-    * 那么： `L(w,b,a)=1/2||w||^2 + Σ a*[1-label*(w^Tx+b)]` => `L(w,b,a)=1/2||w||^2 - Σ a*[label*(w^Tx+b)-1]` 
-    * 因为：`label*(w^Tx+b)>=1, a>0` , 所以`a*[label*(w^Tx+b)-1]>=0`, Σ 0~n的加和也都大于0
-    * `max[关于a] (L(w,b,a)) = 1/2*||w||^2`
-    * 如果求： `min(1/2*||w||^2)`, 也就是要求： `arg min[关于w, b]{ max[关于a] (L(w,b,a)) }`
+    * 那么： \\(L(w,b,\alpha)=\frac{1}{2} * ||w||^2 + \sum_{i=1}^{n} \alpha * [1 - label * (w^Tx+b)]\\)  => \\(L(w,b,\alpha)=\frac{1}{2} * ||w||^2 - \sum_{i=1}^{n} \alpha * [label * (w^Tx+b) - 1]\\) 
+    * 因为：\\(label*(w^Tx+b)>=1, \alpha>0\\) , 所以 \\(\alpha*[label*(w^Tx+b)-1]>=0\\), \\(\sum_{i=1}^{n} \alpha * [label * (w^Tx+b) - 1]>=0\\) 
+    * \\(max\{关于\alpha\}\ L(w,b,\alpha) = \frac{1}{2} *||w||^2\\) 
+    * 如果求： \\(min\{关于w, b\}\ \frac{1}{2} *||w||^2\\) , 也就是要求： \\(min\{关于w, b\}\ [max\{关于\alpha\}\ L(w,b,\alpha)]\\) 
 * 现在转化到对偶问题的求解
-    * `min[关于w, b]{ max[关于w, b] (L(w,b,a)) } >= max[关于w, b] { min[关于w, b] (L(w,b,a)) }`
+    * \\(min\{关于w, b\}\ [max\{关于\alpha\}\ L(w,b,\alpha)]\\) >= \\(max\{关于\alpha\}\ [min\{关于w, b\}\ L(w,b,\alpha)]\\) 
    * 现在分2步
-    * 先求：`min[关于w, b] (L(w,b,a))=1/2||w||^2 + Σ a*[1-label*(w^Tx+b)]`
+    * 先求： \\(min\{关于w, b\}\ L(w,b,\alpha)=\frac{1}{2} * ||w||^2 + \sum_{i=1}^{n} \alpha * [1 - label * (w^Tx+b)]\\)
    * 就是求`L(w,b,a)`关于[w, b]的偏导数, 得到`w和b的值`，并化简为：`L和a的方程`。
-    * 参考： 1.【计算拉格朗日函数的对偶函数-下图是参考小象学院】 2.如果公式推导还是不懂，也可以参考《统计学习方法》李航-P103<学习的对偶算法>
+    * 参考： 如果公式推导还是不懂，也可以参考《统计学习方法》李航-P103<学习的对偶算法>
    * ![计算拉格朗日函数的对偶函数](/images/6.SVM/SVM_5_Lagrangemultiplier.png)
-* 终于得到课本上的公式：`max(Σ(i=>n) a[i] - 1/2*Σ(i,j=>n) a[i]*a[j]]*label(i)*label(j)*<xi*xj内积>)`
-* 约束条件： `a>=0 and Σ a[i]*label(i)=0`
+* 终于得到课本上的公式： \\(max\ \{\alpha\}\ [\sum_{i=1}^{m} \alpha - \frac{1}{2} \sum_{i, j=1}^{m} label_i·label_j·\alpha_i·\alpha_j·<x_i, x_j>]\\)
+* 约束条件： \\(a>=0,\ and\ \sum_{i=1}^{m} a_i·label_i=0\\)

 > 松弛变量(slack variable)

 * 我们知道几乎所有的数据都不那么干净, 通过引入松弛变量来允许数据点可以处于分隔面错误的一侧。
-* 约束条件： `C>=a>=0 and Σ a[i]*label(i)=0`
+* 约束条件： \\(C>=a>=0,\ and\ \sum_{i=1}^{m} a_i·label_i=0\\)
 * 这里常量C用于控制“最大化间隔”和“保证大部分点的函数间隔小于1.0” 这两个目标的权重。
 * 常量C是一个常数，我们通过调节钙参数得到不同的结果。一旦求出了所有的alpha，那么分隔超平面就可以通过这些alpha来表示。
 * 这一结论十分直接，SVM中的主要工作就是要求解 alpha.
--- a/images/6.SVM/SVM_5_Lagrangemultiplier.png
+++ b/images/6.SVM/SVM_5_Lagrangemultiplier.png