update hyperlinks of images

2020-01-09 09:47:36 +08:00
parent 76e86579fb
commit 9c54760fee
1 changed files with 4 additions and 2 deletions
--- a/regression/linear
+++ b/regression/linear
@@ -135,7 +135,9 @@ $$

 学习率的选择在梯度下降法中至关重要。如果学习率太小，则需要更多次迭代才能找到最优解，需要较长的学习时间；而如果学习率太大，也有可能导致收敛速度慢，甚至可能会发散。这是因为学习率太大时，不再满足全微分方程中微小变化量的条件，因此每次迭代后被优化函数都未必可以取到比上一次迭代更小的值。学习率的选择对$J(\theta)$收敛速度的影响如下图所示：

-<center>![fig1: select_alpha](images/select_alpha.png)</center>
+
+<img src = "images/select_alpha.png" align = "center"/>
+

 可以看到，当$\alpha$很小时（如图中红色曲线所示），损失函数$J(\theta)$收敛速度较慢。随着$\alpha$逐渐增大，曲线逐渐变得陡峭，收敛速度越来越快。可是当$\alpha$很大时（$\alpha = 1.3$，图中黑色曲线）收敛速度反而相对此前变慢了；$\alpha$继续增大将导致代价函数发散（图中洋红色曲线）。

@@ -145,7 +147,7 @@ $$

 从上面的讨论中可以看出，梯度下降法最终将收敛到某个局部最优点，而无法保证收敛到全局最优点。实际上，当选择不同的初始值时，使用梯度下降法往往会收敛到不同的极值点，如下图所示：

-<center>![fig2: gd_diff_path](images/gd_diff_path.jpg)</center>
+<img src = "images/gd_diff_path.jpg" align = "center" />

 因此，使用梯度下降法无法保证得到的结果一定是全局最优解。然而，需要指出，对于线性回归与平方损失函数，则不存在这个问题，因为平方损失函数是**凸函数**。证明如下：