From 9c54760fee9738914de48de02112913956c89e04 Mon Sep 17 00:00:00 2001 From: Shine__Wong <1551885@tongji.edu.cn> Date: Thu, 9 Jan 2020 09:47:36 +0800 Subject: [PATCH] update hyperlinks of images --- ml/linear regression/linear regression.md | 6 ++++-- 1 file changed, 4 insertions(+), 2 deletions(-) diff --git a/ml/linear regression/linear regression.md b/ml/linear regression/linear regression.md index 73a6e9a..f789fc7 100644 --- a/ml/linear regression/linear regression.md +++ b/ml/linear regression/linear regression.md @@ -135,7 +135,9 @@ $$ 学习率的选择在梯度下降法中至关重要。如果学习率太小,则需要更多次迭代才能找到最优解,需要较长的学习时间;而如果学习率太大,也有可能导致收敛速度慢,甚至可能会发散。这是因为学习率太大时,不再满足全微分方程中微小变化量的条件,因此每次迭代后被优化函数都未必可以取到比上一次迭代更小的值。学习率的选择对$J(\theta)$收敛速度的影响如下图所示: -
![fig1: select_alpha](images/select_alpha.png)
+ + + 可以看到,当$\alpha$很小时(如图中红色曲线所示),损失函数$J(\theta)$收敛速度较慢。随着$\alpha$逐渐增大,曲线逐渐变得陡峭,收敛速度越来越快。可是当$\alpha$很大时($\alpha = 1.3$,图中黑色曲线)收敛速度反而相对此前变慢了;$\alpha$继续增大将导致代价函数发散(图中洋红色曲线)。 @@ -145,7 +147,7 @@ $$ 从上面的讨论中可以看出,梯度下降法最终将收敛到某个局部最优点,而无法保证收敛到全局最优点。实际上,当选择不同的初始值时,使用梯度下降法往往会收敛到不同的极值点,如下图所示: -
![fig2: gd_diff_path](images/gd_diff_path.jpg)
+ 因此,使用梯度下降法无法保证得到的结果一定是全局最优解。然而,需要指出,对于线性回归与平方损失函数,则不存在这个问题,因为平方损失函数是**凸函数**。证明如下: