From 861670aa903e02226f0cc9d5bd760d71355cdcdd Mon Sep 17 00:00:00 2001
From: Shine wOng <1551885@tongji.edu.cn>
Date: Thu, 9 Jan 2020 09:29:57 +0800
Subject: [PATCH] modify hyperlinks of images

---
 ml/linear regression/linear regression.md | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)
diff --git a/ml/linear regression/linear regression.md b/ml/linear regression/linear regression.md
index 2a8a7c2..c472354 100644
--- a/ml/linear regression/linear regression.md	
+++ b/ml/linear regression/linear regression.md	
@@ -135,7 +135,7 @@ $$
 
 学习率的选择在梯度下降法中至关重要。如果学习率太小，则需要更多次迭代才能找到最优解，需要较长的学习时间；而如果学习率太大，也有可能导致收敛速度慢，甚至可能会发散。这是因为学习率太大时，不再满足全微分方程中微小变化量的条件，因此每次迭代后被优化函数都未必可以取到比上一次迭代更小的值。学习率的选择对$J(\theta)$收敛速度的影响如下图所示：
 
-![fig1: select_alpha](images/select_alpha.png)
+<div align = center>![fig1: select_alpha](images/select_alpha.png)
 
 可以看到，当$\alpha$很小时（如图中红色曲线所示），损失函数$J(\theta)$收敛速度较慢。随着$\alpha$逐渐增大，曲线逐渐变得陡峭，收敛速度越来越快。可是当$\alpha$很大时（$\alpha = 1.3$，图中黑色曲线）收敛速度反而相对此前变慢了；$\alpha$继续增大将导致代价函数发散（图中洋红色曲线）。
 
@@ -145,7 +145,7 @@ $$
 
 从上面的讨论中可以看出，梯度下降法最终将收敛到某个局部最优点，而无法保证收敛到全局最优点。实际上，当选择不同的初始值时，使用梯度下降法往往会收敛到不同的极值点，如下图所示：
 
-![fig2: gd_diff_path](images/gd_diff_path.jpg)
+<div align = center>![fig2: gd_diff_path](images/gd_diff_path.jpg)
 
 因此，使用梯度下降法无法保证得到的结果一定是全局最优解。然而，需要指出，对于线性回归与平方损失函数，则不存在这个问题，因为平方损失函数是**凸函数**。证明如下：