update chapter 2 (#137)

* update chapter 2 * Update neural_network_layer.md Co-authored-by: Cheng Lai <laicheng_VIP@163.com> Co-authored-by: Dalong <39682259+eedalong@users.noreply.github.com>
2026-04-13 18:11:09 +08:00 · 2022-03-20 10:01:08 +08:00
parent 93ae5a489e
commit 0be67c508d
4 changed files with 5 additions and 4 deletions
--- a/chapter_programming_interface/ml_workflow.md
+++ b/chapter_programming_interface/ml_workflow.md
@@ -116,7 +116,7 @@ net = MLPNet()

 有了神经网络组件构建的模型我们还需要定义**损失函数**来计算训练过程中输出和真实值的误差。**均方误差**(Mean Squared Error，MSE)是线性回归中常用的，是计算估算值与真实值差值的平方和的平均数。
 **平均绝对误差**（Mean Absolute Error，MAE）是计算估算值与真实值差值的绝对值求和再求平均。
-**交叉熵**（Cross Entropy，CE）是分类问题中常用的，衡量已知数据分布情况下，计算输出分布和已知分布的差值，
+**交叉熵**（Cross Entropy，CE）是分类问题中常用的，衡量已知数据分布情况下，计算输出分布和已知分布的差值。

 有了损失函数，我们就可以通过损失值利用**优化器**对参数进行训练更新。对于优化的目标函数$f(x)$；先求解其梯度$\nabla$$f(x)$，然后将训练参数$W$沿着梯度的负方向更新，更新公式为：$W_t = W_{t-1} - \alpha\nabla(W_{t-1})$，其中$\alpha$是学习率，$W$是训练参数，$\alpha\nabla(W_{t-1})$是方向。
 神经网络的优化器种类很多，一类是学习率不受梯度影响的随机梯度下降（Stochastic Gradient Descent）及SGD的一些改进方法，如带有Momentum的SGD；另一类是自适应学习率如AdaGrad、RMSProp、Adam等。