openmlsys-zh/chapter_distributed_training/index.md

# 分布式训练

随着机器学习的进一步发展，科学家们设计出更大型，更多功能的机器学习模型（例如说，GPT-3）。这种模型含有大量参数，需要复杂的计算以及处理海量的数据。单个机器上有限的资源无法满足训练大型机器学习模型的需求。因此，我们需要设计分布式训练系统，从而将一个机器学习模型任务拆分成多个子任务，并将子任务分发给多个计算节点，解决资源瓶颈。

在本章节中，我们会引入分布式机器学习系统的相关概念，设计挑战，系统实现和实例研究。我们会首先讨论分布式训练系统的定义，设计动机和好处。进一步，我们会讨论常见的分布式训练方法：数据并行，模型并行和流水线并行。在实际中，这些分布式训练方法会被参数服务器（Parameter Servers），或者是集合通信库（Collective Communication Libraries）实现。不同的系统实现具有各自的优势和劣势。我们会用大型预训练模型和大型深度学习推荐系统作为实例来探讨不同系统实现的利与弊。

本章的学习目标包括：

-   掌握分布式训练相关系统组件的定义，设计动机和好处

-   掌握常见的分布式训练方法：数据并行，模型并行和流水线并行

-   掌握常见的分布式训练框架实现：参数服务器和集合通信

-   理解常见分布式训练的实例，和采用不同实现方法的利弊。


```toc
:maxdepth: 2

overview
methods
pipeline
collective
parameter_servers
summary
```