Files
openmlsys-zh/chapter_distributed_training/index.md
2022-03-03 08:54:20 +00:00

1.6 KiB
Raw Permalink Blame History

分布式训练

随着机器学习的进一步发展科学家们设计出更大型更多功能的机器学习模型例如说GPT-3。这种模型含有大量参数需要复杂的计算以及处理海量的数据。单个机器上有限的资源无法满足训练大型机器学习模型的需求。因此我们需要设计分布式训练系统从而将一个机器学习模型任务拆分成多个子任务并将子任务分发给多个计算节点解决资源瓶颈。

在本章节中我们会引入分布式机器学习系统的相关概念设计挑战系统实现和实例研究。我们会首先讨论分布式训练系统的定义设计动机和好处。进一步我们会讨论常见的分布式训练方法数据并行模型并行和流水线并行。在实际中这些分布式训练方法会被参数服务器Parameter Servers或者是集合通讯库Collective Communication Libraries实现。不同的系统实现具有各自的优势和劣势。我们会用大型预训练模型和大型深度学习推荐系统作为实例来探讨不同系统实现的利与弊。

本章的学习目标包括:

  • 掌握分布式训练相关系统组件的定义,设计动机和好处

  • 掌握常见的分布式训练方法:数据并行,模型并行和流水线并行

  • 掌握常见的分布式训练框架实现:参数服务器和集合通讯

  • 理解常见分布式训练的实例,和采用不同实现方法的利弊。

:maxdepth: 2

overview
methods
pipeline
collective
parameter_servers
summary