This commit is contained in:
future-xy
2022-07-31 14:48:04 +01:00
parent d33ba041c1
commit 4b621d7fdb

View File

@@ -10,7 +10,7 @@
##### 算力不足
单处理器的算力不足是促使人们设计分布式训练系统的一个主要原因。一个处理器的算力可以用**每秒钟浮点数操作**Floating Point Operations Per SecondFLOPS来衡量。如 :numref:`ch10-computation-increase`所示根据摩尔定律Moore's Law中央处理器的算力每18个月增长2倍。虽然计算加速卡如GPU和Tensor Processing UnitTPU针对机器学习计算如矩阵相乘提供了大量的算力。这些加速卡的发展最终也受限于摩尔定律增长速度也停留在每18个月2倍。而与此同时机器学习模型正在快速发展。短短数年我们从仅能识别有限物体的AlexNet模型一路发展到在复杂任务中打败人类的AlphaStar。这期间模型对于算力需求每18个月增长了35倍。解决处理器性能和算力需求之间的鸿沟的关键就在于利用分布式计算。通过大型数据中心和云计算设施我们可以快速获取大量的处理器。通过分布式训练系统有效管理这些处理器我们可以实现算力的快速增长从而持续满足模型的需求。
单处理器的算力不足是促使人们设计分布式训练系统的一个主要原因。一个处理器的算力可以用**每秒钟浮点数操作**Floating Point Operations Per SecondFLOPS来衡量。如 :numref:`ch10-computation-increase`所示根据摩尔定律Moore's Law中央处理器的算力每18个月增长2倍。虽然计算加速卡如GPU和Tensor Processing UnitTPU针对机器学习计算如矩阵相乘提供了大量的算力。这些加速卡的发展最终也受限于摩尔定律增长速度也停留在每18个月2倍。而与此同时机器学习模型正在快速发展。短短数年我们从仅能识别有限物体的AlexNet模型一路发展到在复杂任务中打败人类的AlphaStar。这期间模型对于算力需求每18个月增长了57倍。解决处理器性能和算力需求之间的鸿沟的关键就在于利用分布式计算。通过大型数据中心和云计算设施,我们可以快速获取大量的处理器。通过分布式训练系统有效管理这些处理器,我们可以实现算力的快速增长,从而持续满足模型的需求。
##### 内存不足