Fix some typos. (#365)

* Fix some typos.

* Fix typo.

Co-authored-by: Cheng Lai <laicheng_VIP@163.com>
Co-authored-by: Jiarong Han <73918561+hanjr92@users.noreply.github.com>
This commit is contained in:
Shuangchi He
2022-06-10 15:29:06 +08:00
committed by GitHub
parent 35e7f5e383
commit ef2031d8f9
4 changed files with 4 additions and 4 deletions

View File

@@ -35,7 +35,7 @@ $$offsetnchw(n,c,h,w) = n*CHW + c*HW + h*W +w$$
:width:`800px`
:label:`nchw`
类似的NHWC数据格式是先取C方向数据再取W方向然后是H方向最后取N方向。NHWC是Tensorflow默认的数据格式。这种格式在PyTorch中称为Chanel-Last。
类似的NHWC数据格式是先取C方向数据再取W方向然后是H方向最后取N方向。NHWC是Tensorflow默认的数据格式。这种格式在PyTorch中称为Channel-Last。
$$offsetnhwc(n,h,w,c) = n*HWC + h*WC + w*C +c$$
:numref:`nchwandnhwc`展示了不同数据格式下逻辑排布到内存物理侧数据排布的映射。\[x:1\]代表从最内侧维度到最下一维度的索引变换。比如\[a:1\]表示当前行W轴结束后下一个H轴排布。\[b:1\]表示最内侧C轴排布完成后进行按照W轴进行排列。

View File

@@ -1,6 +1,6 @@
# 数据处理框架
在前两个章节中,我们介绍了编译器前后端的相关内容,详细地阐述了源程序到目标程序的转换优化过程。除了让芯片在训练/推理过程中高性能地运行,我们还需要将数据高效地发送给芯片,以实现全流程的性能最优。机器学习模型训练和推理需要从存储设备(如本地磁盘和内存、远端的存储系统等)中加载数据集,对数据集进行一系列处理变换,将处理结果发送到GPU或者华为昇腾Ascend等加速器中完成模型计算该流程的任何一个步骤出现性能问题都会对训练和推理的吞吐率造成负面影响。本章我们将核心介绍如何设计、并实现一个面向机器学习场景的数据系统以帮助用户轻松构建各种复杂的数据处理流水线(Data
在前两个章节中,我们介绍了编译器前后端的相关内容,详细地阐述了源程序到目标程序的转换优化过程。除了让芯片在训练/推理过程中高性能地运行我们还需要将数据高效地发送给芯片以实现全流程的性能最优。机器学习模型训练和推理需要从存储设备如本地磁盘和内存、远端的存储系统等中加载数据集对数据集进行一系列处理变换将处理结果发送到GPU或者华为昇腾Ascend等加速器中完成模型计算该流程的任何一个步骤出现性能问题都会对训练和推理的吞吐率造成负面影响。本章我们将核心介绍如何设计、并实现一个面向机器学习场景的数据系统以帮助用户轻松构建各种复杂的数据处理流水线(Data
Pipeline),同时我们的数据系统要有足够高的执行性能,以确保数据预处理步骤不会成为模型训练和推理的性能瓶颈。
本章主要从易用性、高效性和保序性三个维度展开介绍机器学习系统中的数据模块。在前两个小节中我们首先讨论如何构建一个易用的数据模块。包括如何设计编程抽象使得用户通过短短几行代码便可以描述一个复杂的预处理过程以及如何做到既内置丰富算子提升易用性又可以灵活支持用户使用自定义算子覆盖长尾需求。用户构建好数据处理流程后数据模块需要负责高效的调度执行数据流水线以达到最优的数据处理吞吐率。高效的执行数据流水线是一个具有挑战性的任务我们既要面临数据读取部分的I/O性能问题又要解决数据处理部分的计算性能问题。针对上述挑战我们将分别介绍面向高吞吐率读取性能的数据文件格式设计以及能够充分发挥多核CPU算力的并行架构设计。不仅如此和常规数据并行计算任务不同的是大部分机器学习场景对于数据的输入输出顺序有着特殊的`保序性`的要求,我们将会使用一节的内容来介绍什么是保序性,以及如何在数据模块的并行架构中设计相应组件计来满足该特性需求。学习了上述的内容后,读者将会对如何构建一个面向机器学习场景高效易用的数据模块有深刻的理解。最后,作为拓展内容,我们将以目前学术界和业界的一些实践经验来介绍当单机处理性能达不到要求时,该如何去扩展我们的数据处理模块以满足训练性能需求。本章学习目标包括:

View File

@@ -8,7 +8,7 @@
:width:`800px`
:label:`ch10-single-node`
分布式训练系统的设计目标是:将单节点训练系统转化成**等价的**并行训练系统,从而在不影响模型精度的条件下完成训练过程的加速。一个单节点训练系统往往如 :numref:`ch10-single-node`所示。一个训练过程会由多个数据小批次mini-batch完成。在图中一个数据小批次被标示为**数据**。训练系统会利用数据小批次来生成梯度,提升模型精度。这个过程由一个训练**程序**实现。在实际中这个程序往往实现了一个多层神经网络的执行过程。该神经网络的执行由一个计算图Computational Graph表达。这个图有多个相互连接的算子Operator每个算子会拥有计算参数。每个算子往往会实现一个神经网络层Neural Network Layer而参数则代表了这个层在训练中所更新的权重Weights
分布式训练系统的设计目标是:将单节点训练系统转化成**等价的**并行训练系统,从而在不影响模型精度的条件下完成训练过程的加速。一个单节点训练系统往往如 :numref:`ch10-single-node`所示。一个训练过程会由多个数据小批次mini-batch完成。在图中一个数据小批次被标示为**数据**。训练系统会利用数据小批次来生成梯度,提升模型精度。这个过程由一个训练**程序**实现。在实际中这个程序往往实现了一个多层神经网络的执行过程。该神经网络的执行由一个计算图Computational Graph表达。这个图有多个相互连接的算子Operator每个算子会拥有计算参数。每个算子往往会实现一个神经网络层Neural Network Layer而参数则代表了这个层在训练中所更新的权重Weights
为了更新参数,计算图的执行会分为**前向**传播和**反向**传播两个阶段。前向传播的第一步会将数据读入第一个算子该算子会根据当前的参数计算出传播给下一个算子的数据。算子依次重复这个前向传播的过程算子1 -\> 算子2 -\> 算子3直到最后一个算子结束。最后的算子随之马上开始反向传播。反向传播中每个算子依次计算出梯度梯度3 -\> 梯度2 -\> 梯度1并利用梯度更新本地的参数。反向传播最终在第一个算子结束。反向传播的结束也标志本次数据小批次的结束系统随之读取下一个小批次继续更新模型。

View File

@@ -116,7 +116,7 @@ $$\textbf{TCAV}_{Q_{C,k,l}}=\frac{\vert \{\mathbf{x}\in X_{k}:S_{C,k,l}(\mathbf{
:width:`800px`
:label:`xai_tcav`
人类的知识可以是主观的而KB可以是客观的。在当前研究中KB通常被建模为知识图谱(KG)。以下以MindSpore支持的可解释推荐模型TB-Net为例讲解如何使用知识图谱构建可解释模型。知识图谱可以捕捉实体之间丰富的语义关系。TB-Net的目的之一就是确定哪一对实体物品-物品对用户产生最重大的影响并通过什么关系和关键节点进行关联。不同于现有的基于KG嵌入的方法RippleNet使用KG补全方法预测用户与物品之间的路径TB-Net提取真实路径以达到推荐结果的高准确性和优越的可解释性。
人类的知识可以是主观的而KB可以是客观的。在当前研究中KB通常被建模为知识图谱(KG)。以下以MindSpore支持的可解释推荐模型TB-Net为例讲解如何使用知识图谱构建可解释模型。知识图谱可以捕捉实体之间丰富的语义关系。TB-Net的目的之一就是确定哪一对实体物品-物品对用户产生最重大的影响并通过什么关系和关键节点进行关联。不同于现有的基于KG嵌入的方法RippleNet使用KG补全方法预测用户与物品之间的路径TB-Net提取真实路径以达到推荐结果的高准确性和优越的可解释性。
![TB-Net网络训练框架](../img/ch11/tb_net.png)
:width:`800px`