fix image reference (#146)

* fix image reference

* add issue doc

* Update requirements.md

fix #159

* Update program_model.md

fix #162

* Update style.md
This commit is contained in:
Dalong
2022-03-21 17:17:45 +08:00
committed by GitHub
parent 062112d567
commit be92a3ff40
5 changed files with 23 additions and 10 deletions

View File

@@ -111,7 +111,7 @@ dataset = dataset.map(input_columns="label", operations=onehot_op)
MindData中的数据预处理算子可以分为C层算子以及Python层算子C层算子能提供较高的执行性能而Python层算子可以很方便借助丰富的第三方Python包进行开发。为了灵活地覆盖更多场景MindData支持用户使用Python开发自定义算子如果用户追求更高的性能MindData也支持用户将开发的C层算子编译后以插件的形式注册到MindSpore的数据处理中进行调用。
对于用户传入map、filter等数据集变换算子中的自定义数据处理算子MindData的Pipeline启动后会通过创建的Python运行时来执行。需要指出的是自定义的Python算子需要保证需要保一个或多个输入、输出均是numpy.ndarray类型。具体执行过程中当MindData的Pipeline的数据集变换中执行用户自定义的PyFunc算子时会将输入数据以numpy.ndarray的类型传递给用户的PyFunc自定义算子执行完毕后再以numpy.ndarray返回给MindData在此期间正在执行的数据集变换算子如map、filter等负责该PyFunc的运行时生命周期及异常判断。如果用户追求更高的性能MindData也支持用户自定义C算子。dataset-plugin仓插件仓 :cite:`minddata` 为MindData的算子插件仓囊括了为特定领域遥感医疗气象等量身制作的算子该仓承载MindData的插件能力扩展为用户编写MindData的新算子提供了便捷易用的入口用户通过编写算子、编译、安装插件步骤然后就可以在MindData
对于用户传入map、filter等数据集变换算子中的自定义数据处理算子MindData的Pipeline启动后会通过创建的Python运行时来执行。需要指出的是自定义的Python算子需要保证输入、输出均是numpy.ndarray类型。具体执行过程中当MindData的Pipeline的数据集变换中执行用户自定义的PyFunc算子时会将输入数据以numpy.ndarray的类型传递给用户的PyFunc自定义算子执行完毕后再以numpy.ndarray返回给MindData在此期间正在执行的数据集变换算子如map、filter等负责该PyFunc的运行时生命周期及异常判断。如果用户追求更高的性能MindData也支持用户自定义C算子。dataset-plugin仓插件仓 :cite:`minddata` 为MindData的算子插件仓囊括了为特定领域遥感医疗气象等量身制作的算子该仓承载MindData的插件能力扩展为用户编写MindData的新算子提供了便捷易用的入口用户通过编写算子、编译、安装插件步骤然后就可以在MindData
Pipeline的map操作中使用新开发的算子。
@@ -119,4 +119,4 @@ Pipeline的map操作中使用新开发的算子。
![MindSpore自定义算子注册](../img/ch07/7.2/dataset-plugin.png)
:width:`800px`
:label:`mindspore_user_defined_operator`
:label:`mindspore_user_defined_operator`

View File

@@ -26,7 +26,7 @@ AI模型训练/推理过程中涉及到的数据处理非常灵活:一方面
#### 高效性
由于GPU/华为昇腾Ascend等常见AI加速器主要面向Tensor数据类型计算并不具备通用的数据处理能力现有主流机器学习系统数据模块通常选择使用CPU进行数据流水线的执行。理想情况下在每个训练迭代步开始之前数据模块都需要将数据准备好、以减少加速器因为等待数据而阻塞的时间消耗。然而数据流水线中的数据加载和数据预处理常常面临着具有挑战性的I/O性能性能和CPU计算性能问题数据模块需要设计具备支持随机读取且具备高读取吞吐率的文件格式来解决数据读取瓶颈问题同时还需要设计合理的并行架构来高效的执行数据流水线以解决计算性能问题。为达到高性能的训练吞吐率主流机器学习系统均采用数据处理与模型计算进行异步执行以掩盖数据预处理的延迟。
由于GPU/华为昇腾Ascend等常见AI加速器主要面向Tensor数据类型计算并不具备通用的数据处理能力现有主流机器学习系统数据模块通常选择使用CPU进行数据流水线的执行。理想情况下在每个训练迭代步开始之前数据模块都需要将数据准备好、以减少加速器因为等待数据而阻塞的时间消耗。然而数据流水线中的数据加载和数据预处理常常面临着具有挑战性的I/O性能和CPU计算性能问题数据模块需要设计具备支持随机读取且具备高读取吞吐率的文件格式来解决数据读取瓶颈问题同时还需要设计合理的并行架构来高效的执行数据流水线以解决计算性能问题。为达到高性能的训练吞吐率主流机器学习系统均采用数据处理与模型计算进行异步执行以掩盖数据预处理的延迟。
#### 保序性