## 总结

-  面向深度学习计算任务，加速器通常都是由多种片上缓存以及多种运算单元组成来提升性能。

-  未来性能增长需要依赖架构上的改变，即需要利用可编程的硬件加速器来实现性能突破。

-  出于计算效率和易用性等原因，加速器一般会具有多个等级的编程方式，包括：算子库层级，编程原语层级和指令层级。

-  越底层的编程方式越能够灵活地控制加速器，但同时对程序员的能力要求也越高。


## 扩展阅读

-  CUDA编程指导 [CUDA](https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html)
-  昇腾社区 [Ascend](https://gitee.com/ascend)
-  MLIR应用进展 [MLIR](https://mlir.llvm.org/talks)