From 0d4d7412036d7f0607f53ef0dedd9f191fcd2f25 Mon Sep 17 00:00:00 2001 From: quantumiracle Date: Sun, 1 May 2022 23:01:29 -0400 Subject: [PATCH] fix chinese --- .../distributed_node_rl.md | 4 +- img/ch12/ch12-rllib-arch.svg | 222 ++++++++++++++++ img/ch12/ch12-rllib-distributed.svg | 242 ++++++++++++++++++ 3 files changed, 466 insertions(+), 2 deletions(-) create mode 100644 img/ch12/ch12-rllib-arch.svg create mode 100644 img/ch12/ch12-rllib-distributed.svg diff --git a/chapter_reinforcement_learning/distributed_node_rl.md b/chapter_reinforcement_learning/distributed_node_rl.md index 506859c..dfb5b90 100644 --- a/chapter_reinforcement_learning/distributed_node_rl.md +++ b/chapter_reinforcement_learning/distributed_node_rl.md @@ -20,7 +20,7 @@ 以上是两个著名的分布式强化学习算法A3C和IMPALA,最近研究中还有许多其他成果,如SEED :cite:`espeholt2019seed`、Ape-X :cite:`horgan2018distributed`等都对分布式强化学习有更好的效果,我们不再做过多介绍。下面我们将讨论几个典型的分布式强化学习算法库。 -![RLlib系统架构](../img/ch12/ch12-rllib-arch.png) +![RLlib系统架构](../img/ch12/ch12-rllib-arch.svg) :width:`800px` @@ -28,7 +28,7 @@ Ray :cite:`moritz2018ray`是由伯克利大学几名研究人员发起的一个分布式计算框架,基于Ray之上构建了一个专门针对强化学习的系统RLlib :cite:`liang2017ray`。RLlib是一个面向工业级应用的开源强化学习框架,同时包含了强化学习的算法库,它对非强化学习专家使用也很方便。 -![RLlib分布式训练](../img/ch12/ch12-rllib-distributed.png) +![RLlib分布式训练](../img/ch12/ch12-rllib-distributed.svg) :width:`800px` diff --git a/img/ch12/ch12-rllib-arch.svg b/img/ch12/ch12-rllib-arch.svg new file mode 100644 index 0000000..468dc35 --- /dev/null +++ b/img/ch12/ch12-rllib-arch.svg @@ -0,0 +1,222 @@ + + + + + + + + + + 内置环境适配器(如gym.Env, OpenSpiel, Unity3D) + + RLlib内核抽象环境,工作者,输入阅读器,训练器,策略 + + @ray.remote: 任务和行动者 + + 内置算法(如PPOTrainer) + + 内置客户端/服务器支持(用于外部模拟器) + + 内置默认模型(包括LSTM+注意力机制) + + 内置策略和损失函数 + + + diff --git a/img/ch12/ch12-rllib-distributed.svg b/img/ch12/ch12-rllib-distributed.svg new file mode 100644 index 0000000..7a2a71b --- /dev/null +++ b/img/ch12/ch12-rllib-distributed.svg @@ -0,0 +1,242 @@ + + + + + + + + + + + + + + + + + 训练器 + + 拼接 + + 学习器 + + + + 采样工作者 + + + + 批样本 + 新的权重 + 同步广播 + 同步采样 + 同步采样(如A2C, PG, PPO) + + +