论文链接DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY

概要

本文提出一种分布式强化学习的方法,将强化学习的经验收集和训练拆分开来,并行的进行收集和训练任务,以生产者/消费者的形式通信。此外,通过增加经验收集任务的线程数量提高了经验收集的效率。

算法

Distributed Training illustration

Actor定期从Learning处同步policy参数,并在环境上采样数据存入经验池。 Learner负责从经验池中采样经验来优化policy。 Learner和Actor完全并行执行。各自的算法如下:

Algorithms

Ape-X除去并行化之外,相比于普通的Prioritized Experience Replay,还有两个优点。

  1. 在收集数据阶段Actor便会算出优先值。
  2. actor可以执行不同的策略

Ape-X的实现中使用到的tricks

  1. n-step estimation
  2. double Q-learning
  3. dueling architecture
  4. Prioritized experience replay