Acme框架真香！用过一次后，伦敦博士撰文大赞DeepMind强化学习框架

新智元

共 2883字，需浏览 6分钟

· 2021-06-28

新智元报道

来源：DeepMind

编辑：LRS

【新智元导读】2020年DeepMind就推出了他们的强化学习框架Acme，但缺少教程和入门材料。伦敦政经博士用了一次之后直呼好用，立刻写了一篇博客自发推广！

研究强化学习的你还在苦于重复造轮子吗？苦于寻找运行环境吗？

DeepMind给你带来了Acme框架！

Acme是一个基于 python 的强化学习研究框架，2020年由 Google 的 DeepMind 开源。这个框架简化了新型 RL 智能体（agent）的开发，加快了 RL 研究的步伐。

DeepMind 是强化学习和人工智能研究的先行者，根据他们自己的研究人员所说，Acme 已经成为 DeepMind 的日常使用的框架了。

目前Acme在Git已经获得了超过2.1k个星星。

Acme的学习曲线也是相当平缓的。但由于Acme有多个不同复杂程度的接口作为切入点，也就是说，这个框架不仅适用于高级研究人员，而且允许初学者实现甚至是简单的算法，类似于 TensorFlow 和 PyTorch 能够同时被初学者和专家所使用。

但这个框架唯一的缺点就是，由于框架仍然是相当新的，没有真正完整的文档可用，也没有任何优秀的教程。

针对这个问题，伦敦政治经济学院一个博士生写了一篇教学博客，帮助了解Acme框架，据作者所说，这篇教程文章并不打算成为或取代一个完整的文档，而是对 Acme 的一个简洁、实用的介绍。最重要的是，它应该让读者了解框架底层的设计选择，以及这对 RL 算法的实现意味着什么。

Acme的基本架构

以21点游戏（BlackJack）作为例子来介绍框架。

Acme 的智能体的运行环境没有设计与Gym运行环境交互，而是采用DeepMind 自己创建的 RL 环境 API。它们的区别主要在于时间步是如何表示的。

幸运的是， Acme 的开发人员已经为Gym环境提供了包装器函数。

21点有32 x 11 x 2个状态，尽管并不是所有这些状态都能在一场比赛中实际发生，并且有两个action可选，hit或是stick。

三个重要的角色分别是actor, learner, 智能体agent。

learner使用actor收集的数据来学习或改进策略，通常采用迭代的在线方式。例如，学习可能包括更新神经网络的参数。新的参数被传递给actor，然后actor根据更新的策略进行操作。

智能体只是简单地将行为和学习组件结合起来，但是通常不需要实现额外的强化学习逻辑。下面的图片包含了所有三个组件。

这种将actor、learner和agent分解的主要原因之一是为了促进分布式强化学习。如果我们不关心这些，或者算法足够简单，那么也可以只实现actor，并简单地将学习步骤集成到actor的更新方法中。

例如，下面的随机智能体继承自 acme的Actor类。开发人员必须实现的方法是 select_action、 observe_first、observe 和 update。正如刚才提到的，后者是没有额外的learner组成部分的学习。

注意，这个agent将以同样的方式工作，而不会子类化 acme.Actor。基类仅确定必须覆盖的方法。这还确保agent按照预期的方式与其他 Acme 组件集成，例如环境循环(environment loop)。

这个agent使用一个随机选择hit或stick的策略，但是通常框架允许您在如何实现策略方面有很大的灵活性。后面还会实现一个贪婪的政策。

在其他情况下，策略可能包含一个神经网络，可以使用 TensorFlow、 PyTorch 或 JAX 来实现它。在这个意义上，Acme 是框架是不可知的，可以将它与任何机器学习库结合起来。

在更新方法中，actor通常只从learner中提取最新的参数。

但是，如果不使用单独的学习者，那么 RL 逻辑将进入update方法。

一个强化学习算法通常由一个循环组成，每个循环由四个步骤组成，重复这四个步骤，直到达到一个终止状态。

1、观察状态

2、根据行为策略选择下一步行动

3、观察奖励

4、更新策略

在大多数情况下，这个循环总是完全相同的。

方便的是，在 Acme 中有一个快捷方式: EnvironmentLoop，它执行的步骤几乎与上面看到的步骤一模一样。只需传递环境和代理实例，然后可以使用单行代码运行单个事件或任意多个事件。还有一些记录器可以跟踪重要的指标，比如每一个迭代采取的步骤数和收集到的奖励。

SARSA 智能体

SARSA 是一个基于策略的算法，其更新依赖于状态（state）、行动（action）、奖励（reward）、下一个状态（next state）和下一个行动（next action）而得名。

首先，在智能体的 __init__ 方法中，我们初始化 Q、状态动作值矩阵和行为策略，这是一个 epsilon 贪婪策略。还要注意，这个代理必须始终存储它的上一个 timestep、 action 和下一个 timestep，因为它们在更新步骤中是必需的。

在observe函数中，通常没有什么必须做的事。

在这种情况下，我们只是存储观察到的时间步和所采取的操作，然而，这并不总是必要的。例如，有时可能希望将时间步骤(和整个轨迹)存储在数据集或重播缓冲区中。

Acme 还为此提供了数据集和额外的组件。事实上，还有一个由 DeepMind 开发的Reverb库用来做这件事。

上面的 transform_state 方法只是一个辅助函数，用于将状态转换为正确的格式，以便正确地对 Q 矩阵进行索引。

最后，训练 SARSA 的环境为500,000步。

Q learning 智能体

下面的 Q learning 智能体与 SARSA 智能体非常相似。它们的不同之处仅在于如何更新 Q 矩阵。这是因为 Q 学习是一种非策略算法。

博客作者认为， Acme 是一个非常好的强化学习框架，因为你不需要从头开发你的算法。所以，与其自己琢磨如何编写可读和可重复的 RL 代码，你可以依靠 DeepMind 的聪明的研究人员和开发人员，他们已经为你做到了。

在他们的仓库中，Deep Q-Networks (DQN)、Deep Deterministic Policy Gradient(DDPG)、Monte Carlo Tree Search (MCTS)、Behavior Cloning(BC)、 IMPALA 等常用算法的实现。

参考资料：

https://towardsdatascience.com/deepminds-reinforcement-learning-framework-acme-87934fa223bf

-往期精彩-

图片

表情

【第127期】推荐常用的国内外AI大模型

概述多个国内外的AI大模型及其特点。以下是一些被提及的AI大模型和平台：全球大模型：ChatGPT：由OpenAI开发，支持多种语言，包括中文。Claude：由Anthropic开发，擅长深层次语言模式和复杂推理。Gemini：由Google Research开发，擅长自然语言理解和生成。Mis

前端微服务

为啥大模型还没完全取代你？

点击下方“JavaEdge”，选择“设为星标”第一时间关注技术干货！免责声明~任何文章不要过度深思！万事万物都经不起审视，因为世上没有同样的成长环境，也没有同样的认知水平，更「没有适用于所有人的解决方案」；不要急着评判文章列出的观点，只需代入其中，适度审视一番自己即可，能「跳脱出来从外人的角度看看现

JavaEdge

python读取多个excel表多个sheet后映射匹配再分组计算、纵向拼接

大家好，我是飞奔的蜗牛ing。一、前言前几天在一个客户给到一单数据处理的问题，需求是这样的：1.表“aa2020”中2020年数据需要按季度分成四个表。（1-3月、4-6月、7-9月、10-12月）2.表“2020年一季度”代表2020年一季度客户所对应的管理档位，需要把表中的档位导入附表“aa2

IT共享之家

面试官：MySQL 上亿大表，如何深度优化？

来源：cnblogs.com/YangJiaXin/p/10828244.html背景分析测试实施索引优化后delete大表优化为小批量删除总结前段时间刚入职一家公司，就遇上这事！背景XX实例（一主一从）xxx告警中每天凌晨在报SLA报警，该报警的意思是存在一定的主从延迟（若在此时发生主从切换，需要

好好学java

前端框架新势力大盘点

点击上方前端Q，关注公众号回复加群，加入前端Q技术交流群近年来，前端领域快速发展，新的框架不断涌现，为开发者提供了更多选择和解决方案。尽管 React、Vue、Angular、Next.js、Preact 等老牌框架依然稳坐市场主流，但新势力前端框架的崛起也为特定场景带来了更佳的适配和优

前端Q

超赞！这个ChatGPT提问教程，PDF免费下载

你好，我是郭震AI来袭，我们该如何学习？今天先分享给大家一份超好的GPT提问指南。教程的详细介绍参考下面视频：这个PDF资料旨在教我们更好的给GPT发送指令，让GPT更准确的回答我们的提问。一共有30页，内容包括7个小章节，按照逻辑展开。分别介绍文本回答，代码辅助，结构化结果输出，非结构化结构输出，

Python与算法社区

一文读懂大模型发展过程！

JavaEdge

人人都能在本地电脑上部署LLama3大模型

Python涨薪研究所

北斗聚焦 | 工信部组织开展2024年5G轻量化贯通行动；2024全球6G技术大会在南京召开；智能制造装备产业规模超三点二万亿元

周报第一百七十四期2024/4/15-2024/4/21△点击页面右上角“…” 选择 “查找页面内容” 搜索【一周快报】，即可跳转到新版块★★ ★ ★★NO.1工信部组织开展2024年5G轻量化贯通行动记者4月16日从工业和信息化部获悉，工业和信息化部近日印发关于开展2024年度5G轻量

今日北斗

文末送书 | 大模型时代下如何学习云原生

《containerd 原理剖析与实战》新书内购中，点击阅读原文，限时 69.9 元购买。文末免费赠书大模型与云原生近年来，大语言模型的热度可谓是愈发高涨，尤其是今年年初 Sora 的出现，更是让全球再次看到了AIGC 的巨大威力。Sora 生成实例视频---几头巨大的长毛猛犸踏着积雪的草地而来在当

云原生实验室