找回密码
 立即注册
搜索

真实世界的机器人实验还面临一些严重的应战 机器人深度 RL 算法 SAC发布


深度强化学习(RL)使得直接从理想世界中获得的阅历和交互中完成机器人行为完全自主学习成为能够,由于它可以运用通用神经网络表示来处理复杂的感知输入。但是,许多现有的 RL 算法需求数天或数周(或更多)的真实数据才能收敛到希冀的行为。此外,这样的系统能够难以在复杂的机器人系统(例如腿式机器人)上部署,由于它们在探求阶段很容易被损坏,超参数设置能够难以调整,而且各种安全方面的思索也能够会惹起诸多限制。

我们最近与加州大学伯克利分校合作,发布了Soft Actor-Critic(SAC),这是一种波动而有效的深度 RL 算法,适用于真实世界的机器人技能学习,与机器人实验的要求完全分歧。重要的是,SAC 的效率足以在几个小时内处理实践的机器人义务,并且可以在仅有一组超参数的各种环境中工作。下面,我们将讨论 SAC 背后的一些研讨,并引见我们最近的一些实验。

真实世界机器人学习的要求

真实世界的机器人实验面临一些严重的应战,例如由于硬件缺点和手动重置导致的数据流常常中缀,为避免机器人的机械磨损而停止的平滑工作,由于算法及其完成会由于机械磨损而遭到限制,包括但不只限于):

良好的样品效率可以减少学习工夫

需求调整的超参数数量最少

重用曾经搜集的不同场景数据(称为离策略学习)

确保学习和实验不会损坏硬件

Soft Actor-Critic

Soft Actor-Critic 基于最大熵强化学习,这个框架旨在最大化预期奖励(标准的 RL 目的)并最大化策略的熵。熵越高的策略随机性更强,这意味着最大熵强化学习更喜欢随机性强但可以获得高报答的策略。

为什么这对机器人学习来说很重要?最分明的缘由是针对最大熵优化的策略愈加健壮:假如策略在训练时期可以容忍高度随机的行为,则更有能够在测试时成功呼应不测的扰动。但是,更巧妙的缘由是最大熵的训练可以提高算法对超参数的健壮性和样本效率(了解更多信息,请参阅此BAIR 博客文章和本教程。

Soft Actor-Critic 经过学习将形状映射到动作的随机策略和估计当前策略的目的值的 Q 函数来最大化熵奖励,并运用近似动态编程来对其停止优化。这样,SAC 将目的视为一种获得更好的强化学习算法的基本方法,这些算法功能波动,并且样本效率足以适用于真实世界的机器人运用程序。有关技术细节,请参阅我们的技术报告。

SAC 的功能

我们在两项义务上评价 SAC 的功能:1)运用 Ghost Robotics 的 Minitaur 机器人停止四足行走,以及 2)运用三指 Dynamixel Claw 旋转阀门。学习行走是一项严重应战,由于机器人是欠驱动的,因此必须准确地平衡腿上的接触力以驱动机器人行进。未经训练的策略能够导致机器人得到平衡而摔倒,而摔倒次数过多最终会损坏机器人,这使得样本有效的学习变得至关重要。

我们在平整的地面上训练这些策略,随后在不同的地形和妨碍物上停止了测试。准绳上,应用 SAC 学习的策略应该对于测试工夫扰动是稳健的,由于其被训练为熵最大化(即输入最大噪声)。实践上,我们观察到运用此方法学习的策略对这些扰动是稳健的,而无需任何额外的学习。


而操作义务需求机械手臂旋转阀门状物体,使彩色桩钉朝右,如下图所示。由于感知上的应战和机械手臂有 9 度的自在活动空间,该义务非常具有应战性。为了感知阀门,机器人必须运用右下方插图中显示的原始 RGB 图像。每次实验,阀门的初始地位被随机平均地重置,迫使策略学习运用原始 RGB 图像来感知当前的阀门方向。


SAC 迅速地完成了这两项义务:Minitaur 学会运动需求 2 个小时,而经过图像观察阀门旋转义务需求 20 个小时。我们还在为提供图像,而是实践阀门地位作为策略的观察对象,学习了此状况下阀门旋转义务的策略。SAC 可以在 3 小时内学习这个更简单的阀门义务。为了停止比较,先前的工作运用自然策略梯度在没有图像的状况下,7.4 小时内学习相反义务。

结论

我们的工作表明,基于最大熵框架的深度强化学习可以运用于学习理想世界环境中的机器人技能。由于这些策略是直接从理想世界中学习的,因此它们表现出对环境变化的健壮性,这非常难得。结果还表明,我们可以直接从高维图像观察中学习,这是典型机器人技术面临的严重应战。我们希望,SAC 的发布有助于其他研讨团队在将来采用深度 RL 来处理更复杂的理想义务。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评2

guomeili 2019-1-22 14:22:44 显示全部楼层
为了三千积分!
回复

使用道具 举报

chongming 2019-1-22 22:03:37 显示全部楼层
没人回帖。。。我来个吧
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies