您现在的位置:首页 > 资讯 > 正文

DeepMind提出了一种训练安全强化学习AI的新颖方法

来源:| 2021-12-09 14:01:58

强化学习代理-或通过奖励(或惩罚)逐步推动实现目标的AI-构成了自动驾驶汽车,灵巧机器人和药物发现系统的基础。但是,由于他们倾向于探索不熟悉的状态,因此他们容易受到所谓的安全探索问题的困扰,其中他们被固定在不安全的状态下(例如,移动机器人驶入沟渠)。

这就是为什么Alphabet的DeepMind研究人员在一篇论文中研究了一种奖励建模的方法,该方法分两个阶段运行,适用于代理商不知道不安全状态可能在何处的环境。研究人员说,他们的方法不仅成功地训练了奖励模型以检测不安全状态而不访问它们,而且还可以在部署代理之前纠正奖励黑客行为(奖励规范中的漏洞),即使是在新的陌生环境中也是如此。有趣的是,他们的工作是在位于旧金山的研究公司OpenAI的Safety Gym发布之后不久的。SafetyGym是一套用于开发AI的工具,该AI在培训时尊重安全约束,并将其“安全性”与在学习中避免错误的程度进行了比较。安全体育馆同样以“约束强化学习”为目标,针对强化学习代理,该范式要求AI系统进行权衡以实现确定的结果。

DeepMind团队的方法鼓励代理人通过两个系统生成的假设行为来探索一系列状态:初始状态的生成模型和正向动力学模型,这两个模型都接受了随机轨迹或安全专家演示等数据的训练。主管人员用奖励来标记行为,代理人以交互方式学习策略以最大化其奖励。只有在代理成功学会了预测奖励和不安全状态后,他们才被部署执行所需的任务。

正如研究人员所指出的那样,关键思想是从头开始对假设行为进行主动综合,使它们尽可能多地提供信息,而无需与环境直接交互。DeepMind团队称其为通过轨迹优化或ReQueST奖励查询综合,并解释说它总共产生四种类型的假设行为。第一种最大化奖励模型集合的不确定性,而第二种和第三种最大化预测的奖励(为具有最高信息值的行为标记)并最小化预测的奖励(针对奖励模型可能未正确预测的表面行为)。至于行为的第四类,它使轨迹的新颖性最大化,从而无论预期的回报如何都鼓励探索。

最后,一旦奖励模型达到令人满意的状态,便会部署基于计划的代理,该代理利用模型预测控制(MPC)来选择针对学习的奖励进行了优化的操作。与通过试验和错误学习的无模型强化学习算法不同,此MPC通过使用动力学模型来预测动作的后果,使代理能够避免不安全状态。

该研究的合著者写道:“据我们所知,ReQueST是第一种安全地了解不安全状态的奖励建模算法,并且可以扩展到在具有高维,连续状态的环境中训练神经网络奖励模型。”“到目前为止,我们仅通过相对简单的动力学就证明了ReQueST在模拟域中的有效性。未来工作的一个方向是在3D领域中使用更逼真的物理学和在环境中起作用的其他代理来测试ReQueST。”

(编辑:互联网 作者:互联网)

分享到:
版权申明

凡本网注明“XXX(非公益之声)提供”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和其真实性负责。

特别关注

新闻排行

资讯推荐

  • 新加坡管理学院全新品牌标识发布会在

    近日,新加坡本地专注于教育和终身学习的专业院校新加坡管理学院(SingaporeInstituteofManagement,简称SIM)在成都召开发布会,向中国市场宣布其全新品牌...

    2022-10-26

  • 曲周县曲周镇南关村织密“四道”防线

    文(王建刚) 为做好疫情封控工作,保障人民群众身体健康和生命安全。近日,曲周县曲周镇南关村结合村所处的地理位置特殊,居住人员复杂,沿街店铺分散...

    2022-05-17

  • 孙悦:坚持自爱、独立和韧性,绽放女

    4月2日晚,她势界·凤凰网2024女性影响力大赏颁奖典礼在上海举行,来自社会各界的优秀代表,影视明星、企业家、文艺创作者、科教工作者、体育人、公益人,...

    2024-04-16

  • "环护童心,爱心同在”校园雷锋月公益

    (来源:炬益星)青春护生态守童心,纸短情长传递赤忱。为不断提升青少年生态文明意识,鼓励青少年用实际行动参与环境保护和环保公益事业中,以及让更多的乡...

    2024-04-16

  • 新泽西北部的购物中心旨在寻找新零售

    在成为大苹果购物者的目的地至少50年之后,新泽西北部的购物中心旨在寻找新零售邻居到来时与众不同的方法。据彭博社报道,在经历了15年的开发者和错误...

    2021-12-09