您现在的位置:首页 > 资讯 > 正文

DeepMind提出了一种训练安全强化学习AI的新颖方法

来源:| 2021-12-09 14:01:58

强化学习代理-或通过奖励(或惩罚)逐步推动实现目标的AI-构成了自动驾驶汽车,灵巧机器人和药物发现系统的基础。但是,由于他们倾向于探索不熟悉的状态,因此他们容易受到所谓的安全探索问题的困扰,其中他们被固定在不安全的状态下(例如,移动机器人驶入沟渠)。

这就是为什么Alphabet的DeepMind研究人员在一篇论文中研究了一种奖励建模的方法,该方法分两个阶段运行,适用于代理商不知道不安全状态可能在何处的环境。研究人员说,他们的方法不仅成功地训练了奖励模型以检测不安全状态而不访问它们,而且还可以在部署代理之前纠正奖励黑客行为(奖励规范中的漏洞),即使是在新的陌生环境中也是如此。有趣的是,他们的工作是在位于旧金山的研究公司OpenAI的Safety Gym发布之后不久的。SafetyGym是一套用于开发AI的工具,该AI在培训时尊重安全约束,并将其“安全性”与在学习中避免错误的程度进行了比较。安全体育馆同样以“约束强化学习”为目标,针对强化学习代理,该范式要求AI系统进行权衡以实现确定的结果。

DeepMind团队的方法鼓励代理人通过两个系统生成的假设行为来探索一系列状态:初始状态的生成模型和正向动力学模型,这两个模型都接受了随机轨迹或安全专家演示等数据的训练。主管人员用奖励来标记行为,代理人以交互方式学习策略以最大化其奖励。只有在代理成功学会了预测奖励和不安全状态后,他们才被部署执行所需的任务。

正如研究人员所指出的那样,关键思想是从头开始对假设行为进行主动综合,使它们尽可能多地提供信息,而无需与环境直接交互。DeepMind团队称其为通过轨迹优化或ReQueST奖励查询综合,并解释说它总共产生四种类型的假设行为。第一种最大化奖励模型集合的不确定性,而第二种和第三种最大化预测的奖励(为具有最高信息值的行为标记)并最小化预测的奖励(针对奖励模型可能未正确预测的表面行为)。至于行为的第四类,它使轨迹的新颖性最大化,从而无论预期的回报如何都鼓励探索。

最后,一旦奖励模型达到令人满意的状态,便会部署基于计划的代理,该代理利用模型预测控制(MPC)来选择针对学习的奖励进行了优化的操作。与通过试验和错误学习的无模型强化学习算法不同,此MPC通过使用动力学模型来预测动作的后果,使代理能够避免不安全状态。

该研究的合著者写道:“据我们所知,ReQueST是第一种安全地了解不安全状态的奖励建模算法,并且可以扩展到在具有高维,连续状态的环境中训练神经网络奖励模型。”“到目前为止,我们仅通过相对简单的动力学就证明了ReQueST在模拟域中的有效性。未来工作的一个方向是在3D领域中使用更逼真的物理学和在环境中起作用的其他代理来测试ReQueST。”

(编辑:互联网 作者:互联网)

分享到:
版权申明

凡本网注明“XXX(非公益之声)提供”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和其真实性负责。

特别关注

新闻排行

资讯推荐

  • 中国教育报点赞微光计划!网易有道携

    3月22日,《中国教育报》发表评论文章,就残疾人教育发展现状、存在问题,以及推动职业教育与特殊教育融合的方式进行了探讨。文章中对网易云课堂携手微软...

    2022-03-25

  • "中国慈善家·微博”2023年度慈善盛典

    11月10日,由《中国慈善家》和微博联合主办的2023年度慈善盛典奖项申报评选工作正式启动。同步开放年度人物的推选以及年度榜样机构、年度优秀项目、年度...

    2023-11-17

  • 劳拉阿什莉继续按照社交疏散指南进行

    劳拉·阿什利(LauraAshley)最初宣布将在上周该公司上任后最多裁员721人,之后将裁员268人。它说当时有721名工人处于危险之中,但是现在大多数工...

    2021-12-09

  • 扬帆计划联合社会各界筹款600万元爱心

    12月18日甘肃地震发生后,在民建中央的指挥部署下,中华思源工程基金会积极统筹协调,思源·新浪扬帆公益基金“即刻扬帆紧急救灾”团队迅速响应,第一时间...

    2023-12-21

  • 社会秩序渐恢复许华升向百色捐赠数万

    近日,广西知名网红、小7婶品牌创始人许华升向百色捐赠近2万餐奶粉。许华升低调表示:“这是应该做的,没必要拿出来说。作为广西人,广西需要支援,一定全力...

    2022-02-18