就像人类一样,机器人做决定的时候,通常会有很多选择,上百种潜在的结果。机器人已经能够模拟其中的一些结果,从而找出最有可能导致成功的因素。就像人类一样,机器人做决定的时候,通常会有很多选择,上百种潜在的结果。机器人已经能够模拟其中的一些结果,从而找出最有可能导致成功的行动计划。但是如果其他选择中的一个同样可能成功并且更安全呢?
海军研究办公室授予史蒂文斯理工学院(MIT)麻省理工学院机械工程师布伦丹恩格洛特(Brendan Englot)2020年青年科学家奖508693美元,以利用经典人工智能工具的新变体,使机器人能够预测机器人的许多可能结果,它们的行为及其发生的可能性。这个框架将使机器人能够通过了解哪些选项是最安全、最有效和最不可能失败的,来找到实现目标的最佳方式。
恩格洛特说,“如果机器人完成任务的最快方式是走在悬崖边上,那就会牺牲速度的安全性。”Englot将率先使用这个工具(分布式强化学习)来训练机器人。“我们不希望机器人掉下悬崖,所以我们为它们提供工具,以预测和管理完成所需任务所涉及的风险。”
多年来,强化学习一直被用于训练机器人在水中、陆地和空中自主导航。但这个AI工具有局限性,因为它实际上是根据每个可用操作的单个预期结果,根据可能发生的许多其他可能结果来做出决策。Englot使用分布式强化学习,这是一种人工智能算法。机器人可以使用它来评估所有可能的结果,预测每个行动成功的可能性,并在保持机器人安全的同时选择最成功的权宜之计。
在将算法应用于实际机器人之前,Englot的首要任务是改进算法。Englot和他的团队创造了许多决策环境来测试他们的算法。他们经常转向这个领域最受欢迎的游乐场之一:雅达利游戏。
比如你玩吃豆人,你就是决定吃豆人行为的算法。你的目标是得到迷宫中的所有点,如果可以的话,还有一些水果。但是周围有可以杀死你的鬼魂。每一秒钟,你都必须做出决定。你直走,向左还是向右?哪条路可以让你获得最多的积分和点数,同时让你远离鬼魅?
Englot的AI算法使用分布式强化学习,它将取代人类玩家,模拟所有可能的动作,以安全浏览其景观。
那么,如何奖励机器人呢?Englot和他的团队会为不同的结果分配分数,即如果机器人掉下悬崖,它会得到-100的分数。如果采用缓慢但安全的方法,你可能会在绕道的每一步得到-1分。但是,如果你成功达成目标,你可能会得到50。
Englot说:“我们的次要目标是看看如何设计奖励信号,以积极影响机器人的决策和训练方法。”“我们希望这个项目中开发的技术最终可以用于更复杂的AI,例如训练水下机器人在潮汐、洋流和其他复杂环境因素中安全航行。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!