机器人使用新的人工智能工具在做决定之前评估所有的可能性

2022-04-13 10:03:51 邓蓉阅

导读就像人类一样，机器人做决定的时候，通常会有很多选择，上百种潜在的结果。机器人已经能够模拟其中的一些结果，从而找出最有可能导致成功的

就像人类一样，机器人做决定的时候，通常会有很多选择，上百种潜在的结果。机器人已经能够模拟其中的一些结果，从而找出最有可能导致成功的因素。就像人类一样，机器人做决定的时候，通常会有很多选择，上百种潜在的结果。机器人已经能够模拟其中的一些结果，从而找出最有可能导致成功的行动计划。但是如果其他选择中的一个同样可能成功并且更安全呢？

海军研究办公室授予史蒂文斯理工学院(MIT)麻省理工学院机械工程师布伦丹恩格洛特(Brendan Englot)2020年青年科学家奖508693美元，以利用经典人工智能工具的新变体，使机器人能够预测机器人的许多可能结果，它们的行为及其发生的可能性。这个框架将使机器人能够通过了解哪些选项是最安全、最有效和最不可能失败的，来找到实现目标的最佳方式。

恩格洛特说，“如果机器人完成任务的最快方式是走在悬崖边上，那就会牺牲速度的安全性。”Englot将率先使用这个工具(分布式强化学习)来训练机器人。“我们不希望机器人掉下悬崖，所以我们为它们提供工具，以预测和管理完成所需任务所涉及的风险。”

多年来，强化学习一直被用于训练机器人在水中、陆地和空中自主导航。但这个AI工具有局限性，因为它实际上是根据每个可用操作的单个预期结果，根据可能发生的许多其他可能结果来做出决策。Englot使用分布式强化学习，这是一种人工智能算法。机器人可以使用它来评估所有可能的结果，预测每个行动成功的可能性，并在保持机器人安全的同时选择最成功的权宜之计。

在将算法应用于实际机器人之前，Englot的首要任务是改进算法。Englot和他的团队创造了许多决策环境来测试他们的算法。他们经常转向这个领域最受欢迎的游乐场之一：雅达利游戏。

比如你玩吃豆人，你就是决定吃豆人行为的算法。你的目标是得到迷宫中的所有点，如果可以的话，还有一些水果。但是周围有可以杀死你的鬼魂。每一秒钟，你都必须做出决定。你直走，向左还是向右？哪条路可以让你获得最多的积分和点数，同时让你远离鬼魅？

Englot的AI算法使用分布式强化学习，它将取代人类玩家，模拟所有可能的动作，以安全浏览其景观。

那么，如何奖励机器人呢？Englot和他的团队会为不同的结果分配分数，即如果机器人掉下悬崖，它会得到-100的分数。如果采用缓慢但安全的方法，你可能会在绕道的每一步得到-1分。但是，如果你成功达成目标，你可能会得到50。

Englot说：“我们的次要目标是看看如何设计奖励信号，以积极影响机器人的决策和训练方法。”“我们希望这个项目中开发的技术最终可以用于更复杂的AI，例如训练水下机器人在潮汐、洋流和其他复杂环境因素中安全航行。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！