机器人在人机协作团队中成“领导”?工作原理为何?


随着机器人技术的发展,机器人在现实生活中发挥着越来越重要的作用。它不仅根据人的指示行事,而且在人与机器的协同工作中起着指导人类工作的作用。本文描述了斯坦福大学人工智能研究所的研究人员如何应用领导者 - 跟随者地图(LFG)来更好地利用团队中的机器人领导力。

我们的大部分生活都围绕着团队合作。例如,当与人合作或与人交互时,我们可以以明显的方式(例如一起烹饪时)或以不可检测的方式(例如在高速公路上共享车道时)这样做。随着机器人越来越融入社会,他们应该能够与人类社区合作。

b79d4941841ec2359a6cff9d6f4b0c2a.jpeg

团队合作的例子包括协作烹饪,抗议以及在拥挤的空间中漫步。

然而,影响人口具有挑战性。例如,想象一下无人机在志愿者搜索和救援任务中学习目标位置的最新信息(如下面的蓝色标记所示)。假设没有直接的沟通方法,那么无人机应该如何将志愿者带到那个地方?

9c53956d41d28565ea2b6fa4db909172.jpeg

蓝色箭头表示所需的路径,红色箭头表示当前人类志愿者的次优路径。

无人机领导团队的一种方法是单独模拟每个人并发挥影响力。其中,无人机建模的目的是了解和预测一个人的行为。但是,独立于其他人的建模和影响不能很好地扩展到更多的个人,我们无法执行快速在线计算。

ec9c87f61e537b0e5574fe103e73785d.jpeg

为每位志愿者单独建模的无人机。该方法不适用于大量代理。

影响人类团队的另一种方法是直接从团队观察中放弃任何建模和学习策略或行动计划。这种方法为相同数量的团队提供了合理的解决方案。但是,添加或减去团队成员会更改模型的输入大小,并需要重新训练模型。

我们取得了以下成果:

介绍了一种可扩展的人机交互建模方法。

本文描述了机器人如何利用这些知识来影响人类团队。

人口的潜在结构

根据具体情况采取行动。这些依赖关系提供了一种结构,我们可以用它来形成对他人的期望并采取相应的行动。在更大范围内,这使我们能够发展规范,实践,甚至文化。这些依赖关系对机器人很有用。因为它们提供了丰富的信息来源,所以它们可以帮助机器人建模和预测人类行为。我们将这些依赖性称为潜在结构。

78daad6fa1c29d2dafa08953fa8a8c49.jpeg

日本(左)和印度(右)形成了不同的驾驶文化。

潜在结构的一个重要例子是领导和后续行动。我们可以轻松组建团队,并决定是否应该跟随或领导团队有效地完成任务。例如,在搜索和救援任务中,一旦找到关于目标的新信息,人类就可以自发地成为领导者。我们还默默协调领导和后续战略。例如,当驾驶员开车时,他们会在车道上相互追随。在我们的工作中,我们将专注于对潜在引导进行建模并遵循结构并将其用作运行示例。

493b4589cae3c9c4493304a51eecd259.jpeg

在搜索和救援任务中,志愿者的潜在领导和跟随结构的例子(左)和交通中相互跟随的车辆的例子(右)。

那么我们如何模拟这些潜在的结构呢?理想模型的特性是什么?在讨论如何构建潜在的结构模型之前,让我们确定一些必要的元素。

复杂性:由于这些结构通常是隐式形成的,因此我们的模型应该足够复杂,以捕捉个体之间的复杂关系。

可扩展性:该模型应该能够适应不断变化的代理数量。

潜在的结构建模

最简单的情况

我们使用监督学习方法来估计两个人类代理之间的关系。回到基本元素的讨论,这解决了复杂性问题,因为使用基于学习的方法允许我们捕获这对组合可能具有的复杂关系。使用模拟器,我们可以要求参与者展示我们想要衡量的理想关系,例如领导力和后续行动。

我们将搜索和救援任务抽象为一个游戏,其中目标代表潜在的幸存者位置。在下面的示例中,要求参与者引导并相互跟随,以共同决定要实现的目标。与人有关的数据往往充满噪音,难以大规模收集。为了弥补这一缺点,我们使用模拟人类数据扩展了数据集。然后,我们将此数据输入神经网络模块。训练这些模块以预测前导和后导关系。这为我们提供了一个模型来评估每个代理以及目标成为代理的领导者的可能性。

741dafece8b80083425829857e3802cc.gif

网络预测玩家2的领导者是玩家1。

扩大团队规模

现在,我们如何为更大的团队建模?使用上述模型,我们可以通过计算所有代理和目标之间的对关系的得分,将多个人之间的关系表示为图。每个描述的边缘具有由我们训练的神经网络分配的概率(概率在下图中被抽象)。

fada9b75c88729629b68d0080826a972.gif

我们计算了所有可能的领导者和追随者之间的领导者 - 追随者关系的权重。

然后使用图论算法来修剪原始图像以获得最大似然图。例如,我们可以贪婪地为每个代理选择最高边(传出边?)。

059185c5af9b66fbb6158930136dbee2.gif

在其余图中,粗体边表示最可能的边缘。我们将此图片称为领导者 - 追随者地图(LFG)。

96b8f9a4e72d64cf033c1e1068241263.jpeg

领导者 - 追随者地图(LFG)。我们可以使用LFG来识别最有影响力的领导者,拥有最多粉丝的代理人。

由于我们可以轻松地模拟实时转换的代理数量,因此图形结构可以随着代理数量的变化而扩展。例如,在下一个时间步骤$ kth $中添加代理所需的时间与代理$ n $和目标数$ m $线性相关。实际上,这需要以毫秒计算。

泛化后我们的模型有多准确?

通过比较领导者 - 跟随者地图与真实预测所做的预测来评估模型概括的准确性。使用包含模拟和真实人类数据的模拟数据和数据(混合数据)进行训练实验。我们发现培训更多代理商有助于推广该模型。这表明在使用较少的代理进行培训或使用更智能的代理(需要收集更多数据)之间存在权衡。

009ab1a27d527fbada7e437fe1c246ad.jpeg

机器人的潜在结构是什么?

机器人可以使用底层结构来推断有关团队的有用信息。例如,在领导和后续示例中,我们可以识别诸如代理人的目标或谁是最有影响力的领导者之类的信息。此信息允许机器人识别对任务至关重要的关键目标或代理。考虑到这一点,机器人可以采取行动以达到预期的效果。以下是机器人用图形结构影响人类团队的两项任务:

A.合作任务

在许多现实场景中,能够引导一群人实现他们的目标是有用的。例如,在搜索和救援任务中,具有更多幸存者位置信息的机器人应该能够领导团队。我们创建了一个具有两个目标的类似场景,幸存者的潜在位置,以及知道幸存者所在位置的机器人。机器人试图通过引导所有队友到达目标位置来最大化联合效用。为了影响团队,机器人使用领导者 - 跟随者地图来推断谁是当下最有影响力的领导者。然后机器人选择采取最大化最有影响力的领导者实现最佳目标的概率的行动。

在下图中,绿色圆圈表示位置(或目标),橙色圆圈表示模拟人类代理,黑色圆圈表示机器人。机器人正试图带领团队达到更优化的底部位置。我们将机器人与图形结构(顶部)与贪婪地瞄准最佳目标(底部)的机器人进行比较。

300859283a31974be028378afca7a3a2.gif

8d9c7bfb0cb2395252db0d28606aa819.gif

在上图中,机器人移动到底部并围绕底部移动,这是引导推断的领导者向目标移动的最佳目标。在下图中,机器人直接朝向底部目标移动而没有任何对队友产生积极影响的尝试。

如果大多数人首先与底层目标发生碰撞,机器人将会成功;如果大多数人与次优目标发生碰撞,机器人将失败。以下是使用其他基线策略使用图形表示和机器人记录机器人成功率的图表。

62caaa2b5b4358ee0c3ebab815f033db.jpeg

超过100个合作游戏的成功率,其中n=4个玩家,目标是不同的

我们发现图形表示在具有大量潜在目标的更困难场景中是有用的。

B.反击任务

机器人也可能希望阻止人类团队达成集体目标。例如,想象一个旗帜获胜的游戏,机器人队友试图阻止对手抓住旗帜。

我们创建了一个类似的任务,机器人想要阻止人类团队达到目标。为了让团队陷入停滞状态,敌对机器人使用领导者跟随者地图来确定谁是当下最有影响力的领导者。然后机器人选择采取行动,引导推断的领导者推断目标的最大概率。下图的左侧显示了机器人动作的示例。在右边,我们展示了一个简单策略的示例,其中机器人随机选择一个玩家并试图阻止它,但它没有成功。

b4fc18b4bbad78fcf6c23fb2c3d5029f.gif

33753d1cbb64b4d4903b20bbdd220170.gif

在上图中,机器人使用领导者 - 跟随者地图采取行动以防止推断的领导者到达目标。在下图中,机器人未能成功跟随玩家以阻止他达到目标。

通过阻止玩家到达目标,机器人试图最大化游戏时间。这是一个使用图形表示与其他基线策略进行比较的机器人图。

73321bfde8d653d449c836c16872b444.jpeg

使用领导者 - 跟随者图(LFG)的两种策略成功地将游戏时间延长到其他基线方法。

我们发现,与其他基准测试策略相比,使用我们的图形表示的机器人在延长游戏时间方面是最成功的。

接下来是什么?

我们引入了一种可扩展的方法,代表了团队的内在结构。然后,我们演示如何使用此结构来设计智能影响行为。对于未来的工作,我们对以下内容感兴趣:

实际实验。我们正在微型机器人上实施我们的算法,以便我们可以尝试与真实的机器人和人类进行人机协作。

改变工作区域和结构。最好在更多类型的潜在结构(例如,团队成员如何相互信任)和不同域(例如,驱动程序,部分可观察设置)上测试我们的框架。

要了解更多信息,请阅读原始论文:

影响人机器人队的领先和追随者,Minae Kwon *,Mengxi Li *,Alexandre Bucquet,Dorsa Sadigh?机器人学会论文集:科学与系统(RSS),2019年6月

通过:雷锋网雷锋网雷锋网