优质边坡防护网:麻省理工学院的研究发现人类在与代理合作时会挣扎

优质边坡防护网:麻省理工学院的研究发现人类在与代理合作时会挣扎,第1张

优质边坡防护网:麻省理工学院的研究发现人类在与RL代理合作时会挣扎

人工智能已经证明,复杂的棋盘游戏和电子游戏不再是人类思维的专属领域。从国际象棋到围棋到星际争霸,使用强化学习算法的AI系统近年来的表现超过了人类世界冠军。

然而,根据麻省理工学院林肯实验室AI研究人员的一项研究,RL代理人在与人类玩家配对时可能会成为令人沮丧的队友,尽管他们的个人表现很高。这项研究涉及人类和AI智能体在Hanabi(一种纸牌游戏)中的合作。说明玩家更喜欢经典的、可预测的基于规则的AI系统,而不是复杂的RL系统。

这项研究的结果发表在arXiv的一篇论文上,强调了在将强化学习应用于现实世界的情况中存在的一些未探索的挑战,并可能对旨在与人类合作的AI系统的未来发展产生重要影响。

寻找强化学习的差距

强化学习是最先进的游戏机器人使用的算法。它首先为代理提供了一组游戏中可能的动作,一种从环境中接收反馈的机制,以及要追求的目标。然后,通过大量的游戏剧情,RL智能体逐渐从随机动作转变为学习可以帮助自己最大化目标的动作序列。

深度学习的早期研究依赖于从人类玩家那里预先训练游戏数据的代理。最近,研究人员已经能够开发RL代理,它可以在没有人类输入的情况下,通过纯自我游戏从零开始学习游戏。

在他们的研究中,麻省理工学院林肯实验室的研究人员有兴趣知道一个超越人类的强化学习程序是否能成为人类可靠的同事。

“在非常高的层面上,这项工作的灵感来自于以下问题:存在哪些技术差距,导致强化学习(RL)无法应用于现实世界的问题,而不仅仅是视频游戏?”罗斯·艾伦博士是林肯实验室的人工智能研究员,也是这篇论文的合著者,他告诉TechTalks。“虽然存在许多这样的技术差距(例如,现实世界的特点是不确定性/部分可观测性、数据稀缺性、模糊/微妙的目标、不同的决策时间尺度等。),我们认为与人类合作的必要性是在现实世界中应用RL的关键技术差距。”

对抗与合作的博弈

最近的研究主要将强化学习应用于单人游戏(如Atari Breakout)或对抗性游戏(如StarCraft和Go),在这些游戏中,AI与人类玩家或其他游戏机器人进行比赛。

“我们认为强化学习非常适合解决人类和人工智能合作中的问题,其原因类似于强化学习在人类和人工智能竞争中的成功,”艾伦说。“在竞争领域,强化学习是成功的,因为它避免了对游戏应该如何进行的偏见和假设,而是从头开始学习所有这些东西。”

事实上,在某些情况下,强化系统已经成功地破解了游戏,并找到了即使是最有天赋和经验的人类玩家也感到困惑的技术。一个著名的例子就是DeepMind的AlphaGo在与围棋世界冠军李世石的比赛中采取的行动。分析师首先认为此举是错误的,因为它违背了人类专家的直觉。但同样的动作最终扭转了局势,让AI玩家受益,打败了石狮。艾伦认为,当RL与人类合作时,同样的原创性也会发挥作用。

“我们相信,通过避免基于规则的专家系统的先入为主的假设和偏见,RL可以用来促进人类和人工智能之间的最新合作水平,”艾伦说。

在他们的实验中,研究人员选择了Hanabi,这是一种纸牌游戏,其中2到5名玩家必须按照特定的顺序合作玩牌。Hanabi特别有意思,因为虽然简单,但也是一个充分合作,信息有限的游戏。玩家必须收回他们的牌,并且不能看到他们的脸。所以每个玩家都能看到队友牌的脸。玩家可以使用有限数量的代币来相互提供关于他们的卡片的线索。玩家必须利用他们在队友手中看到的信息和他们自己手上有限的提示来制定获胜策略。

“在追求现实世界的问题时,我们必须从简单开始,”艾伦说。"因此,我们专注于Hanabi的基准协作游戏."

近年来,几个研究团队探索开发了可以玩花的人工智能机器人。有些智能体使用符号AI,工程师提前提供游戏规则,有些则使用强化学习。

人工智能系统根据人们在自我游戏(代理人玩自己的副本)、跨游戏(代理人与其他类型的代理人合作)和人类游戏(代理人合作)中的表现对他们进行评级。

研究人员写道:“与人类的交叉游戏,称为人类游戏,特别重要,因为它衡量人机合作,是我们论文中实验的基础。”

为了测试人类与人工智能的合作效率,研究人员使用了智能机器人(SmartBot),这是自我游戏中表现最好的基于规则的人工智能系统,以及其他游戏,这是RL中的Hanabi机器人算法,在交叉游戏和人类游戏中排名最高。

“这项工作直接扩展了之前在RL中的工作,用于训练Hanabi代理。特别是,我们研究了雅各布·福斯特实验室的“其他游戏”强化学习代理,”艾伦说。“这种特工的训练模式,使其特别适合与训练期间未谋面的其他特工合作。当它与训练中没有遇到过的其他人工智能合作时,它产生了Hanabi中最先进的性能。”

人机合作

在实验中,人类参与者与AI队友玩了几场Hanabi游戏。玩家接触过SmartBot和其他游戏,但没有被告知在幕后工作的算法。

研究人员根据客观和主观指标评估了人类和人工智能的合作水平。客观指标包括分数、错误率等。主观指标包括人类玩家的体验,包括他们对AI队友的信任和舒适度,以及他们理解AI动机和预测其行为的能力。

两个AI智能体在客观表现上没有显著差异。但研究人员希望人类玩家对其他游戏有更积极的主观体验,因为它已经被训练成与除自己以外的代理人合作。

“我们的结果令我们惊讶,因为人类参与者对与其他游戏代理人合作的反应非常强烈。简而言之,他们讨厌它,”艾伦说。

根据对参与者的调查,与基于规则的SmartBot代理相比,经验丰富的Hanabi玩家对其他游戏的RL算法的体验较差。哈纳比成功的一个关键点是向其他玩家提供微妙暗示的技巧。举个例子,假设“其中一个方块”的牌放在桌子上,你的队友手里有两个方块。通过指着这张牌说“这是一个2”或“这是一个方块”,你在暗示你的队友在没有告诉他完整信息的情况下打出了那张牌。有经验的玩家会立刻捕捉到这个提示。但事实证明,向AI队友提供同类型的信息要困难得多。

据该报报道,一名参与者在对其他球员的经纪人感到失望后说:“我给了他信息,他却扔了。”另一个说,“在这一点上,我不知道有什么意义。”

有趣的是,Other-Play旨在避免创建一个“秘密”合同,这是RL代理在只自己玩的时候制定的。这使得Other-Play成为不属于其训练系统的AI算法的最佳队友。但研究人员指出,它仍然对遇到的队友类型有假设。

“值得注意的是【其他-打法】假设队友也是零投篮配合优化的。相比之下,人类Hanabi玩家通常不会按照这种假设来学习。赛前设置和赛后评论是人类Hanabi玩家的常见做法,这使得人类的学习更类似于少拍协调,”研究人员在他们的论文中指出。

对未来人工智能系统的影响

“我们目前的研究结果表明,在与AI合作时,只有AI的客观任务表现(我们在论文中称之为‘自我博弈’和‘交叉博弈’)可能与人类的信任和偏好无关,”艾伦说。“这就提出了一个问题:什么样的客观指标与人的主观偏好有关?鉴于训练基于RL的智能体需要大量数据,在回路中训练人类是站不住脚的。因此,如果我们想要训练被人类合作者接受和重视的AI智能体,我们可能需要找到可训练的目标函数,这些函数可以作为人类偏好的替代品或与之密切相关。”

与此同时,艾伦警告说,不要将哈纳比实验的结果外推至他们无法测试的其他环境、游戏或领域。论文也承认了实验中的一些局限性,研究人员正在努力解决这些问题。例如,主题库很小(29名参与者),并且偏向于精通Hanabi的人,这意味着他们对AI队友有预定义的行为预期,并且更有可能对RL的古怪行为有负面体验代理。

然而,这些结果可能会对强化学习研究的未来产生重要影响。

“如果最高级的RL代理甚至不能在哈纳比这样一个受限而狭隘的游戏中成为一个可以接受的合作者;当应用于更复杂、微妙和有影响力的游戏和现实世界的情况时,我们真的应该期待同样的强化学习技术‘正常工作’吗?”艾伦说。“在技术和学术领域有很多关于强化学习的讨论;当然了。然而,我认为我们的研究结果表明,在所有可能的应用中,RL系统的优异性能都不应该是理所当然的。”

例如,很容易假设RL可以用来训练可以与人类密切合作的机器人代理。然而,艾伦表示,麻省理工学院林肯实验室的研究结果表明,事实恰恰相反,至少考虑到目前的技术水平。

“我们的结果似乎意味着,在基于学习的智能体成为人机交互等复杂情况下的有效合作者之前,需要更多的理论和应用工作,”他说。版权声明:本文内容由网民自发贡献,文中观点仅代表作者本人。本文(http://www.chuangzai.com)仅提供信息存储空服务,不拥有所有权并承担相关法律责任。如果您发现本网站涉嫌抄袭侵权/非法内容,请发送电子邮件至[email protected]举报。一经核实,本网站将被立即删除。

欢迎分享,转载请注明来源:聚客百科

原文地址: https://juke.outofmemory.cn/life/171318.html

()
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-28
下一篇 2022-05-28

发表评论

登录后才能评论

评论列表(0条)

保存