以下哪种棋类游戏起源于中国

以下哪种棋类游戏起源于中国,第1张

通用AlphaGo诞生?MuZero在多种棋类游戏中超越人类 01

DeepMind的一项研究提出了MuZero算法,该算法在没有任何底层动态知识的情况下,通过结合基于树的搜索和学习模型,在Atari 2600游戏中实现了SOTA性能。在象棋、日式象棋、围棋的精准规划任务上可以媲美AlphaZero,甚至超越提前知道规则的围棋版本AlphaZero。

MuZero算法在国际象棋、日本象棋、围棋、雅达利游戏训练中的评测结果。
横坐标表示训练步数,纵坐标表示Elo分数。
黄线代表AlphaZero(代表雅达利游戏中人类的表现),蓝线代表MuZero。

基于前向搜索的规划算法在人工智能领域取得了巨大的成功。
在围棋、象棋、跳棋、扑克等游戏中。,人类世界冠军一次次被算法打败。
此外,规划算法在物流和化学合成等许多现实领域也产生了影响。
然而,这些规划算法都依赖于环境的动态变化,如游戏规则或精确的模拟器,导致其在机器人、工业控制、智能助手等领域的应用受到限制。

基于模型的强化学习旨在通过以下步骤解决这一问题:首先,学习一个环境动态模型,然后根据学习到的模型进行规划。
一般来说,这些模型要么侧重于重建真实的环境状态,要么侧重于完整观测的序列。
但是,之前研究的视觉丰富的领域远没有达到SOTA的水平,比如Atari 2600游戏。

最流行的方法是基于无模型强化学习,即从智能体与环境的交互中直接估计优化策略和/或代价函数。
但是在那些需要精确复杂的向前搜索的领域(比如围棋和象棋),这种无模型算法远远落后于SOTA。

研究人员在57个不同的雅达利游戏中评估了MuZero,发现该模型在雅达利2600游戏中实现了SOTA性能。
此外,他们还在没有给出游戏规则的情况下,对国际象棋、日本象棋和围棋中的MuZero模型进行了评估,发现该模型可以媲美AlphaZero超越人类的表现。
而且,在这个实验中,它的前身AlphaZero提前学习了规则。

MuZero算法概述

MuZero基于AlphaZero强大的搜索和基于搜索的策略迭代算法,但它也将一个学习到的模型集成到训练步骤中。
MuZero还将AlphaZero扩展到更广泛的环境,包括单个代理域和中间时间步长上的非零奖励。

算法的主要思想是预测与规划直接相关的未来行为(如下图1所示)。
模型将接收到的观察结果(如围棋棋盘图像或雅达利游戏截图)作为输入,然后将其转换为隐藏状态。
接下来,隐藏状态通过一个循环过程迭代更新,该循环过程接收前一个隐藏状态和假定的下一个操作。

在每一步,模型预测策略(比如玩的动作)、价值函数(比如预测的赢家)和即时奖励。
模型的端到端训练的唯一目标是精确估计这三个重要的量,以匹配改进的策略估计和通过搜索和观察奖励产生的价值。

对于隐藏状态,没有直接的约束和要求来捕捉重构原始观测值所需的信息,大大减少了模型维护和预测的信息量;不要求隐藏状态与环境中的未知和真实状态相匹配;对状态语义没有其他约束。

相反,隐藏状态可以以任何与预测当前和未来的值和策略相关的方式来表达状态。
凭直觉,代理可以在内部创建规则和动态,以实现最准确的规划。

图1:用一个训练好的模型计划、行动和训练。
(a)mu zero使用其模型进行规划的方式;MuZero在环境中的作用方式;MuZero训练其模型的方式。

穆泽罗算法详解

研究人员更详细地解释了MuZero算法。
在每个时间步T,用过去的观测结果O_1, hellip,O_t和未来行为a_t+1, hellip,a_t+k为条件,通过一个参数 theta模型微观;_ theta,对于每个k = 1 hellip第k步预测。
该模型预测三个未来量:策略

,价值函数

以及即时奖励。

,其中U代表观察到的正确奖励, pi表示用于选择实时操作的策略。γ;表示环境的折扣函数。

在每个时间步长t,穆泽罗模型的特征在于表示函数、动态函数和预测函数。
在这篇论文中,研究者精确地刻画了动态函数。
策略和价值函数是通过预测函数实现的。

并且按照内部状态s k来计算,类似于AlphaZero的联合策略和价值网。

给定这样一个模型,基于过去的观察O_1, hellip建立一个模型是可能的,O_t以假设a^1为基础求未来轨迹A 1, hellip,a^k。
例如,一个简单的搜索可以很容易地选择使成本函数最大化的K步动作序列。
更一般地,我们可能能够将任何MDP(马尔可夫决策过程)编程算法应用于从动态函数导出的内部奖励和状态空。

对于每一个假设的时间步长K,模型的所有参数都是联合训练的,这样在K个实际的时间步长之后,策略、值和回报都可以精确地匹配到它们对应的目标值。
与AlphaZero类似,提升的战略目标是通过蒙特卡罗树(MCTS)搜索生成的。
第一个目标是最小化预测策略p k _ t和搜索策略 pi_t+k之间的误差;第二个目标是最小化预测值v^k_t和值目标值z t+k之间的误差;第三个目标是最小化预测报酬R K _ T和观测报酬U _ T+K之间的误差
最后加入L2正则化项,得到如下总损失:

实验结果

在实验中,研究人员将MuZero算法应用于围棋、象棋和日本象棋等经典棋盘游戏,作为挑战规划的基准。同时应用于雅达利的游戏环境中的57款游戏,作为视觉复杂强化学习领域的标杆。

下图是MuZero算法在每次游戏训练中的表现。
在围棋比赛中,虽然搜索树中每个节点的计算量都小于AlphaZero,但MuZero的表现仍然略超过AlphaZero。
这表明MuZero可能会在搜索树中缓存自己的计算,并使用动态模型的每个附加应用程序来生成对位置的更深入理解。

图2:2:MuZero算法分别在国际象棋、日本姜奇、围棋和雅达利游戏训练中的评测结果。
在国际象棋、日本姜奇和围棋游戏中,横坐标表示训练步数,纵坐标表示Elo分数。

表1:穆泽罗与以往雅达利游戏代理的对比。
研究人员分别展示了MuZero和其他药剂在大规模(表格上部)和小规模(表格下部)数据设置下的对比结果。结果显示,穆泽罗在五个评价指标(红框)上取得了新SOTA的成绩:平均分、中值分、包络线。框架、训练时间和训练步骤。

为了了解模型在MuZero中的作用,研究人员还重点研究了Go和Pac-Man Atari游戏中的以下实验。
他们首先在典型的围棋规划问题上测试了规划的可扩展性(下图3A)。
此外,他们还研究了所有雅达利游戏中规划的可扩展性(下图3B)。
然后,他们将他们基于模型的学习算法与其他类似的无模型学习算法进行了比较(下图3C)。

图3: Mu Zero对围棋、57雅达利游戏、吃豆人游戏的评测结果。

(原文来自机心编辑部,论文链接:网页链接)

欢迎分享,转载请注明来源:聚客百科

原文地址: https://juke.outofmemory.cn/tech/372685.html

()
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-19
下一篇 2022-06-19

发表评论

登录后才能评论

评论列表(0条)

保存