AI打败最后一条影龙指日可待。
2019年,为了研究和分析AI与儿童之间的智力差距,一群世界顶级科研人员在卡内基梅隆大学和微软的共同资助下,举办了一场名为“MineRL”的比赛。以知名游戏《我的世界》为舞台,要求经过训练的AI在限定时间内寻找游戏中的稀有物品——钻石。
考虑到一个普通的孩子在观看了10分钟的教学视频后就可以独自玩我的世界,这个挑战在外行人看来并不是很难,但事实是,参赛的AI们在4天的限时挑战中执行了800多万次操作后仍然没有达到目的。
从那以后,米纳尔竞赛就成了一年一度的科研项目。每年都有很多探索AI前沿技术的学者带着他们精心训练的AI来到我的世界挖钻石。去年的MineRL大赛吸引了国内外近60支队伍,400多名科研人员同台竞技,可见其重视程度。
近日,知名AI技术公司OpenAI终于实现技术突破,提前秒杀竞争对手。根据他们在6月23日发表的论文,他们训练的AI在玩《我的世界》方面做得很好。挖掘钻石对他们的人工智能来说轻而易举。毕竟它掌握了只有人类才能领悟的高级玩法:
为了让AI真正像人类一样“玩游戏”,OpenAI的研究人员推出了一种新颖便捷的AI训练方法:视频预训练。他们从相关合作伙伴处获取了《我的世界》的演示视频以及伴随视频的键盘鼠标操作记录,并基于这些操作习惯,建立逆动力学模型来推测模拟视频中的鼠标键盘操作逻辑,进而反复推导出世界各地的《我的世界》视频来模拟人类的游戏习惯。
在被“强迫”观看了7万小时的视频后,OpenAI下的AI操作已经相当生动:缺氧时会主动浮出水面,饥饿时会吃腐肉充饥。在对研究人员的数据进行微调后,AI已经掌握了更高级的操作,包括在随机村庄中搜索宝箱,以及构建一个简单的“火柴盒”。
至于同行们辛辛苦苦研究的挖钻石方法,OpenAI也通过强化学习构建了科学合理的计算机模型。从获取木材到在工作台上制作钻石镐,总共需要24000次操作。对于比较熟练的老玩家来说,完成这个过程大概需要20分钟。但是经过今天AI的一次大规模训练,收集钻石的效率已经堪比人类了。
目前OpenAI已经将他们研究的预训练模型提交给MineRL竞赛,今年的研究团队也可以在这个模型的基础上根据他们的主攻方向进行微调。考虑到OpenAI优异的训练成绩,我认为今年的MineRL比赛将会是一场堪比神仙打架的高端比赛。也许很快,AI已经开始研究如何提速了。