一边是“深度学习(DL,Deep Learning)碰壁”的呐喊,一边是马上就能造出人形AI的喜悦。“深度学习三巨头”之一的Yann LeCun(杨丽坤)终于坐不住了。
当地时间6月16日,Yann LeCun撰写了《人工智能能告诉我们什么》,首次正面回应了深度学习目前存在的问题。勒村写道,“从一开始,批评者就过早地认为神经网络遇到了不可逾越的墙,但每次都被证明只是暂时的障碍。”
LeCun认为这是一场关于深度学习前景的争论。争论的核心是关于符号在智能中的作用有两种不同的观点:一种是符号推理必须从一开始就硬编码,另一种是机器可以像人类一样从经验中学习。这就涉及到我们应该如何理解人类的智能,然后去追求人类级别的人工智能。
为世界首富马斯克准备了50万美元的奖池
2012年,Geoffrey Hinton的团队以一鸣惊人的成绩赢得了ImageNET大规模视觉识别挑战赛(ILSVRC)。此后,深度学习成为人工智能研究的主要焦点。
深度学习已经在许多过去对计算机来说非常具有挑战性的任务中取得了进展,包括图像分类、对象检测、语音识别和自然语言处理。它的表现甚至让人觉得人形特工的诞生指日可待。埃隆·马斯克(elon musk)在推特上表示,“2029年感觉像是关键的一年。如果那个时候我们没有AGI(通用人工智能),我会很惊讶。我希望火星上的人也一样。”
马斯克的言论在AI界激起了很多反对的声音。知名人工智能科学家、纽约大学教授加里·马库斯(Gary Marcus)提出与马斯克打赌10万美元。与Marcus new york大学的计算机科学家Ernest Davis合作,编写了以下五个标准来测试AGI是否实现,作为打赌的内容:
2029年,AI无法理解电影,然后告诉你到底发生了什么(人物是谁,他们的冲突和动机是什么等等。);
2029年AI无法阅读小说,无法回答关于剧情、人物、冲突、动机等问题。可靠地;
2029年,AI在任何厨房都做不了称职的厨师;
2029年,AI无法通过自然语言规范或与非专家用户的交互可靠地构建超过10000行的无错代码(将现有库中的代码粘在一起不算);
2029年,AI还不能任意从用自然语言编写的数学文献中获取证据,并转换成适合符号验证的符号形式。
“这是我的建议。如果你(或其他任何人)设法在2029年完成至少三项,即使你赢了。10万美元怎么样?”马库斯写道。
在马库斯发出这条推文的几个小时内,他发布赌博游戏的网站有近1万次页面浏览量,奖金池现已增加到50万美元,由作家凯文·凯利提出在其网站上托管。但是马斯克没有回应。对马库斯·马斯克(Marcus Musk)说,“比如你在2015年说要两年才能实现完全自动驾驶的汽车。从那以后,你几乎每年都会说同样的话,但现在完全自动驾驶还没有实现。”
马库斯一直对深度学习的技术路径持怀疑态度。他曾经写过一本关于深度学习局限性的书,他支持结合不同人工智能技术的混合方法。3月中旬,马库斯曾撰文《深度学习碰壁》,认为纯粹的端到端深度学习即将结束,整个AI领域必须另寻出路。
混合方法VS纯深度学习:Marcus choking hint on
终于在6月1日,一向深居简出的Geoffrey Hinton在加州伯克利教授Pieter Abbeel的播客节目中谈到了这个话题。“如果有人说[深度学习]碰壁了,那么他们只需要列一个清单。五年后,我们可以证明深度学习做到了。”
于是,Marcus在Twitter上写了一封给Geoffrey Hinton的公开信,还提到了他与Ernest Davis合作整理的评判AGI的五个标准,也就是说他已经在与Musk的对赌中列出了深度学习做不到的事情。
深度学习的缺点确实随着发展越来越清晰,包括其有限的泛化能力、与因果关系的斗争以及缺乏可解释性。此外,大多数深度学习应用需要大量人工标注的训练样本,这也成为一个瓶颈。但在Geoffrey Hinton、Yoshua Bengio和Yann LeCun这三位因对深度学习的开创性贡献而闻名的图灵奖获得者看来,一个更好的神经网络架构最终会克服当前深度学习的局限性。
LeCun在文章中写道,“今天看似不可逾越的墙是符号推理,即以代数或逻辑方式操纵符号的能力。我们知道,解决数学问题,需要按照严格的规则一步一步地处理符号。作为《代数思维》的作者和《重启AI》的作者之一,加里·马库斯(Gary Marcus)最近声称,深度学习无法取得进一步的进展,因为神经网络在处理符号运算方面存在困难。然而,许多深度学习研究人员确信,深度学习已经在执行符号推理,并将继续改进。”
实际上,LeCun在5月份也发了推文,“我相信我们需要找到新的概念,以便机器能够:通过像婴儿一样观察来理解世界是如何运转的。学习如何通过行动来影响世界。”但这里说的和马尔库斯主张的不是一回事。LeCun正在研究一种更复杂的自我监督学习,Marcus支持这种混合方法。
最近一个获得关注的混合方法是神经符号人工智能,它是人工智能的一个分支,随着深度学习的兴起一度被淘汰。它将人工神经网络与符号系统相结合,但将人类的专业知识提炼为一套规则,这被证明是非常困难、耗时且昂贵的,也被称为“知识获取瓶颈”。虽然给数学或者逻辑写规则很简单,但是这个世界本身是很暧昧的。事实证明,不可能为每种模式编写规则或为模糊概念定义符号。
在3月份IBM Neurosymbol AI Symposium的一次演讲中,麻省理工学院计算认知科学教授约书亚·特南鲍姆(Joshua Tenenbaum)解释了当前的Neurosymbol系统如何帮助解决AI系统的一些关键问题,包括缺乏常识和因果关系、组合和直观物理。
“我们如何才能超越智能的概念,即识别数据中的模式和近似函数,并更多地走向通过人类思维来建模世界——解释和理解你所看到的,想象你看不到但可能发生的事情,并通过规划行动和解决问题将其转化为你可以实现的目标?”特南鲍姆认为,要弥合与人类智力的差距,首先要探索的是人类和许多动物共有的智力的基本方面之一:直觉物理学和心理学。
tenen Baum的神经符号AI概念的一个关键组成部分是物理模拟器,它被集成到智能体的推理过程中,以帮助AI实时模拟世界并预测未来将发生的事情。
由此,我们可以大致了解目前的神经符号系统AI思维。同时,该方法被证明比纯深度学习系统需要更少的数据和计算资源。
这就引出了另一个问题——人工智能的范式转换。马库斯下了新的赌注。他认为我们中90%的人需要人工智能的范式转变,而SlateStarCodex的名人斯科特·亚历山大认为应该不到60%。
LeCun提出了论点的实质:智力是如何工作的?是什么让人类独一无二?
LeCun在文章中指出,马库斯对深度学习的批评源于认知科学(甚至更古老的哲学)中的一场相关斗争,即智能是如何产生的,是什么让人类独一无二。他的想法与心理学中一个著名的“先天论”学派是一致的,该学派认为认知的许多关键特征是先天的——事实上,我们天生就有一个关于世界如何运作的直观模型,这在很大程度上是如此。
这种与生俱来的架构的一个核心特征就是符号操控能力。但究竟是存在于整个自然界,还是人类独有,目前仍有争议。对于马库斯来说,这种符号操纵能力是常识的许多基本特征的基础:遵循规则、抽象、因果推理、重新识别细节、概括等。简而言之,我们对世界的认识大部分是大自然赋予的,学习是一个丰富细节的过程。
另一种“经验主义”观点认为,符号操纵在自然界中是罕见的,它主要伴随着人类祖先在过去两百万年中逐渐获得的学习和交流能力。根据这一观点,认知能力主要是与提高存活率相关的非符号学习能力,如快速识别猎物、预测其可能的行为和发展熟练的反应。这种观点认为,绝大多数复杂的认知能力是通过一种普遍的和自我监督的学习能力获得的。这是通过经验获得直观世界模型的能力,具有常识的核心特征。它还假设我们大多数复杂的认知能力不依赖于符号操纵,而是通过模拟各种场景和预测最佳结果来实现。
这种经验主义观点将符号和符号操纵视为另一种学习能力,是随着人类越来越依赖合作行为取得成功而获得的。这种观点将符号视为人类用来协调合作活动的发明——如文字、地图、图标描绘、仪式甚至社会角色。这些能力被认为是由于较长的学习青春期和对更精确和专业技能的需求(如工具制造和消防维修)的结合。这种观点认为,符号和符号运算主要归功于文化发明,较少依赖于大脑中的硬连线,更多依赖于我们日益复杂的社会生活。
这两种观点的区别非常明显。
对于先天论来说,符号和符号操作是大脑与生俱来的,文字和数字的使用就是来源于这种原始能力。这种观点很有吸引力,可以解释一系列源自进化适应的能力(尽管关于符号操纵是如何或为什么进化的一直存在争议)。
对于经验主义者来说,符号和符号推理是出于交流目的的有用发明,它源于一般的学习能力和复杂的社会世界。这些象征性的东西,比如内心的计算,内心的独白,都发生在我们的头脑中,所以被视为源于数学和语言运用的外在实践。
人工智能和认知科学是密切相关的,所以这些争论被重复也就不足为奇了。人工智能领域任何观点的成功都会部分证明认知科学中的这个或那个方法是正确的(但只是部分正确),所以这些争论激烈也就不足为奇了。现在,问题不仅在于人工智能的正确方法,还在于智能是什么,大脑是如何工作的。
如果马库斯和先天论者是对的,那么深度学习永远无法实现人形AI,无论它提出多少新的架构,也无论它投入多少计算能力。不断增加更多的层只会令人困惑,因为真正的符号操作需要一个与生俱来的符号操作者。而且,由于这种符号运算是几种常识能力的基础,深度学习系统除了对事物的粗略和现成的理解之外,永远不会有别的。
相比之下,如果深度学习的倡导者和经验主义者是正确的,那么插入符号操纵模块的想法是混乱的。在这种情况下,深度学习系统已经在进行符号推理,并将继续改进它,因为它们通过更多的多模态自我监督学习、越来越有用的预测世界模型、用于模拟和评估结果的工作记忆的扩展来满足约束。符号操纵模块的引入,并不会带来更像人类的AI,反而会通过一个不必要的瓶口强行进行所有的“推理”,让我们与类人智能渐行渐远。这可能会切断深度学习最令人印象深刻的一个方面:它可以提出比人类程序员想象的更有用、更智能的解决方案。
尽管事关重大,但同样重要的是,这些辩论中提出的许多问题至少在某种程度上是次要的。比如一些讨论:深度学习系统中的高维向量应视为离散符号(可能不是),实现深度学习系统所需的代码行是否使其成为混合系统(语义),是否需要人工的、特定领域的知识才能在复杂的游戏中获胜,或者是否可以学习(过早)。另一个问题是,混合系统是否有助于解决围绕人工智能的伦理问题(否)。
而这一切并不是为了证明这种愚蠢的炒作:当前的系统是无意识的——它们无法理解我们,强化学习也是不够的。你不能仅仅通过扩大规模来构建人形智能。但所有这些问题都与主要的争论无关:符号操纵需要硬编码吗,还是可以学习?
这是呼吁停止研究混动车型吗?当然不是。自20世纪80年代以来,研究人员一直在研究混合模型,但它们尚未被证明是灵丹妙药——或者在许多情况下,甚至远不如神经网络。更广泛地说,人们应该怀疑深度学习是否已经达到了极限。
LeCun在最后写道,鉴于最近在DALL-E 2、加托和PaLM中任务的持续和增量改进,避免将障碍误认为墙壁似乎是明智的。深度学习不可避免的失败之前已经预料到了,但不值得为此打赌。