机器人懂人话 谷歌新 AI 语言加强互动
谷歌的母公司Alphabet正在将其最雄心勃勃的两个研究项目——机器人和人工智能语言理解——汇集在一起,试图创造一种能够理解自然语言指令的“助理机器人”。
自2019年以来,Alphabet一直在开发能够执行简单任务的机器人,例如拿饮料和清洁表面。这个“日常机器人”项目还处于初级阶段——机器人行动缓慢且犹豫不决——但现在这些机器人已经升级:在谷歌大型语言模型(LLM)PaLM的帮助下,语言理解能力得到了提高。
大多数机器人只会对简短的指令做出反应,比如“给我一瓶水”。但是像GPT-3和谷歌妈妈这样的LLM可以更好地解释更多斜杠命令背后的意图。在谷歌的情况下,你可能会告诉一个日常机器人原型,“我把饮料洒了,你能帮我吗?”机器人通过内部的可能动作列表过滤这个指令,并将其解释为“从厨房给我拿块海绵”。
是的,对于一个“智能”机器人来说,这是一个低标准,但这绝对是一个进步。真正聪明的是,如果这个机器人看到你洒了饮料,听到你喊“啊,天啊,我的蠢饮料”,它会帮你解决。
谷歌生产的系统被命名为PaLM-SayCan,它反映了该模型如何将LLM的语言理解能力(“说”)与机器人的“耐力基础”(即“能”——通过可能的动作过滤指令)结合起来。
谷歌表示,通过将PaLM-SayCan集成到其机器人中,这些机器人可以在84%的时间内正确响应101条用户指令,并在74%的时间内成功执行这些指令。这是一个可靠的命中率,但应该谨慎对待这些数字。我们没有101条指令的完整列表,所以不清楚这些指令的限制性有多大。它们真的抓住了我们期望一个真正的家庭助手机器人理解的所有语言的广度和复杂性吗?这是不可能的。
这是因为这对谷歌和其他从事家用机器人工作的人来说是一个巨大的挑战:现实生活是彻头彻尾的混乱。有太多复杂的命令我们想问一个真正的家用机器人,从“清洗我刚刚洒在沙发下的麦片”到“炒洋葱做意大利面酱”(这两个命令都包含了很多隐性知识,从如何清洗麦片到冰箱里的洋葱在哪里以及如何准备等等。).
随着人工智能在视觉和导航等技能上的提高,我们现在看到新的机器人进入市场,但这些机器人仍然被有意限制在它们能做的事情上。例如,看看拉布拉多系统公司的寻回犬机器人。它基本上是一个带轮子的架子,可以将物品从房子的一个地方移到另一个地方。当然,这个简单的概念有很大的潜力——寻回犬机器人对于行动不便的人来说非常有用——但我们距离实现全能机器人管家的梦想还有很长的路要走。