算法周刊·专访|业界大牛投身学术圈,周伯文:学术研究不仅仅停留在论文

2022-09-07  31

算法周刊·专访|业界AI大牛投身学术圈,周伯文:学术研究不仅仅停留在论文


5月30日,清华大学聘任周伯文博士为电子工程系长聘教授、清华大学惠妍讲席教授的消息在业界引起注意。
又一业界AI大牛投身学术圈,工业界AI人才转投学界越来越普遍。电气和电子工程师学会会士(IEEE Fellow)、前京东高级副总裁周伯文博士此次动向的特殊之处在于,更加强调产学研融合创新,从源头上重视成果的产业化落地。
据公开报道,周伯文此前还创立了衔远科技。查阅衔远科技网站,这是一家聚焦为蓬勃兴起的万亿级产业数智化赛道打造领先的人工智能技术平台与产品的科技公司。
周伯文日前向澎湃新闻(www.thepaper.cn)讲述加盟清华大学的初衷,探讨工业界AI人才返流和对话型AI当下的三大局限,并为青年学生提出人工智能求学“干货”。
20多年来长期从事人工智能基础理论和前沿技术研究,周伯文在语音和自然语言处理、语音机器翻译、深度语义理解等领域取得突出成就,多篇论文被国际学者他引过千。
他在接受澎湃新闻专访时表示,过去几十年自己一直在做同一件事情,就是在技术前沿拓展已有的知识、已有的能力、已有的模型并应用这些创新解决实际问题。过去的积累和沉淀也让他决心在下一阶段进一步探索、巩固产业界与学术界融合创新的高校科研团队,为真正做出学术意义、经济效益、社会价值三位一体的前沿成果而努力。
“一方面,我们应该对过去几年人工智能的进展感到鼓舞和激励,另一方面,确实也提出了很多潜在问题。为什么我在这个时间点愿意回到高校做前沿研究,我认为前沿的研究还有很多问题没有解决。尤其是近年来在工业界应用场景中遇到的许多‘硬骨头’问题需要回到高校中,通过建立更紧密的产、研、学、试、用的协同工作机制来解决,”周伯文说,“清华大学是国内在协同创新方面最活跃、最具深远洞察的高校,我在清华建立的科研团队不仅致力于把产业界的核心难题拿回实验室攻克,也要把学术界最精华的思考、实验范式和前沿成果更好地产品化、方案化,这个团队与已有模式最大的不同在于,我们最希望实现的是基础研究与创新产品的循环促进,把技术研究和产业研发结合得更紧密、更有机。”
周伯文已有的学术成果体现与工业界实际场景的紧密结合。他曾于2017年出任京东集团副总裁、京东人工智能事业部总裁、京东人工智能研究院创始院长,后来获晋升为京东智联云总裁(负责云计算、人工智能、物联网及企业信息化等业务)、集团技术委员会主席、集团高级副总裁。
在加入京东前担任过IBM Research人工智能基础研究院院长、IBM Watson Group首席科学家(Chief Scientist)、IBM 杰出工程师等职位,既负责IBM在人工智能和深度学习基础研究方面的战略规划和研究,也深度参与人工智能技术的产品化与商业化。
早在2003年,他研发了世界首个嵌入式大词汇量双向语音翻译系统,并成功推动其后续产品化并获得成功市场应用。他曾带领团队开发IBM Watson Platform、 定义并推出京东NeuHub人工智能开放平台,其核心技术广泛应用于跨模态搜索、语音翻译、智能客服、导购助手、内容生成、数字虚拟人等大规模互联网应用,及智能供应链、AI质检、智能产品设计、组织数智化协同等产业数智化应用。其中,2019年NeuHub被科技部授予智能供应链国家人工智能开放平台,他和团队也打造了数智化展会平台,支撑了包括2020和2021年中国国际服务贸易会等在内多个重大活动的线上线下融合办会。
随着人工智能战略的深入实施,中国目前拥有许多能够很好解决单一问题的人工智能企业,也具备世界一流的单项人工智能技术。“加强人工智能产业链,就是将人工智能技术投入到实体经济方方面面的应用当中,其实现有赖于AI与实体产业的融合创新。”周伯文说,“今天,AI在实体产业中的大规模应用只是刚刚开始。学界和产业界正迎来‘黄金时代’。”
工业界AI人才返流
在中国,工业界AI人才“返流”,科技公司AI负责人转投或重返学界越来越普遍。
去年11月,复旦大学官宣蚂蚁集团原首席AI科学家漆远加盟复旦,出任“复旦-浩清”特聘教授、复旦人工智能创新与产业研究院院长。在加入阿里之前,漆远已是美国普渡大学计算机系和统计学系终身副教授。
去年8月,字节跳动AI Lab原总监李磊宣布加入美国加利福尼亚大学圣塔芭芭拉分校。再早些时候,百度公司前总裁张亚勤2020年组建清华大学智能产业研究院,并任研究院院长、清华大学智能科学讲席教授。
字节跳动原副总裁兼人工智能实验室主任、IEEE Fellow马维英2020年加入清华大学智能产业研究院任首席科学家。2019年3月,香港科技大学和创新工场宣布成立计算机感知与智能控制联合实验室,出走腾讯AI Lab的张潼任联合实验室主任,目前张潼也在香港科技大学数学系任教。
事实上,过去几十年,国际上学术界和产业界人才互动一直是非常明显的趋势,也有非常多成功案例。
周伯文在海外工作时,就有很多身边的案例。回国前,他在IBM T. J. Watson研究中心工作了15年。“在中心里我一直有很多同事,他们在工业界做科研很长一段时间之后加入CMU、Yale、JHU、Columbia等高校。”
“学术研究不仅仅停留在论文上,也有很多希望在产业上解决实际问题的研究者,他们同样有很大的影响力。不管是从学术界去工业界,还是从工业界回到学术界,这取决于每个学者当前关注的、研究的问题。”
周伯文表示,从全球来看,这种产学研结合不是近年来才有的新兴事物,往往正是成功的产学研结合成果深刻地改变了我们的生活。将前沿理论变为划时代的应用需要对技术、产品、市场都有深刻洞察,尤其是像人工智能这样讲究落地的学科,结合现实问题,进行更多探索性的学术研究是非常有必要的。
产学研结合过程中,学术研究和产业化具有不同特性。学术研究的目的是探索新知,在具备广阔视野的基础上,必须聚焦才能深入,从文献、综述开始了解前人的工作需要大量的知识建构过程,然后研究者需要提出一个很具体的待开拓的研究方向,是一个从简到繁的工作。
而产业化则更倾向于解决问题,尤其是通过技术成果的创新应用解决有很多实际约束条件的问题,这里面很重要的一个工作是技术的产品化,即需要面向明确的使用者、具象化的场景做好符合技术成果能力边界的产品设计,并在工程上做足测试、试验和验证,判断是否能够以合理成本规模化进行复制和应用,最后的目标才是产品的市场化及大规模交付。
凡是能够规模化、商业化成功的产品,其设计、开发、集成和生产过程都是十分精益的。所有的复杂度都隐藏在产品后面,留给用户的是可靠、简单、易用的体验,由繁至简。“所以我们看到大多数影响深远的产学研成果的落地,都需要经历一个从简到繁、从繁到简的过程。”
在实际工作中,工业界的研发更倾向于逆向的市场问题导向,以待解决的业务问题倒逼思考用何种产品,才能在可控成本和用户体验得到保证的情况下解决实际问题,接着围绕产品寻找既可规模化又可高效解决问题的技术。
更多时候,对市场问题的技术认知是一个过程。工业界的研发需要“对问题一层一层抽象”,“前面是市场需求与机会的洞察,后面则具象成技术、产品问题,所需要的技术边界的突破最后归纳成学术研究的基础问题。”
周伯文认为,新型的产学研融合,不再仅仅是原有比较普遍的单链条地从学校、公司到市场的科研成果转化,也需要从市场开始,对真正能够提高国计民生、提高国家硬科技水平能力,同时能够提高市场效率、提高企业竞争力、提高生活水平的重大问题形成认知,提炼抽象成学术问题的同时还要把这种问题抽象的能力更好地传递给学生和青年学者,建设工业界与学术界相互牵引,双螺旋同步上升的良好生态。
要做真问题
2007年,苹果手机iPhone诞生。比这更早的是,2003年,手持设备上大词汇双向语音翻译系统就已经出现了,不同语言的两个人可以通过一个手持设备互相用语音实时对话。而这项技术背后的研发者就是当时还在IBM工作的周伯文。
“当时最好的商用手持设备PDA,我记得只有32兆存储,206兆赫兹的定点CPU,都没有浮点计算能力,它的算力、存储现在看都像恐龙一样原始。而且语音识别也好,机器翻译、语音合成也好,都是对算力、模型大小有很高的要求,而且为满足用户自由交流需要的词汇量越大,需要的模型越大,计算越复杂。所以当时我一个人开始做这个项目的时候,大家都觉得挑战非常大,近乎不可能。”
在手持设备的大规模双向语音翻译系统出现之前,周伯文研发的前一个系统和其他同行的工作已经证明,更大型的计算设备是可以实现实时翻译的。
但一个现实问题是,语音翻译系统的使用者不可能随时随身携带笨重的大电脑,在本世纪初的通信条件、云计算远远没有普及的年代这套系统也不可能随时连接到服务器。“所以很明确,只有把这个技术放在手持设备上落地才能真正给用户带来价值,解决在语言不通情况下的信息交流问题。”
从学术研究的角度来看,语音翻译系统技术已有研发,“前一个项目已经成功结束了,我也做出了我的贡献,写好的论文也发表了,本来我可以选择去做下一个热点的学术研究。”如果再把宝贵的科研时间花在一个手持语音翻译系统的研究上,可以确定的是这一定需要做大量的优化与工程工作,这些工作量巨大,但很难基于这些工作发表论文,而不可确定的是这个想法的可行性,因为以前没有人做过。所以,很多人会觉得这是一个没有那么迷人的项目。
但当时的周伯文很坚定,“这东西是真正能带来价值的事情。”
“非常感谢,当时我在IBM的领导们也都很支持我去尝试。所以我花了快一年的时间,基本上所有周末、晚上我都在实验室写代码、调试硬件设备。”当年没有安卓也没有iOS系统,当时几乎所有手持设备上使用的Windows CE作为人工智能系统的开发环境与操作系统都十分困难,“不方便做profiling,也很难debug。”
周伯文不得不从最底层的操作系统来设计他的语音翻译系统,自己根据底层硬件,适配驱动程序,从头开始编译嵌入式Linux系统,自己写开发工具链,重新设计语音翻译系统的架构和重写代码,更重要的是还得找到新算法。“原来大家做的普遍架构是瀑布式的,即先做语音识别,再做机器翻译,再做语音合成。但这样的‘大道场’架构放在手持设备这样的‘螺蛳壳’里,第一速度太慢,第二内存不够,第三语音识别的准确率会影响机器翻译的准确率。”
为此他提出了新的模型和新的架构来重构语音识别系统,其中的一个创新是将语音识别和机器翻译结合在一起联合搜索,多项创新融合将语音翻译在准确率不变的情况下速度提升了100多倍。“所以到2003年年底我们推出了这个系统之后,当时确实改变了很多人的思考方式。后来这个领域的研究和成果比赛,很多公司和高校如CMU都开始往手持设备上走。”基于其推出的便携语音翻译产品也在多个应用场景里获得商业化的成功,后来这个工作的一部分发表在Proceeding of IEEE期刊关于语音翻译领域进展的综述文章里。
回过头来看,如果纯粹是为了论文影响力的最大化,当年周伯文做这件事并不算一个“聪明”的举动,在产品化方面花费的精力其实也可以用来撰写更多的新论文。但他的选择是坚持技术创新要为实际问题服务,选择让解决实际问题引导研究方向,这是当年泡在实验室的价值所在。周伯文说,“要去解决用户实际需要的问题。”
对话型AI三大局限
“我这几十年一直做的都是同一件事情,就是如何在技术的前沿拓展我们已有的知识、已有的能力、已有的模型、系统、算法。我很庆幸,在学术上有一些自己独特的建树。”
周伯文的研究方向涉及多模态(语言、语音与其他)与知识的表征、理解、交互与推理、可信赖人工智能的新方式等。他和合作者是最早提出自注意力加上多跳机制的研究者,这种新机制通过利用语言内部自带的结构,通过多遍自注意力的方式让深度神经网络学习词与词、句与句之间的依存关系,令计算机理解和表达自然语言的能力大幅提升,相关工作被包括Transformer在内的论文引用1800多次。他提出的两个关于自然语言生成新模型结构,被AI生成领域分别引用1700余次和近1000次。
不管是在IBM Watson、在京东主导智能客服,还是主持2030重大专项科研项目,他都在研究对话型AI。周伯文认为,对话型AI不仅仅是一种应用,更应该是AI学习的一种手段。
就像人类之间对话一样,一个好的AI对话系统不仅能帮助用户,而且能够让AI学习得更快。“对话过程本身是非常好的学习手段,不要仅仅把对话型AI作为一个应用去研究,还要把它作为一种学习机制来研究,这是接下来对话型AI需要拓展的一个地方。”
自然语言处理(NLP)的一个新分支Prompt AI,也就是提示型AI,它是研究者们为了下游任务设计出来的一种输入形式或模板,能够帮助预训练语言模型“回忆”起自己在预训练时“学习”到的东西。prompt给预训练模型提示,预训练模型一“看到”它就知道自己要完成什么任务。
“Prompt AI是一种很简单的以对话型AI作为学习手段的方法,这已经开始引起了很多人的注意。但从长远来看,如何让对话成为AI的学习手段,这是非常重要的研究课题。”
在语言理解和人机对话领域最令人印象深刻的就是人们见证了超大规模预训练语言模型的出现。对话型AI目前进展很大,一个重要原因就是大训练模型使得AI在预训练中“见过”大部分上下文,因此能够更好地根据上下文预测接下来应该说什么。
但目前对话型AI仍有三大局限。周伯文认为,一是底层机制没有改变,AI系统缺乏常识,缺乏对世界的认知模型和对演绎机理的理解。“人与人之间的对话,显式表达的内容只是整个对话的一部分,对话中隐含的另外一部分是关于你和我对这个世界共同的理解。”
“比如在对话中我们都知道‘清华大学’、‘人工智能’、‘IBM’这些概念及其背后的含义……但是在AI对话中,我们没有好的模型去融合这些没在对话内容里呈现的常识对理解与预测对话的作用。这是一个巨大的问题。”
周伯文提出,要构建场景驱动的知识表征机制,在每轮对话中,以轮次对话内容为核心,实时构建对话相应的外延。“对话中涉及到或者没涉及到的实体,把它们的关系、逻辑构建出来,用知识的结构化、可微分求导表征作为对话模型的一部分。”这也是他目前的工作方向之一。
其次,对话型AI缺乏实时的推理归纳能力,这是因为当前的大模型训练只是根据大量数据出现的上下文做了模型化提取,缺乏可解释性的逻辑关系推理。
第三个局限在于,对话型AI缺乏驾驭对话的能力。人与人之间的对话是动态的,在对话过程中会评估对话有效性、对话参与人的感受、距离目的达成的差距,从而调整对话。而对话型AI“要不就是极易收敛,没有拓展对话外延;要不就是对话被对方牵引着”。也就是通常表现为不具备开放式的对话能力,对话范围窄,无法主动高效地引导话题。如果在复杂的任务导向型对话中,对话型AI缺乏对话策略的自学习和更多博弈论的研究。
虽然过去几年进展巨大,但目前对话型AI的缺陷也很明显,同时这也蕴藏着巨大的学术研究机会。“我个人对这个领域非常兴奋。”
好的AI一定是接地气的
谈到转身学界,周伯文说,自己的另一个重要驱动力和未来工作重点就是培养复合型人工智能人才。
国内高校近年掀起设立人工智能学科的热潮。自2019年3月全国35所高校获首批人工智能新专业建设资格后,人工智能已连续3年成“爆款”。
教育部日前公布的2021年度普通高等学校本科专业备案和审批结果显示,95所高校新增备案人工智能本科专业,其中包括北京大学、同济大学、中南财经政法大学、西南大学等。
“我个人认为,随着我们国家高水平的年轻人越来越多,不管是学习能力、学术能力还是研究能力都会很强,人工智能人才短缺问题一定能得到很好缓解,我也相信我们一定会出很多原创性的科研成果。”
人工智能是解决实际问题的学科,不仅需要前沿的技术研究,更重要的是落地实际产业问题才能创造价值。DeepMind用人工智能程序AlphaFold2在蛋白质结构预测上大显身手后,又利用人工智能控制核聚变,而核聚变能也是全世界能源发展的前沿方向。
要让研究在真实的行业场景里扎扎实实解决问题。 “正如今年4月清华大学电子工程系成立70周年纪念大会所倡导‘让研究成果在学术上上书架,在产业上上货架’。”周伯文说,这些理念的提出非常激动人心,“真正产生创造性影响的人工智能就是需要这样‘顶天立地’的。”
周伯文表示,因此人工智能需要复合型人才,当前人工智能教育特别要重视培养有真问题导向、产业视角、能将人工智能和行业良好结合的人才。
这类人才需要具备抽象能力,将实际场景抽象成有学术品位的前沿问题。在解决问题的过程中能拓展学术前沿的新认知,完成拓展后对产业的转化能够水到渠成。
“我们需要更多鼓励学界和业界的双向联动,鼓励更多学术界的老师和学生能帮助产业界落地更好的技术方法,同时也鼓励更多产业界的同仁们带给学校更多真问题。”
对于复合型人工智能人才的培养,周伯文建议,一是学生要有学术追求并同时关注实际应用。“好的AI一定是接地气的,所以也希望学生们尽早接地气,不要纯粹以论文为导向。”
其次,对学生而言,学好人工智能必须打好扎实基础,从本科学习阶段开始掌握概率统计、随机过程、线性代数、微积分、图论以及编程能力、计算机体系结构等工程能力。
“我建议优秀的本科生可以在打好数理与专业基础之余进入实验室,学习科学研究的方法论和尝试解决一些问题。”周伯文提出,在导师指导下开展研究和应用,培养兴趣与好奇心,特别是学习如何提出好问题。
此外,随着人工智能研究的深入,机器学习、数据挖掘、自然语言处理、计算机视觉等人工智能子领域之间的壁垒就越低。“20年前做人工智能,做视觉的基本上不了解自然语言处理在做什么,做自然语言处理的不了解语音识别在做什么。”因此当下在研究生阶段要尽早融会贯通,形成对不同学科的见解,交叉融合创新。

转载请注明原文地址:https://juke.outofmemory.cn/read/1526246.html

最新回复(0)