实在智能创始人、CEO 孙林君:数字员工—— AI 在 RPA 领域的应用与落地


实在智能创始人、CEO 孙林君:数字员工—— AI 在 RPA 领域的应用与落地

机器心脏报告

演讲:孙林俊

编辑:船

9月3日,2022 AI开发者日,真智能创始人兼CEO孙发表主题演讲《数字员工——AI在RPA中的应用与落地》,详细介绍了近年来AI加持的RPA技术发展,以及真智能在数字员工方向的探索与应用。

以下是孙的发言内容。《机器之心》在不改变初衷的情况下进行了编辑整理:

大家好,很荣幸来到这个场合和大家分享。我今天带来的题目是《数字化员工——AI在RPA的应用与落地》。

AI是通用智能技术,但过去在泛产业发展中遇到一些问题,很难有大的突破。现在我们更关注AI和垂直行业结合带来的化学反应。坦白说,大家原本对AI技术的期望很高,现在已经变成了真正的落地。我们希望看到人工智能在真正的行业中发挥作用。

什么是数字化员工?员工是机器,可以代替人做一些重复繁琐的工作,辅助人做决策。未来几十年,中国将进入人口老龄化阶段,劳动年龄人口减少,劳动力成本进一步上升,GDP持续增长。在这种情况下,我们的劳动力缺口比较大,数字化员工的出现会在很大程度上弥补劳动力缺口。

智能成立于2018年7月,到现在已经四年了。我们已经在RPA中集成了AI技术,并创建了各种数字化员工。Smart经历了六轮融资,60%以上的同事是科研人员,员工近400人。目前已掌握自主知识产权120项,申请专利40余项,其中近20项专利授权,居行业首位。

RPA的全称是机器人过程自动化。举个简单的例子,工厂需要大量的自动化操作,机械臂可以准确的完成一些有规律的重复性的工作。除了工厂,还有非常大的空房间用于办公场景的自动化。智能的出现,让这个领域有了突飞猛进的发展。

在办公场景中,很多白领的日常工作也包括很多琐碎的工作。比如财务、运营、法务、客服等很多职能场景中,有些工作是重复性的,是可以替代的。但通过自动化技术,人的操作可以被软件记录或模拟,机器可以模拟人的操作,准确率高,误差少。这项技术已经存在很长时间了。大约15年前,它在美国许多大型科技企业中得到应用。今天国内涌现了很多RPA公司,包括传统RPA和结合AI的RPA(IPA)。我们是一家典型的结合AI技术的RPA公司,近几年的快速发展也与AI密切相关。自动化技术和AI技术的融合,才是未来数字化员工的真正形态。

RPA一开始只能做最简单的重复性工作。如果机器真的想帮助白领高效工作,需要大量的工业设计。传统的RPA设计器都是组件化的东西,可以组装,用户只需要关注业务逻辑,不用写代码。这种传统方式成本低,门槛低,对用户友好。

随着人工智能的兴起和发展,我们也发现传统RPA其实有很多地方可以和AI结合,比如语音技术,OCR。这些都是简单的加法。另一方面,RPA技术本身也存在一些瓶颈。比如控制各种软件,首先要识别这些软件里的东西,但是我们对操作系统底层的识别依赖性很强。在这种情况下,使用传统技术会遇到很多瓶颈,RPA技术和AI的结合可以有很大的突破。在行业的天花板被推高之后,RPA技术结合AI真的可以推广到所有行业的软件,成为通用的自动化技术。

此外,当与AI结合时,数字化员工的能力将实现从感知到认知的飞跃。感知是各种识别和交互技术,认知能力是结合大量数据进行推断的能力。只有把AI和RPA技术在认知层面结合起来,才能打造出真正的数字化员工。常规工作在我们的日常场景中只占20%-30%左右的工作量,但是如果RPA可以代替人完成认知层面的非创造性工作,那么渗透率可以达到90%,所以数字化员工空的未来发展还是非常巨大的。

RPA本身的能力有一些限制。我们要把它变成IPA,和AI结合起来,像人的眼睛、耳朵、鼻子、嘴巴、大脑一样,会说话,会理解,会观察,会思考。这才是真正的数字化员工。

让我们回到原点。RPA可以控制所有软件而不是人来完成规则化工作。其中,两个能力最为关键:第一个是软件控制能力。在通过操作系统底层控制软件时,我们需要了解RPA的接口能力,或者识别每一个元素,这取决于操作系统底层的开放性。目前主流的做法是结合计算机视觉提高RPA的能力,使RPA能适应所有软件,这涉及到很多技术挑战;第二个关键能力是信息提取能力。我们知道,现实世界中并不是所有的信息都是结构化的,但往往隐藏在不同媒体中的一段文字或一张表格中。如果要提取这些信息,比如甲乙双方是谁,是什么样的关系,离不开大量的信息提取技术。这跟自然语言处理和计算机视觉有关系。

更强大的软件控制能力

先来看看软件控制能力。屏幕后面还有一个世界,所有的软件都在里面。我们需要知道屏幕上是什么样的元素或者物体,我可以用它们做什么——先解决识别问题,再解决操作问题。当我们通过操作系统的底层来解决识别问题的时候,我们会发现各种软件都是没有办法识别的。有时候,识别出来的是一个大盒子,有时候,很多细粒度的元素粘在一起,让软件操作无法进行。例如,菜单可以包含多级小菜单。如果没有做到细粒度、精准的识别,就谈不上对软件的完美控制。

所以我们希望开发出来的工具具有很强的通用性,而不是只适应几种软件。而且软件会升级,技术架构也会改变。在这种情况下,传统的RPA很难做到完美适配。现在很多RPA公司受限于技术的瓶颈,会局限于某个行业。因此,我们希望我们的RPA产品能够成为通用产品和真正的自动化工具。

另一方面,环境影响也非常大。在不同的操作系统和不同的软件组合下,存在各种各样的挑选和识别问题。

另外,在操作方式上,如果RPA技术只能通过编写脚本来实现,那么它的规模还是很小的,只有程序员才能使用,与办公环境下“人人可用”的目标相去甚远。

然后我们要思考如何让用户非常简单的使用RPA技术。比如操作系统底层的识别不行的时候,大量的工作依赖于计算机视觉的方法,但是使用了不同的组件。对于用户来说,成本非常高。所以我们考虑将这两种技术结合起来,为用户实现一个非常自然的过程——即用户不需要考虑什么时候使用计算机视觉,什么时候使用底层操作系统。这里有很多技术难点需要解决。

首先是要解决精度的问题。无论目标多么微妙或复杂,我们都必须确定它。要想把使用门槛降到最低,就要整合不同的技术。从速度上来说,计算机视觉识别的效率自然低于底层。那么如何才能让用户有一致的体验呢?需要在不损失很多精度的情况下,把模型做得很小,才能在CPU环境下稳定运行,这样可以节省很多硬件资源。因为用户不会为了使用RPA产品而单独购买GPU(图形处理器)。

我们知道在软件层面,尤其是涉及到计算机视觉的时候,界面的DPI(图像分辨率)是不一样的。假设我在一台计算机上设计了一个流程,现在我想将它部署到100台计算机上。不同的计算机可能有不同的分辨率、不同的操作系统环境和不同的显示器尺寸。我们要解决的问题是保证软件的稳定运行和这些差异下的一致替换分辨率。在界面大小方面,当我们拖拽一个软件界面时,界面会变形。在这种情况下,我们必须找到操作元素,这就涉及到变形重新识别的问题。

面对这么多复杂的挑战,我们在业内率先提出了“融合拾音”的概念,并实现了这项技术。围绕提高软件控制能力有十几个难点,我们都申请了相应的专利来解决。现在我们再拆解一下,看看具体的难点。

下图显示了融合拾取操作。屏幕上有很多种软件,包括网页、基于CS的软件和操作系统的原生映像。在这种情况下,传统RPA使用不同的组件来控制,效率相差很大,所以使用CV方法的效率会很低。我们实现的融合拾音方式可以在四个应用之间无缝切换,体验一致。对于办公环境中的复杂需求,融合拾音技术可以实现完美控制。

机器心脏行业评测数据汇总表:真实智能排名第一。

更强大的信息提取能力

我们来看看信息提取能力。在我们的日常工作中,经常需要汇总报表,下载A系统的信息并输入到B系统中(比如财务报税),这需要大量的信息提取和处理软件来完成。这是一项非常重要的工作。里面有一个概念:IDP-IDP即智能文档处理,是一种具有信息提取和信息处理能力的AI产品。IDP的每一个细粒度的能力都可以作为RPA中的一个组件,可以和自动化部分结合起来完成各种任务。

在IDP领域,常见的任务是识别各种格式和介质的文档,比较不同格式的文档,提取合同主体(包括甲乙双方信息、订单号、约定内容),尤其是表格中的信息。如果提取的信息有问题,后面会做自动校对,根据业务逻辑修正一部分。这里应用了大量相应的技术,包括长短实体的OCR和NLP提取。

即使是看起来非常简单的文档,也需要大量的智能技术进行比对和审核,比如识别页眉页脚、识别和还原表格区域、处理列区域等。其实都是需要具体的技术,而不是一个笼统的识别,每一个都要做的非常细致,才能提高准确率。在合同比较或者财务法律工作中,这是一个很常见的工作。比如我们在某个地方做了一点改动,改动前后的文件有什么区别?或者在不同的文档处理阶段,比如签订合同时识别合同风险,编辑合同内容,这些都与IDP的相关技术有关。比如如何对比图片媒体和电子文档的信息,这里面包含了很多细节。

RPA还需要具备更强大的信息提取能力,包括表格识别等。比如在电商领域,有各种商品的类别和型号,通过拍照就可以提取里面的信息。OCR、NLP等原子化能力对于数字化员工来说非常重要,可以在设计师里变成组件,帮助我们快速组装不同能力的机器人。

基于前面的讨论,我们真正智能的产品矩阵如下图所示。左侧是四个RPA产品集。我们有一个低门槛的设计器,使用起来非常方便。设计的产品运行在机器人上。当有许多机器人时,使用一个控制器来调度和分配任务。有了大量的数据,我们就可以通过云脑训练决策模型,从而达到第四个阶段——帮人做决策。另外我们有AI的产品矩阵,基于RPA,可以构造各种实用的数字化员工。

应用案例下面我介绍两个应用案例:一个是我们和银行合作的智能单证审批案例。这个客户有三四百名员工,负责审核大企业的资金流、合同、资质证书等相关事宜,最后给客户授信。但是信用额度是靠人的经验和一些规则来判断的。在这种情况下,我们通过IDP+RPA的场景能力,帮助他们审核、提取、比对信息,最终帮助他们完成智能文档审核。

第二个客户是电商头部品牌客户。我们利用真实RPA技术,从多个平台汇总客户的评论,并通过智能决策的平台训练模型,挖掘出隐藏的差评,通过差评分析做出进一步的营销决策。其实这是一个结合了云大脑和RPA的智能评论分析场景。

对于一个企业来说,接触自动化都是从单点开始,但是一旦使用了自动化技术,不愿意回到手工时代是人之常情。所以单点的自动化、智能化会逐渐转化为部门级的解决方案,然后下一级就是全公司级。这样企业的数字化转型和超级自动化的蓝图就会逐渐成型,整个组织的生产流程也会因为自动化和智能化的加持而发生本质的改变。

基于前面的讨论,我们可以看到,RPA不再是一种只能做常规事情的传统技术。我们更看好它结合人工智能技术的应用和落地。我们知道人工智能的应用和落地本质上是依赖于数据的,RPA使得数据的获取成本非常低。在这种情况下,结合自动化,未来空非常广阔。AI在门槛、拣货能力、稳定性、执行效率、性能等方面都会起到很大的作用。我们希望RPA通过AI技术的加持,成为一种通用技术。

从大趋势来看,数字化员工将随着未来人工智能的落地,逐渐渗透到千万个行业。我们也非常看好这个领域,将继续通过智能技术的创新和应用来赋能和改造这个行业。以上是我的分享,谢谢大家。

剧终

授权请联系本微信官方账号。

投稿或寻求报道:content@jiqizhixin.com

转载请注明原文地址:https://juke.outofmemory.cn/read/1815274.html

最新回复(0)