AI行业又一次走到了十字路口。高昂的计算成本和定制化的商业模式,利润如纸,让AI公司集体陷入“负利润”的窘境。
企业往往寄希望于AI实现数字化转型的能力,但作为新一代基础设施,AI产业本身也遇到了新的问题:算法从RD到落地部署需要巨额投入,大量算法没有成功应用。
从源头上来说,云计算可能是一剂良药,因为它可以提供更低成本的计算能力和低门槛的开发服务。算法研发能力不足的企业也可以直接在云上调用云厂商提供的算法,无需重复造轮子。
作为知名的市场分析机构,Gartner很早就嗅到了这种趋势。他们自2020年以来发布了《云人工智能开发者服务关键能力报告》。在Gartner看来,AI与云的结合会越来越紧密,AI云服务的能力也将成为AI产业的重要指标。
值得庆幸的是,中国公司已经推动了这一趋势。在今年的报告中,阿里语言AI技术排名全球第二,超越亚马逊AWS、微软等公司,正式进入全球第一梯队。
正因如此,AI产业的前景依然被广泛看好。Gartner报告称,到2025年,70%的新应用将集成AI模型,而云AI服务可以降低AI应用的开发门槛。这意味着云计算将成为AI阵痛期的最大变量。
对于AI来说,为什么是云?
AI商业化前的两座大山:计算成本和项目成本
早在2017年,学术界和工业界就在最具影响力的人工智能峰会CVPR就深度学习进行了热烈的讨论。
讨论的焦点是深度学习的“大数据+大计算能力”范式需要巨大的成本支撑,这必然成为AI商业化的最大阻力。
“深度学习在语音、图像识别等数据上确实比传统AI方法更准确,这是引领第三次AI浪潮的关键。但是深度学习是一把双刃剑,它对燃料的消耗(计算能力、数据和能耗),尤其是对计算能力的需求,远远超过传统方法。以前就像只吃两个馒头过日子。现在为了更好的生活,但是受限于食材,只能选择每天吃昂贵的牛肉。虽然更有营养,但显然是不可持续的。”多位AI专家告诉雷锋网。
由于AI的计算成本和能耗成本一直居高不下,在很多利益导向的研究者眼中,AI深度学习一度成为野蛮和暴力的代名词。
2012年,谷歌使用了16000个芯片,并要求AI观看数百万个YouTube视频来识别猫。即便如此,它仍然错误百出,效率不如人眼的一瞥。
2016年,AlphaGo在人机大战中击败围棋冠军李世石时,AlphaGo每局耗电约100万瓦。相比之下,人脑消耗的功率只有20瓦,只有AlphaGo的5万倍。
2018年后,Transformer和Bert诞生了预训练大模型,使AI的性能更强,但所需的计算能力也大幅提升。对于大多数中小企业来说,建立这样的集群是难以承受的。
“算力”供不应求,成为整个AI领域的稀缺资源。这也是众多学术AI大牛纷纷涌向谷歌、微软、阿里等大型科技企业的主要原因。这些企业拥有丰富的业务场景和几乎取之不尽的计算资源。
人工智能面临的问题还不仅限于此。在商业落地的过程中,企业不得不为每个场景定制专属的解决方案,无形中增加了企业的开发成本,从而压缩了利润。
早期创业公司迷信“开发SDK,先标准化,后规模化,薄利多销,以量取胜”的经营思路。但是现实很骨感。当AI公司用SDK冲进这个行业时,他们发现习惯于重度定制化个人服务的B端客户不需要单一的开发工具包,也不需要集成SDK的能力。他们需要的是一套定制的解决方案。一套SDK包征服世界的梦想破灭了。
在接过SDK的梦想后,AI公司开始从轻到重的转变,走的是高度定制化解决方案的道路。然而,充满个性化定制的项目系统模式很容易使企业陷入亏损的漩涡——获客周期长、实施成本高、人力投放重...成本高导致利润微薄,甚至他们做的越不小心,亏的越多。
标准化的梦想脆弱,定制的困局难以解决,AI公司在商业落地上陷入两难。
事实证明,计算能力成本和项目成本这两条后腿,正在让AI步履蹒跚。
要摆脱这两条后腿,必须打破固有思维,走出一条新路。专家向雷锋网分析。com认为目前顶尖大学和头部科技公司的探索方向是:从基础理论层面,用创新算法让AI本身更精益、更智能;在工程层面,要让AI研发的成本更低。
云计算,为什么是解决“AI成本困境”的良药
毫无疑问,AI的成本,算力是最大的症结之一,也是破局的最大突破口。
通过计算集群的规模来降低单位计算成本是一条清晰可行的途径。
早期AI对计算能力的要求不高,CPU足够应付。然而,随着深度学习时代的到来,高质量的AI算法背后往往有着惊人的数据量。此时训练所需的数据已经远远超过当年,更“强大”的GPU也逐渐走上历史舞台,成为AI计算能力的主流。
但是随着深度学习的深入,模型规模越来越大,单个GPU已经不能满足计算能力。这个时候,GPU并行计算集群就显得尤为重要。大规模计算集群不仅可以有效降低GPU采购成本,还可以通过集群优势提升计算性能。
但这时候,一个新的问题出现了:有了资源,自然就能利用好。如果企业没有合理高效的资源管理,无论GPU并行计算集群的属性有多强,都无法自动锻造出高质量的AI模型,更不用说搭载一个体验良好的AI应用了。当今企业面临的AI计算困境包含许多琐碎的痛点:
如果没有计算能力的线性扩展能力,100台机器可能还不如一台机器,大量时间会消耗在非计算支出上。
如果没有提高资源利用率的能力,昂贵的GPU集群很容易只有不到10%的利用率。
业务发展的速度很难预测。项目来了,需要快速投入。线下购买资源,很容易错过机会窗口。
GPU卡故障率高,企业不得不腾出手来处理IaaS运维等繁重的工作。
GPU更新快半年了。如果随时换成最新款,成本居高不下,老卡又会闲置。
此时,在云上开发AI的计划已经提上桌面,云计算本身的特性,如灵活性、共享性、互操作性等,正与这些痛点相匹配。借助云计算,企业可以随时随地灵活扩展和收缩容量,从而提高计算效率,降低AI RD成本。基础设施层的运维也可以交给更专业的云厂商来处理。
这使得企业能够在AI领域模型越来越复杂、计算能力需求越来越强的背景下,充分利用市场现有的技术红利进行自我赋能,提高业务迭代效率。
以阿里云为代表的国内互联网云厂商早已提前布局,将这一系列技术对外服务。
阿里云张北数据中心可以容纳百万台服务器。
值得一提的是,与专注于to B、to G的AI独角兽不同,这些提供云AI服务的互联网云巨头本身往往拥有大量的场景服务,可以让计算能力集群高度饱和,分摊GPU的折旧成本,从而避免GPU集群计算能力闲置的问题。
这种做法类似于谷歌的案例。谷歌前CEO施密特曾表示,谷歌搜索在竞争中占据优势的关键因素之一是其低成本。
“谷歌的运营成本只有微软和雅虎的几分之一,一项搜索服务的成本也只有几分之一美分。有了省下来的钱,谷歌可以购买更多的服务器,提高计算性能,这样在与竞争对手相同的单价下,谷歌可以使用更多的硬件和算法来实现更好的搜索质量。”
真正一流的技术和科技公司应该做的第一件事就是用技术实现自身的降本增效。只有降低生产要素成本,才能真正进入行业。
降低自身生产成本,提高计算资源的利用效率,实现边际效应最大化,用最低的成本实现规模化应用,这才是科技产业发展的最佳途径。
除了计算能力,云AI服务还可以有效降低AI应用的开发门槛。以阿里为例,其机器学习平台PAI,达摩院开发的基础算法模型,各种训练的加速框架等。,从低门槛、全链路的角度,高效满足AI算法的开发需求。
云厂商肩负AI产业化重任
跳出技术层面。在商业层面,云计算也在帮助AI行业加速破局。
目前国内AI行业从项目体系出发,主要有三种演进路径:一种是最难获得高利润的多行业扩张模式。为了快速铺一个摊子,做大规模,或者寻求业务突破,进入金融、医疗、零售等几个领域。,并且多线作战;一种是专注于某个垂直行业,把解决方案和服务做深,然后寻求在某个领域实现平台化;还有一种是先专注于算法的打磨,将算法产品化,然后依托云平台将算法对外服务,利用云平台的基础设施能力帮助企业开发算法。
国内人工智能产业演进的三条路径
而以阿里云为代表的头部互联网云厂商,正在走向AI领域最良性的第三条道路。
这种模式的优势在于,基于云平台的基础,既可以避免大部分本地化部署的束缚,又可以提供低成本的自研算法研发,快速服务于算法研发能力较弱的企业,比如达摩院研发的视觉、语音、NLP等算法,对外服务于阿里云。同时,云上的计算、存储、网络和机器学习平台也可以为具有算法RD能力的企业提供AI RD和落地的全链路支持。
这条云与AI完美结合的道路已经初见成效。以Mimo知止的行为例,这家公司将算法训练任务放在阿里云上,使用后者的对象存储OSS和小文件存储CPFS,可以实现海量数据的冷热分层存储和高效的数据流转。基于弹性GPU实例,在机器学习平台PAI上进行云上分布式模型训练,吞吐性能提升110%,短时间内模型成熟度大幅提升。据介绍,培训效率最高可提高70%,整体成本可降低20%左右。
过去十年,云计算凭借计算成本和商业的双重优势,以DNA复制的速度进入各行各业。现在,其在通用计算领域被证明的价值正在被复制到AI领域,帮助AI突破落地瓶颈,实现千益万益。
Gartner也毫不掩饰对这一趋势的预测。其最新的AI云服务报告指出,到2025年,人工智能软件的市场规模将达到1348亿美元,云AI服务是不可或缺的核心推力之一。
事实上,回顾人工智能行业半个多世纪的起起落落,每一次低谷的崛起都伴随着一个新变量带来的突破。如今,云计算正在成为现在被寄予厚望的最大变量。这一次,把AI行业推向正轨的责任,交给了肩负使命的云厂商。雷锋网