集成计算技术已成为芯片领域的热门话题之一,学术界和工业界都在关注其发展趋势。
一项创新技术从理论到应用会经历哪些步骤?如何布局才能保证风险最小化?
在过去的两周时间里,量子比特碰撞学院推出了“存储-计算集成芯片”专题,先后邀请了从事存储-计算集成AI芯片研发的厚墨智能和国内最早实现量产的存储-计算集成技术智存科技,从不同角度与我们共同探讨存储-计算集成技术商业化的价值、潜力和思考。
在这一系列专题中,我们谈到了的定义、技术路线、行业现状、行业生态等等...
正文的精髓就在这里。快来看看业内人士怎么说~(文末有彩蛋)
第一幕:对话结束后,莫灵光一现。
厚墨智能专注于大计算力AI芯片的研发,集成了内存和计算技术。通过底层架构的创新,芯片性能大幅提升,可用于智能驾驶、泛机器人等边缘和云推理场景。
与客人交谈:
小旭(左一):厚模智能创始人兼产品副总裁
孙广宇(右一):北京大学集成电路研究所副教授。
Q1:如何定义存算合一,如何理解其深层价值?
A1:存储和计算的融合是为了让计算单元和存储单元之间的距离更近,从而增加两者之间的带宽。从这个角度来看,会有不同的技术路线(计算单元和存储单元的距离),而的核心目的是减少距离,增加带宽。
不同路线的技术成熟度:
从学术的角度来说,计算并没有技术上的成熟。毕竟都是逻辑做的,成熟度更多指的是存储成熟度。SRAM、DRAM和Flash是相对成熟的存储技术,而MRAM和RRAM等新技术的成熟度不同。成熟的技术不一定代表一定会比别人好,这就需要各种设计权衡。具体来说,不能只认为近是好,远是坏。同时需要考虑场景、流程成熟度、应用特点。我们应该根据整个大领域的应用,选择最合适的技术和工艺,做出最合适的设计。
从设备的角度来看,成熟度是可以分类的,但是从设计本身来看,成熟度/优势对比并没有唯一的答案。
Q2:在工业应用中应该如何选择技术路线?哪些因素会影响偏好的方向?
A2:技术路线和应用场景有很强的关联性。现在存储和计算大致有两个方向,一个是部分数字(digital)的CIM-D,一个是部分模拟(analog)的CIM-A。这两条路线的技术场景不太一样,这是由它们的技术特点决定的。CIM-A看似精度较低,但其能效优于低精度情况下的能效。CIM-A在AIoT偏向消费者的场景下更有竞争力;对于精度较高的场景,比如自动驾驶领域,会使用CIM-D方案。
需要充分考虑技术特点是否能解决场景中用户和客户的实际问题。对于厚模来说,从定义最终目标市场和整个产品策略的角度,充分考虑技术与产品的匹配程度,是一个综合的考虑。
Q3:厚墨智能是如何思考和布局软硬件协同的?
A3:首先简单拆分软硬件协同,分成两部分,其中一部分偏向应用端。我们把这部分留给客户和合作伙伴,因为他们更了解这部分。在更接近底层硬件的部分,比如硬件抽象层、编译器、基础工具链等。,更接近硬件的部分是我们自己开发的,所以刚才你回答的问题我已经基本提到了。我们这样做的时候,软硬件的配合整体考虑只有两个。
搓完之后,做软硬协同要考虑两点:
1)从目标市场和场景向后推,给硬件团队一个明确的目标。例如,如果您关注CV偏置的场景,硬件团队将针对该场景对其进行优化。
2)在应用方面,会充分考虑用户的迁移成本,厚模已经充分考虑了这部分学习成本。
Q4:目前业界都在关注新内存的研发进度。新内存的优势和特点是什么?
A4:新存储器包括RRAM、MRAM、PCM、铁电等。起初,制造存储介质是为了解决存储本身的问题。在进化过程中,人们发现它的新特征可以被储存和计算。不同的存储器具有不同的设计特征和在设备本身中反映的特征。从架构上看,业界更关注的是内存访问延迟(设备是怎么做出来的)、功耗、读写寿命、可靠性等等。
MRAM在新型存储介质方面相对成熟。它的优点是读写速度快(接近SRAM),密度比SRAM高,读写次数多(耐久性好)。
PCM也商业化了。英特尔的3D Xpoint,密度高,适合数据中心这种比较大的存储介质,可以存储比较大的数据。问题:磨损寿命有限,需要优化。
RRAM,做起来简单(结构简单),可以用不同的参数来做。未来可以是性能好,密度高,可以在不同层次使用的存储器。现在的问题是稳定性不够(变异大),需要器件和代工厂水平一起打磨。
未来,新设备将具有不同的应用级别。新设备不必替换传统设备,并且新设备将相互协作。因为原来的存储架构是分层的,所以到了存储和计算领域就不会是扁平化的状态了。里面也会有不同的层次。
Q5:厚墨智能对于新存储介质的布局和思路是什么?
A5:后模的规划有两条线:一条是产品线,一条是技术线。
最后,要把产品交给客户,首先要保证是基于成熟的技术。目前的产品都是基于成熟的SRAM,相比传统架构有数倍的能效比优势。
技术将在第一代产品中探索新媒体。要实现产品的可用性,需要对技术进行验证,我们会提前了解各个参数是否能满足产品要求。有可能最终的产品是mix、RRAM+SRAM 的组合,每个人在每一个里面解决的问题都不一样,但总体来说,一旦新技术在某一点上成熟,能够解决问题,就会考虑使用。
一代产品不止一个。目前,将有2-3个基于SRAM的芯片。根据应用场景的不同(自动驾驶、泛机器人),也会高、中、低几个档位——一代芯片可能会有几个不同的产品。在这一代芯片差不多之后,新器件的探索有机会帮助进一步提升下一代产品的竞争力。
按照传统方法,2-4年后,产品升级10%-20%,不会有大的飞跃——技术生命力差;在存储方面,学术界和工业界都在积极探索,因为它的生命力很强。一旦技术突破,会有一个指数级的跃升,产品的竞争力会比之前框架下有一个很大的飞跃。
Q6:存储与计算一体化在产业发展中的关键因素是什么?
A6:首先要选对方向和场景。押金和计算技术的融合,才能真正解决客户场景中的问题,这样落地速度会更快,业务闭环会更快。要有成功的案例,实现商业闭环,才能给行业更大的信心。
如果闭环的场景是比较大的,可以带动更多的人关注更大的行业,对存款和计算的发展起到更大的推动作用。大场景一旦出来,会带动更多的产业圈和资本圈的人去关注,加速商业化进程——找到合适的大场景,快速落地。
第二场会议:关于知识和存储技术的对话
智存科技专注于内存计算芯片领域,创新性地使用闪存完成神经网络的存储和运算,解决了AI的存储墙问题,提高了运算效率,降低了成本。
王绍迪:智存科技创始人兼CEO
Q1:近内存计算和内存计算的后续区别是什么,如何选择知道如何保存?
A1:后面技术路线就完全不一样了。近内存计算解决了冯诺依曼架构下的数据传输问题,它面对的应用范围更广。思考的问题是如何让数据和存储更接近CPU和GPU,应用场景针对数据量大的场景,包括服务数据中心和矿机;内存计算使用内存进行计算。它的系统里没有GPU、CPU、npu,所以它本身就是一个计算芯片。而不是运算芯片,直接在内存上完成运算,其应用场景多在人工智能场景。
知识布局场景:知识存储创始团队从2012年开始做内存计算,主要应用场景是泛人工智能场景。内存计算可以应用于各种人工智能领域。人工智能使用的计算大部分是深度学习,95%以上的深度学习使用矩阵乘法。所有的矩阵乘法都可以通过内存计算来完成,可以大大提高效率。
内存计算可以应用于各种人工智能场景。在某些场景下,它的优势很强,而在另一些场景下,它的优势相对较弱。总体而言,对计算能力的需求越大,对能效的需求越高,存储和计算一体化的优势就越强。
Q2:目前存算合一处于产业发展的哪个阶段?
A2:存储与计算一体化的概念在20世纪60年代就有了。过去没涨的原因有两个。第一,当时存储和计算一体化可以解决一部分性能提升,但当时能解决的部分只占整个系统的10%-20%。只解决这个问题没有意义。后来随着人工智能时代的到来,需要大量的计算能力,这时就需要整合存储和计算。
另外,在过去的几十年里,因为摩尔定律继续往下走,内存和计算的融合并没有真正出现。当摩尔定律可以继续走下去的时候,我们看不到任何架构的创新。我们不需要进行架构创新。一到两年更换一代芯片的过程,性能自然提高几倍,成本自然降低,性能提升很快,不需要做架构创新。
但2010年后,进入后摩尔时代。后摩尔时代的架构创新是必要的,摩尔定律已经走到尽头,随着人工智能时代的到来,存储和计算的融合应运而生,越来越受到人们的关注。早在2011年,学术圈也开始倡导研究存算合一。2017年,智存成立,算是第一家做内存计算的公司。目前,内存计算中的一些技术已经可以实现。这个时候行业就需要加大投入,把它做成一个好的产品。还有很多技术需要开发,未来内存计算的发展需要10年左右的时间。内存计算本身也有类似摩尔定律的发展过程,迭代很快,包括代工厂致力于内存计算的工艺改进。其次,先进材料。目前可量产的内存计算存储器中,只有Flash和SRAM这两种新兴存储器更适合内存计算,因此需要对新型存储器件进行更多的研究。另外,内存计算从算法到供应链生态都需要产学研结合,相互融合才会促进发展。作为行业的一部分,学术界/研究机构不断研究下一代,不断向前推进。知识科协将继续加大在技术、工具链、技术标准化等方面的投入。,促进产业生态的共建。
Q3:每个发展阶段遇到的瓶颈是什么,解决方法是什么?
A3:目前智存二代产品已经量产,每月10万片左右,已经登陆智能穿戴设备市场。从16年的概念验证到现在的量产需要大量的工程;还有一些在产品层面解决内存计算的问题。
内存计算有自己的优势:计算效率高,计算密度高,计算成本低;然而,它仍然是一项新兴技术。测试标准、量产方式、测试方法、计算范式与现有方法完全不同。需要一步步建立,建立后需要保证可靠性。
在量产的过程中,有很多以前没有遇到的问题,因为内存计算不同于内存,也不同于传统的计算芯片。例如,内存覆盖的应用与内存计算覆盖的内存的应用完全不同。像内存计算遇到的问题,可能是之前几十年内存领域都没有遇到过的,这些问题需要一步一步解决,才能让内存计算从技术演示走向量产。
Q4:目前对于行业来说最重要的节点是什么?
A4 : 存储与计算的一体化正处于从量产到大规模应用的关键阶段。存储技术开发的存储计算集成芯片已经达到了每年数千万片的小规模量产。我认为下一个关键节点的计算能力将超过16Tops,精度将超过10位,成本将比现有芯片高2-5倍,量产规模将达到数亿芯片。一体机芯片在更大规模的应用中会有绝对优势。
Q5:存算一体化领域有哪些入门门槛?
A5:主要在于工艺和架构层面。整合存储和计算最大的困难是无法预测会遇到什么样的问题。存储器集成的设计方法不同于数字电路和模拟电路。它把模拟技术和存储器结合在一起,所以应用方法不同。
现在一个大的芯片通常是通过写代码来做的,代码自动化通过EDA工具生成一个芯片设计。EDA工具确保芯片设计的可用性,只要工艺没有问题。但是没有EDA工具来指导存储和计算的整合,很多东西需要手工设计。
另外,集成内存和计算芯片的生产工艺并不保证手工设计和仿真的东西一定会有,因为它的用法和传统芯片不一样,代工工厂的工艺也不保证用于内存计算的部分。只能通过不断的测试和验证来解决,可能需要几年的时间——这需要玩家不断探索的能力。
Q6:存算一体化行业未来趋势如何?如何看待这项技术?
A6:现在的芯片行业,很多人都在观望下一个关键节点的出现,大规模的替代会发生。对于人工智能整个行业来说,一体化存储和计算技术的逐渐成熟,将带来更低的成本、更高的计算实例、更高的能效和更低的功耗,帮助更多的人工智能落地。可以说存储与计算的融合将成为未来人工智能时代的基石之一。
对于存储和计算的融合,首先要有耐心。作为一项全球性的新兴技术,仍有许多问题有待发现和解决。其次,要保持期待,关注更多未来可以做的事情。
还有一点
错过直播的朋友可以点击我们的直播观看视频,了解更多技术细节和问题详解~
第一期:余波情报
https://www.bilibili.com/video/BV1Tv4y1T7xr
第二期:智存科技https://www.bilibili.com/video/BV1W3411A7V1