对于新的AI芯片设计公司(Goog)来说大的问题是来自终端的数据不足
最近几年来,大量资金投入到数据中心领域新型AI处理器的研发中。
但在投资热潮的背后,我们也要注意问题毕竟这个领域需要处理的问题是具体的,结果是不可预测的,而且这个领域的竞争对手财力雄厚,能够提供用户粘性强的产品
对于新的AI芯片设计公司来说,最大的问题是来自终端的数据不足。
你需要多少个数据中心才能盈利。
通常,芯片设计公司在设计新的AI处理器时,首先会发现一个基本问题:——如何定义产品的灵活性它是为单一任务设计的吗还是支持更多工作负载
这两个问题之间有一系列的解决方案,但与过去的很多解决方案相比,更难找到适合AI处理器的解决方案,尤其是对于数据中心的工作负载。
难度更大,因为需要平衡的因素很多需要在一定的成本和时间内设计制造芯片,并考虑成本和回报Synopsys公司人工智能产品和研发总监斯泰利奥斯迪亚曼提迪斯解释道这些限制缩小了人工智能处理器的潜在市场
我们什么时候可以在设计和制造定制芯片时赚钱Synopsys验证组工程副总裁Susheel Tadikonda说
如果我们想为数据中心提供定制芯片,我们需要多少个数据中心才能盈利高价出售芯片也许是可能的,但光靠这一点是不够的如果你为消费电子设备设计和制造芯片,这个领域有10亿台设备,这是AISC芯片可以赚取更多利润的市场之一当然,设备越大越好
可是,即使我们最终发现有多少数据中心可以盈利,我们也无法确定设计计划。
西门子EDA战略与业务发展高级经理Anoop Saha表示:芯片的定制化程度越来越高,因此可以为非常具体的算法创建芯片,从而提供更高的能效和性能但这将牺牲部分市场,缩短芯片寿命如果两年后出现新的算法,为旧算法定制的芯片的价值会保持不变吗很多事情都会互相牵制
一些边缘算法确实已经稳定下来了这是因为经过多年的研究,业界已经找到了一些针对多场景的最佳算法,比如我们已经看到的CNN,以及针对唤醒词检测,手写识别等具体应用找到的算法最佳算法阿诺普萨哈补充道
芯片定制的优势
定制芯片,核心是了解——芯片定制给很多玩家带来了什么样的工作量。
Xilinx人工智能与软件产品市场总监Nick Ni表示:大多数大型企业都成立了自己的芯片部门,并为数据中心的一些高工作负载打造芯片例如,如果谷歌认为‘推荐’的神经网络是其数据中心最高的工作负载之一,那么它就有必要为此目的制造一种特殊的芯片如果排名第二的工作负载是语音识别,排名第三的工作负载是YouTube的视频转码,那么为其构建一个专门的芯片是有意义的
事实上,这里有很多机会,但谷歌只是一个孤立的案例几年前,谷歌发表了一篇广受好评的论文,指出——数据中心的工作负载类型非常丰富,但没有工作负载占比超过10%,这意味着仍然存在大量的小工作负载需要优化
Synopsys的迪亚曼提迪斯说:大多数定制都是面向推理的,当这些定制芯片转向训练时,它们需要浮点支持。
但如果需要的是一个100%应用于推理的解,它的固定点数可能是8,甚至更低如果模型是固定的,基于推理设备定制有意义吗例如,针对语音,视频和其他重量级应用的定制解决方案Hyperscaler实际上是在投资用于推理的芯片解决方案,这些解决方案适合他们自己在AI领域定制的高级模型和解决方案但是,如果需要处理多个应用程序,则需要更多灵活性和可定制性
当然,这对谷歌来说是一个良性循环Synopsys的Tadikonda表示:TPU旨在满足谷歌数据中心的特定工作负载谷歌开始建设TPU,是因为它意识到需要建设大量的数据中心来处理如此庞大而复杂的数据和计算
第一代TPU很大,消耗了大量的电力,但通过不断学习已经得到了改进这是这些TPU的作品,也就是谷歌
不是每个公司都可以使用谷歌的反馈回路,但其他公司确实有其他选择西门子的Saha表示:我们发现,其中一个关键点就是要重视并重视尽早选择合适的架构
也不是基于过去的经验,凭直觉做出的决定,因为现在还有太多的未知数业界正在做的,是在设计周期早期,依靠数据驱动做出决定,这样我们能够在发现某些东西不起作用时迅速做出改变
这些决定是宏观的,也可以是微观的比如说,你的存储元素与计算元素差距有多大Saha 问道:再比如,多久执行一次内存读取,这是一个重要的问题,因为读取和写入将直接影响整体的能效业界正在寻找新的架构,没有人知道什么样的架构才真正起作用不过可以确定的是,要有一定的可塑性,且在决定架构之前,能够确保有足够的市场数据来支撑
硬件和算法迭代快
影响架构选择的另一个因素是硬件和算法的发展速度这决定了数据中心所有者从他们购买的硬件中赚钱的时间,也决定了他们愿意支付的价格,同时限定了芯片开发的总成本
那么,数据中心芯片的使用寿命是多久。
通常情况下,芯片或电路板的寿命为三到四年,Xilinx 的 Ni 说一些较为激进的数据中心可能会在这一时间段内升级,还有一些则会持续使用更长时间在人工智能领域,如果我们关注 Google TPU 的发布新闻,就能发现在过去六年左右的时间里,Google 发行了四个版本的 TPU,也就是说,几乎每隔一两年 Google 就会更换一次内部硬件,针对 AI 等快速变化的工作负载进行优化
换个角度来看,AI 芯片公司可能每 18 个月就有一次进入数据中心的机会要搅动这个市场并不容易,Saha 说有两个重要因素 —— 更换现有数据中心芯片的频率,以及添加新东西的频率我看见几乎所有的数据中心都在尝试更新的东西,几乎每个构建数据中心芯片的公司都在同一些终端客户合作
市场多久更换一次正在工作的芯片只要芯片在工作,公司就会尽量延长芯片的使用寿命一旦芯片进入数据中心,持续的时间会很长且难以更换这就是为什么我们可以看到大型数据中心芯片领域有大量投资
一部分投资者认为这是赢家通吃的市场,最终会有一至三个获胜者获得最大的市场份额一旦市场被这些公司占领,这些公司的地位就很难被取代
设计面向 18 个月后的芯片
如果从今天开始设计芯片,那么这颗芯片必须满足 18 个月后需要满足的条件。
当我们决定对芯片进行模块化时,我们还必须针对特定精度进行优化,Xilinx 的 Ni 说例如,当我们选择在 8 位数精度上做文章时,我们不得不立下赌约,当这款产品成为主流时,8 位仍然是主流
我们还要确保制造出的产品可以处理混合精度网络,其中一半是 8 位,四分之一是 4 位,另外四分之一是 1 位为此,我们在 AI 引擎中执行 8 位,其运行基本性能非常快,然后可以在 FPGA 架构中实现 4 位和 1 位 MAC 单元
设计时间和算法进化的时间要保持一致在 18 个月内,应用程序很可能会变得相当不同,Tadikonda 警告说我认为今天的数据科学家不会向任何人保证他们将在未来 18 个月内运行与今天相同的模型
还有其他一系列决策也需要作出。
量化可能是许多能效指标中的最大因素,Saha 说量化将对推理产生更大的影响,推理分散在数据中心和边缘之间,但在‘学习’端也需要一些量化当我们量化成较低的位数时,就意味着我们正在权衡能效而不是准确性训练可能需要浮点数,不过有一些新型浮点数出现谷歌在设计下一代 TPU 时,他们创造了 Bfloat16,这是用于训练的大脑浮点数它与 IEEE 浮点数非常不同,它在精度上具有浮点数的优势,但也具有显着的能效优势
不过这将让经济因素陷入困境。
对于如此规模的 ASIC,需要在快速变化节奏里付出巨大的努力,只有少数公司能够保证其经济性,Tadikonda 说因为有关这些数据的用例正在增加,所以算法正在发生变化我们今天认为有效的算法明天不一定有效,想要跟上节奏并处于最前沿,就必须不断创新或重新研发 ASIC谷歌占据优势,因为它拥有足够多的数据以至于能快速搅动局面,它从自己的 TPU 中学到了很多东西,知道为了保证程序运行地更好需要作出哪些改变
如果我是第三方芯片开发商,我没有这些数据,就只能依靠我的客户来提供,因此周转周期会更长谷歌的情况非常特殊
数据的缺乏也给验证带来压力浮点硬件的验证对满足这些芯片的性能和功耗要求至关重要,OneSpin 市场营销主管 Rob Van Blommestein 说
长期以来,浮点硬件设计的验证一直被认为是一项重大挑战FPU将浮点运算的数学复杂性与需要复杂控制路径的各种特殊情况相结合我们需要一种正式的验证解决方案,以验证由硬件浮点单元 计算出的算术运算结果是否与 IEEE 754 标准规范准确匹配
结论
人们常说,数据是新的石油,这一比喻在人工智能领域得以明显体现。
对于芯片架构师来说,这个比喻再恰切不过他们需要访问数据来改进构建更好的产品,这也是数据中心处理器用户黏性高的原因,架构师们一旦拥有数据中心处理器,就有机会获得需要的数据
另一个唯一可行的办法是加快设计速度来提升效率,推动产品成本的回收 —— 但具有讽刺意味的是,在试图通过提升效率来解决问题的时候,AI 却成为了唯一的阻碍者。
毕竟,AI 领域的算法进化速度和变数实在是太大了。