云边端三位一体 Arm撑起AI的一片天!下代CPU/GPU强势来袭
- 来源:快科技
- 作者:上方文Q
- 编辑:一只小编辑OVO
AI人工智能经过长达70年的进化,在最近几年,趁着生成式AI的东风,迎来了一波史无前例的爆发。
仅仅在过去的18个月内,就有150多个基础AI模型面世,涵盖语音、图像、文字与视频生成等等。
无论是云侧、边缘侧还是端侧,AI已经无处不在,渗透到了我们生活、工作的每一个角落,颠覆了一个又一个行业领域。
在这场空前的变革中,Arm计算平台可以说扮演着非常核心的角色。
毕竟,无论是消费电子、智能手机、智能汽车、数据中心乃至是PC,Arm的身影无处不在,基于Arm架构的芯片累计出货量已经超过3100亿颗,远超任何其他架构平台。
2025年台北电脑展前夕,Arm高级副总裁兼终端事业部总经理Chris Bergey发表了主题演讲,并与联发科技、NVIDIA两大关键合作伙伴进行了深入探讨。
Bergey指出,现阶段,AI的演化速度是空前的,仅仅在过去一年的变化就令人惊叹。归纳起来可以发现三个显著的趋势:
一是AI模型变得更高效、更聪明、更专精。
不再一味追求更庞大的参数量,也不再一味吃掉更强大的硬件算力,即便是小尺寸模型也能胜任不同工作。
二是云侧AI正迅速向边缘侧、端侧延伸。
尤其是在端侧高效运行AI、利用AI,已经毋庸置疑,而且云边端AI的融合日渐深入、难分彼此。
三是AI智能体大规模涌现,实体AI也衍生出了新的机遇。
AI智能体已经出现了非常成功的商业落地项目,尤其是AI编程、AI客服最为典型,甚至有的创业公司在不到100人的情况下,利用AI就实现了上亿美元的营收;
实体AI方面,具身机器人、机器狗、配送机器人等快速崛起,虽然距离人类智能水平还差很远,但已经在某种程度上可以自主运行。
当然,AI以各种形式在各行各业的应用,都离不开强大的底层基础架构,而对于构建AI系统的基础要素,Arm认为有三个关键因素:
一是云边端无处不在的独特平台。
AI的运行往往不限于某一个范围,比如在端侧、边缘侧越来越流行,但很多工作负载又离不开云侧,或者兼而有之,因此一个高度可移植的平台对于推动AI发展的灵活性是至关重要的。
二是更高的能效比。
AI对于电力能源的消耗有目共睹,尤其是在数据中心的大规模AI训练,能耗已经从兆瓦级(MW)跃升至吉瓦级(GW),而其中50%以上来自机架和半导体设备。如何提高能效、降低能源消耗,已经是生死攸关的话题。
三是软件开发生态。
没有强大、优秀的软件生态,再好的AI硬件性能也无法释放出来,无法形成生产力而真正服务于人。
说到软件生态,Arm无疑拥有独特的优势,坐拥全球最大的开发生态,汇聚了超过2200万名软件开发者,同时基于Arm架构芯片出货量迄今已超过3100亿颗。
如此级别的软硬件规模,就带来了一个良性循环:大量基于Arm架构的硬件设备推动了丰富的Arm软件生态,而反过来,强大的软件生态又进一步催生了更多的硬件发展机会。
去年,Arm进一步推出了Kleidi软件库,让开发者能在各种AI模型与工作负载上,无论是音频、图像、文字、视频,都能获得最佳的性能表现。
尤其是,它可以让AI工作负载利用最新的Armv9架构加速运行,同时具备面向未来硬件架构的可持续性。
迄今为止,Arm Kleidi已经在搭载Arm架构的设备上累计安装超过80亿次,还在持续增长中。
值得一提的是,Kleidi也与大量全球主流的AI框架进行了集成,包括ExecuTorch、PyTorch、Angel、llama.cpp、MediaPipe、MNN、ONNX Runtime等等,以及中国球探足球比分混元的Angel机器学习框架。
说回到硬件,此前Arm在数据中心领域的布局或许还不为大众所熟知。
事实上,Arm已经在数据中心领域深耕了10多年,取得了相当的成果。
比如全球最大的云服务提供商亚马逊云科技(AWS),早就开发了基于Arm架构的Graviton处理器,并演化多代。AWS此前表示,在他们去年部署的CPU中,超过50%是基于Arm架构的Graviton。
在这其中,既有相当一部分AWS自家的工作负载,也有大量的外部客户。AWS曾表示,其超过90%的重要客户(不包括 Amazon)都在使用Arm的先进架构,并受益于其更高的能效。
这些客户都是业界耳熟能详的企业,比如SAP、Epic Gams、Discovery等等。
除了AWS Graviton,还有大量的数据中心处理器采用了Arm架构,比如微软Cobalt、谷歌Axion、Ampere AmpereOne(甲骨文持股)、NVIDIA Grace、阿里倚天,等等。
在这些Arm计算平台的加持之下,不但大量的云服务商将自家的工作转移到Arm平台,还有越来越多的第三方厂商将其服务转向了Arm平台,带来了超过40%的能效提升。
预计在2025年,出货到头部超大规模云服务提供商的算力中,有近50%将基于Arm架构。
而在这里有一款产品尤为值得一提,那就是NVIDIA DGX Spark,一台桌面级的AI超级计算机,体积只有一台迷你机大小,是全球最小的同类产品。
它搭载了一颗超级芯片NVIDIA GB10,基于NVIDIA Blackwell GPU 和Grace CPU。
其中,CPU部分包含来自Arm的10个Cortex-X925核心、10个Cortex-A725核心,GPU部分则具备高达1PFlops的AI算力,也就是每秒1千万亿次浮点运算。
此外,它还有超高带宽的NVLink-C2C片间互连,通过针对AI所需的带宽、I/O密度进行深度优化,实现了更高效的计算性能,还为之搭配了128GB LPDDR5高带宽高能效内存、4TB SSD高速存储。
有了这样的超高算力,DGX Spark可以在本地运行多达2000亿参数的AI模型。
在今年的台北电脑展上,NVIDIA宣布联合宏碁、华硕、戴尔、技嘉、惠普、联想、微星等品牌,共同打造DGX Spark、DGX Station系统。
NVIDIA还分享了Grace CPU的最新发展势头,在埃克森美孚(ExxonMobil)、Meta等实现了一系列的实际部署,大大提升了AI工作负载的性能和效率。
在消费级市场上,2025年将有超过40%的PC、平板都运行在Arm架构之上。
比如NVIDIA、联发科技联合打造的N1系列处理器正蓄势待发,并得到了华硕、戴尔、联想、惠普、微星等众多品牌的支持。
联发科技近期还推出了Kompanio Ultra SoC处理器,更进一步提升了Chromebook设备的性能水平,使得新一代Chromebook Plus笔记本具备先进的AI与多媒体处理能力。
生态方面,Arm PC也取得了飞速发展,目前全球大多数主流应用都已经推出了原生适配Arm的版本。
目前,全球99%的智能手机都采用Arm架构,因此Arm计算平台的每一步发展,都影响深远。
比如去年发布的超大核Arm Cortex-X925,具备业内最高水平的IPC性能与进步幅度,相比上代提升了多达15%。
IPC对于处理器而言是至关重要的一个参数,因为IPC与频率的乘积,决定了整个平台的性能。
相较于单纯依赖提高频率来提升性能容易造成功耗与能效的失衡,提升IPC可以更高效地实现性能、能效的双重增强,而对于移动设备而言,控制功耗无疑是一个关键考量因素。
联发科技天玑9400系列就是Cortex-X925落地的典型代表,配合全大核设计,带来了无可比拟的性能与能效。
小米最新发布的玄戒O1,作为第一款国产3nm手机芯片,同样采用了Cortex-X925。
最后,Arm官方预告了将在今年稍晚推出的Arm Lumex CSS 解决方案,该方案将集成两款面向移动端市场的新一代CPU和GPU产品。
其中CPU代号“Travis”,定位旗舰CPU,将再次带来两位数的IPC性能提升,同时通过最新的SME(可伸缩矩阵扩展),进一步加速AI处理能力。
GPU代号“Drage”,将进一步提升图形渲染能力,带来更沉浸的长时间游戏体验,还有更丰富的多媒体处理能力。
可以说,当下这个AI蓬勃发展的时代是一场千载难逢的机会,必将重新定义科技如何影响世界。
要想真正让这场革命落地到人们生活、工作的方方面面,真正实现AI的价值,离不开持续的科技创新,以及世界级生态系统的深度合作。
从云到边缘再到端,从手机平板、PC到汽车、物联网、数据中心,Arm计算平台正处于这场革命转型的核心。
作为未来的基石,Arm不但推动着AI无处不在,更将一步步塑造、变革AI的未来。

玩家点评 (0人参与,0条评论)
热门评论
全部评论