文丨苏扬
编辑丨徐青阳
黄仁勋在CES2026上的演讲过去不到3个小时,人称“苏妈”的AMD CEO苏姿丰就带着AMD的AI全家桶登台亮相。
为了给自己产品铺垫,苏姿丰开场大谈推理需求的暴涨,强调算力接下来将进入Yotta Flops时代(1Yotta Flops=1,000,000 ExaFLOPS,即每秒可执行10的24次方次浮点运算)。
针对这一变化趋势,AMD的解决方案是最新的MI455X GPU,并且基于72颗MI455X GPU和18颗Venice CPU,打造了一台开放式72卡服务器“Helios”。
苏姿丰展示MI455X GPU
苏姿丰强调称,MI455X系列相较于MI355X拥有10倍的性能提升,其公布的路线图显示,2027年将推出基于2nm工艺,搭载HBM4e内存的MI500系列。
“未来四年,要实现AI性能1000倍的提升,”苏姿丰说。
01
苏妈的“算力核弹”
AMD GPU路线图
这张路线图清晰地展示了AMD INSTINCT系列GPU路线图。
最强大的是2027年要上市的MI500,届时将会导入2nm工艺,采用HBM4e内存,AI性能又是一次巨大飞跃。
如果MI455X的性能是MI355的10倍,对照官方折线图,粗略量化一下,MI500的提升可能是MI455X的30倍。
不过,抛开PPT上的故事,明年下半年的重点产品还是MI455X和“Helios”机架。
不过这里比较有意思,在说MI455X的时候,官方晒的是一张MI450的参数对比图。
按照苏妈的说法,2026年上市的MI450,相当于MI300X+MI350,堪称阶梯式的创新和性能跨越。
升级的核心思路和英伟达的逻辑一样,借助HBM内存,实现显存、带宽和算力三个维度扩展,打破AI推理的“内存墙”限制。
这种升级的好处体现在三个方面:首先是更强的扩展能力(Scale-up),更大的显存意味着能装下更巨型的模型;其次是更高的生成效率,通过极高的带宽解决了“出字速度”慢的问题,提升了每秒Token的输出量;最后是极高的QPS(每秒查询率),让服务器在单位时间内能同时响应更多用户的提问。
MI450在主流的FP8精度下提供了20PF的算力,性能表现接近初代的4倍。不仅如此,FP4精度下能达到40PF的极高性能。
机架方面,根据官方资料,Helios总共18个计算托盘,一个计算托盘采用1颗Venice CPU+4颗MI455X GPU。
部分细节虽未详细说,但从现场的配置来看,其中Venice CPU采用2nm工艺,总计4600个核心,MI455X GPU则采用了3nm工艺,总计18000个计算核心,搭配总计31TB HBM4显存和43TB/s的总带宽,提供2.9Exaflops的FP8算力。
AMD也强调,Helios是一个通往Yotta级计算扩展的开放式机架平台。
02
AI PC的故事
端侧AI不是附加值,而是必需品
展示完机架级“算力核弹”之后,苏姿丰将叙事重心拉回到个人设备,并给AI PC下了一个明确判断:AI PC并不是云端AI的替代品,而是下一代个人计算的基础设施。
AMD在本次发布中正式推出Ryzen AI 400系列处理器。该系列采用Zen 5 CPU架构与RDNA 3.5 GPU,集成最高60 TOPS的NPU算力,并已全面支持Windows Copilot+生态。
苏姿丰在现场多次提到,AI已不再是PC的附加功能,而是正在成为其“默认能力”。
紧接着,AMD还正式发布了面向高性能开发者和创作者的Ryzen AI Max平台。
从现场大屏展示的参数来看,Ryzen AI Max并非一次常规的移动端升级,而是AMD对“本地AI计算单元”形态的一次重新定义。
CPU最高配备16核/32线程Zen 5架构,GPU集成40个RDNA 3.5计算单元,NPU算力达到50TOPS,并配备128GB统一内存。这一配置不仅支撑多模态AI推理和生成,也能够处理编译、渲染、数据预处理等高负载任务。
在此基础上,AMD进一步向上延展,推出面向高性能本地AI场景的Ryzen AI Max平台。
Ryzen AI Max被定义为面向游戏玩家、内容创作者与开发者的“终极处理器”,其核心并不在于单一模块性能,而在于 CPU、GPU与NPU之间高度整合的内存架构,以提升本地 AI 推理时的带宽效率和响应速度。
真正引发现场讨论的,则是摆在舞台一侧的一个“小盒子”——Ryzen AI Halo。
形态上,Ryzen AI Halo更像是一台迷你主机,体积远小于传统工作站,却被苏姿丰称为“世界上最小的AI开发系统”。
该设备基于旗舰级Ryzen AI Max处理器打造,采用统一内存设计,最高可配置 128GB内存,以满足本地运行大模型时对容量与带宽的双重需求。
与传统意义上的AI PC不同,Ryzen AI Halo的目标用户并非普通消费者,而是开发者、研究人员以及小型创作团队。
AMD在现场明确强调,这并不是一台展示型硬件,而是一个开箱即可使用的本地AI平台。
Ryzen AI Halo出厂即预装多款主流开源模型,包括GPT-OSS、FLUX.2、Stable Diffusion XL(SDXL) 等,开发者无需复杂配置,即可在本地完成模型推理、调试和应用验证。这一设计思路,显然意在降低“使用AI的工程门槛”,而不是单纯追求跑分或峰值算力。
这一开箱即用的设计,不仅展示了Halo在实际应用场景中的便利性,也凸显了AMD对本地AI平台的整体架构思路:它不仅是软件友好,更是在硬件层面为开发者提供充足算力和统一内存支撑。
Ryzen AI Max/Halo与MI系列GPU的核心共性在于:都通过大容量、高带宽的统一内存设计,将算力单元与数据紧密耦合,以打破本地或节点间的内存瓶颈,实现高效推理与生成。
与英伟达DGX Spark的对比中,AMD并未强调绝对性能,而是提出了一个更贴近实际使用场景的衡量方式:tokens/dollar/second。
这一指标背后,是AMD对AI PC的核心判断,即未来的个人AI设备,并不是“缩小版数据中心”,而是效率优先、随时可用、成本可控的本地智能节点。
从Ryzen AI 400系列笔记本,到Ryzen AI Max,再到“小盒子”形态的Ryzen AI Halo,AMD在CES 2026上给出的AI PC路线已经十分清晰:AI正在从云端服务,下沉为每一台个人设备中的常驻能力。
03
抱完OpenAI总裁,再抱李飞飞
苏姿丰与OpenAI总裁、联创格雷格·布洛克曼
CES 2026的舞台上,苏姿丰不再单纯堆叠参数、制程或峰值算力数据,也把时间留给了几类“正在真实消耗算力的公司”。
这些公司共同构成了AMD此次发布中最重要的一条暗线:算力究竟流向了哪里,又在改变什么。
首先登台的,是OpenAI总裁、联合创始人格雷格·布洛克曼(Greg Brockman)。
他并未谈论模型细节,而是反复强调一个事实:OpenAI内部长期处于“算力紧张”状态,模型能力的每一次跃迁,都会迅速吞噬掉新增的计算资源。
苏姿丰在台上半开玩笑地回应道:“每次我遇到你,你都在说需要更多算力。”
这句玩笑背后,其实是一次非常直接的确认——通用大模型仍然是当前算力需求的上限场景。
对AMD来说,OpenAI的存在并不只是一个客户案例,而是为Helios、MI455X这类机架级产品提供了最直观的合理性:只要模型规模和使用频率持续上升,算力就永远不够。
苏姿丰与Luma AI首席执行官阿米特·贾恩
紧接着,AMD将舞台交给了AI初创公司Luma AI。
Luma AI首席执行官阿米特·贾恩(Amit Jain)展示了其最新一代多模态视频模型Ray3以及实时编辑功能Ray3 Modify。这些模型已经能够在4K、HDR 条件下生成和修改长视频内容,并支持将真人拍摄素材与 AI 生成世界进行动态融合。
贾恩特别强调,2025年是Luma从“模型展示”走向“商业部署”的一年,一些客户甚至已经开始使用其系统生成90分钟长度的完整影片。
更关键的一点在于,目前约60%的Luma推理负载运行在AMD GPU上。
这一比例本身释放出一个明确信号:推理正在成为比训练更长期、更稳定的算力消耗来源。
相比一次性的超大规模训练,视频生成、实时编辑、内容修改和多模态交互,对算力的需求更高频、更持续,也更依赖单位成本与能效比。这正是AMD在本次发布中反复强调tokens/dollar/second的原因。
苏姿丰与Liquid AI首席执行官拉明·哈萨尼
随后登台的,是来自MIT孵化公司的Liquid AI。
与前两者不同,Liquid AI并不试图扩大模型规模,而是试图从根本上降低“智能的计算成本”。
其首席执行官拉明·哈萨尼(Ramin Hasani)在现场发布了Liquid Foundation Model 2.5,并预告了将于年内推出的LFM 3.0。这些模型主打高度量化、低延迟与原生智能体能力,能够在本地设备或企业系统中常驻运行,持续处理多语言音视频输入、函数调用和后台任务。
在演示中,LFM 3.0可以代表用户参加会议、处理日程,甚至在用户不直接交互的情况下主动执行任务。
苏姿丰在一旁打趣道:“你确认我们会相信这个智能体?”但这句玩笑点出的,恰恰是AMD想要押注的下一阶段趋势:AI正从“生成工具”转向“系统级参与者”。
除了内容与企业软件,苏姿丰还明确表示,医疗是她个人最关注的AI应用领域之一,因为这里既存在极高的算力需求,也存在对稳定性、可解释性和长期运行能力的现实约束。
当这些企业被串联在一起时,一条清晰的逻辑逐渐浮现:从OpenAI这样持续吞噬算力的通用模型平台,到Luma的内容生成工厂,再到Liquid AI的本地智能体,以及医疗等高可靠性场景,算力正在从集中式训练中心,扩散为一个高频、分布式、长期运行的推理网络。
苏姿丰与李飞飞
在这样的背景下,“AI教母”、斯坦福大学教授李飞飞也受邀登台,分享其创办的World Labs。
World Labs的核心目标,并不是生成更精致的图像或视频,而是让AI理解现实世界的空间结构。李飞飞将其称为“空间智能(Spatial Intelligence)”,即模型并非学习屏幕上的像素,而是学习世界本身的尺度、深度、结构与物理关系。
在现场演示中,World Labs仅使用普通手机拍摄的少量照片,就生成了具有真实空间关系的3D世界模型。李飞飞指出:“过去需要几个月的工作,现在只需要几分钟。模型跑得越快,世界就变得越即时。”
值得注意的是,这些模型的训练与推理同样运行在AMD Instinct GPU与ROCm软件栈之上。性能的提升,并不是简单地缩短等待时间,而是在改变研究和创作的基本方式。
从OpenAI的算力饥渴,到内容生成、智能体、医疗应用,再到空间智能的出现,AMD在CES 2026所呈现的,并不是一场单纯的硬件发布,而是一种判断:当算力成本持续下降,AI 将不再只是模型能力的竞争,而是开始重塑我们理解和构建世界的方式。
特约编译无忌对本文亦有贡献
推荐阅读