标签 AMD 下的文章

编辑:桃子

【新智元导读】英伟达护城河要守不住了?Claude Code半小时编程,直接把CUDA后端迁移到AMD ROCm上了。

一夜之间,CUDA护城河被AI终结了?

这几天,一位开发者johnnytshi在Reddit上分享了一个令人震惊的操作:

Claude Code仅用了30分钟,便将一段完整的CUDA后端代码,成功移植到AMD的ROCm上。

整个过程,没有手写一行代码。

这架势,简直是要填平这两个生态系统之间的鸿沟。

更关键的是,这次移植完全没有依赖传统的「中间转换工具」,如Hipify翻译层,而是一键通过CLI完成。

就连AMD软件副总Anush E.为之震惊,GPU编程的未来,是AI智能体的。

消息一出,整个科技圈瞬间沸腾,很多人直呼:英伟达CUDA护城河要守不住了…..

这究竟是怎么回事?

Claude手撕CUDA,仅30分钟

Claude Code是在一个智能体框架运行的,这意味着它可以自己「动脑子」。

在执行过程中,他不会机械地转换关键词,而去真正理解代码,即特定核函数的底层逻辑。

开发者johnnytshi介绍,这次移植中,最棘手的数据布局差异问题也被AI解决了,确保了内核核心计算逻辑保持一致。

令人惊叹的是,johnnytshi在短短30分钟内,就把整个CUDA后端移植到了AMD ROCm上,而且中间没用任何翻译层。

另外一个好处当然是,不用费劲去搭像Hipify这种复杂的翻译环境了;直接在命令行(CLI)里就能干活。

如今,全网都被CUDA护城河被攻破呼声淹没了。

毕竟,英伟达霸主地位,很大程度上建立在CUDA这个几乎成为行业标准的编程生态上。

无数AI框架、深度学习库、科学计算工具都深度依赖它。

AMD的ROCm虽然功能强大,却一直面临生态兼容性,以及开发者迁移成本高的痛点。

现在,一个Claude却用极短时间踢碎了门槛,说不定未来更多CUDA代码可能轻松在AMD GPU跑起来了。

实现细节

GitHub中,johnnytshi本人也更新了日志和说明。

为AMD GPU实现了完整的ROCm后端,从而在RDNA 3.5及其他AMD架构上支持基于注意力机制的现代国际象棋网络。

GitHub:https://github.com/LeelaChess...

  • 在src/neural/backends/rocm/中添加了完整的ROCm后端
  • 实现了注意力网络架构(多头自注意力、FFN、嵌入层)
  • 使用rocBLAS进行GEMM运算,使用MIOpen进行卷积运算
  • 针对RDNA 3.5上的FP16性能优化了NCHW布局
  • 提供三种后端变体:rocm (FP32)、rocm-fp16 (FP16)、rocm-auto (自动检测)
  • MIOpen是必选依赖(类似于CUDA的cuDNN)
  • 通过rocm\_agent\_enumerator自动检测AMD GPU架构
  • 编译选项:-Drocm=true -Damd\_gfx=gfx1151(或使用自动检测)

性能说明:

  • FP16性能:在Strix Halo (Radeon 8060S, gfx1151) 上 >2000 nps
  • 自动Batch Size调优(RDNA 3.5上min\_batch=64)
  • 测试过rocWMMA,但rocBLAS性能更好

验证情况(Strix Halo – Radeon 8060S, gfx1151):

  • 测试模型:768x15x24h-t82-swa-7464000.pb.gz 和 maia-1900.pb.gz
  • 后端:rocm-fp16功能正常,能生成正确的走法
  • 环境:ROCm 7.2.53150, MIOpen 3.5.1
  • :仅在RDNA 3.5上进行了测试;其他AMD架构暂未验证

GPU未来,是AI智能体主场

当然,这次演示也有局限性。

对于简单或中等复杂度的内核,Claude Code表现得非常出色。更重要的是,写核函数的核心就在于搞定「深度硬件」优化。

不过,一部分觉得Claude Code在这方面还是差点火候——

如果遇到那些针对特定硬件缓存层级,内存访问模式做过极致优化的复杂内核,AI目前还难以完全取代人类专家。

即便如此,这一事件释放出的信号已经足够强烈。

过去几个月,ZLUDA项目、还有微软内部的尝试,都想要打破CUDA的垄断。

但它们大多依赖规则映射或中间层,自动化程度和智能水平有限。

Claude Code代表的智能体式编程,直接跳过了这些环节,用「理解+自主决策」的方式填平生态鸿沟。

正如AMD软件副总所言,GPU编程的未来,是AI智能体主场。

全员AI编程,浓度高达100%

如今的Claude Code已经让整个硅谷入坑了(Claude-Pilled)。

两天前,CEO Dario Amodei在达沃斯上再出暴论:软件工程师们没有时间了。未来6-12个月,AI能够彻底取代这些人!

甚至,Anthropic内部工程师已经不再手写代码了,全是Claude完成。

别不信,是真的。

就在Wired最新采访中,Claude Code之父Boris Cherny坦承,「自己100%代码都是AI写的」。

或许Anthropic工程师怎么也没有想到,一个「副业项目」竟让硅谷如此狂热。

Boris Cherny回忆道,「一年前我们发布Claude Code时,甚至不确定『智能体编程』能不能成,但火爆来得太快了」。

Cherny个人经历就是最好的缩影:

刚发布时,他只有5%代码是用Claude Code写的;

到了去年5月,有了Opus 4和Sonnet 4,这个比例变成了30%;

而现在,有了Opus 4.5,他在过去两个月里100%的代码都是由Claude Code完成。

在Anthropic内部,这种全员AI化更是到了极致。

几乎100%技术员工都在使用Claude Code,甚至连Claude Code团队本身95%的代码也是由自身写出来的。

斯坦福AI教授都在用了

不得不说,AI编程的进化速度令人咋舌。

回望2021到2024年,大多数工具不过是高级版的「自动补全」,在开发者打字时卑微地建议几行代码。

但到了2025年初,随着Cursor和Windsurf等初创发布早期的Agentic编程产品,游戏规则改变了——

开发者只需用大白话描述功能,剩下的脏活累活全扔给AI智能体完成。

Claude Code也在这个时间点,真正诞生了。

Boris Cherny坦承,早期版本也曾跌跌撞撞,甚至陷入死循环。但Anthropic下了一步狠棋:不为当下的AI能力开发产品,而要为AI即将抵达的未来而构建。

这一赌注押对了。随着Anthropic下一代旗舰Claude Opus 4.5的发布,AI编程迎来了真正的「拐点」。

斯坦福大学AI讲师、Workera CEO Kian Katanforoosh最近就把公司全员迁移到了Claude Code。

他直言,对于高级工程师来说,Claude Code比Cursor、Windsurf更能打。

Katanforoosh感叹道,最近唯一让我看到编程能力有阶跃式提升的模型,就是Claude Opus 4.5。

「它给人的感觉不像是在模仿人类写代码,而是它真的找到了一种更聪明的解决路径」。

据传,微软内部也在大规模采用Claude Code了。

年入超10亿美金的「副业」

Claude Code大获成功,给Anthropic带来了最直观的效益。

去年,AI编程智能体业务彻底爆发。11月,Anthropic宣布Claude Code在上线不到一年内,年度经常性收入(ARR)就突破了10亿美元

到2025年底,ARR至少又增长了1亿美元。

彼时,该产品约占Anthropic总ARR(约90亿美元)的12%。虽然比起向大企业提供 AI 系统的核心业务来说还算「小弟」,但它已是公司增长最快的板块之一。

尽管Anthropic在AI编程领域看似独孤求败,但Claude Opus 4.5的光环其实照亮了整个赛道。

竞争对手Cursor也在11月达到了10亿美元ARR,OpenAI、谷歌和xAI更是磨刀霍霍,试图用自研模型分一杯羹。

但Anthropic没打算停下。

前几天,他们又发布了Cowork——这是一款面向非编程领域的AI智能体。

它能管理你电脑里的文件、操作各种软件,而且完全不需要你在代码终端里敲命令。

不是取代,是进化

提及Cowork时,Cherny透露自己已经用疯了。

比如项目管理,他会让Cowork盯着工程师的任务表格,谁没填名字,AI就会自动在Slack上发消息催人。

Cherny感慨道,「这是我当工程师以来最爽的时候,因为我不再需要做那些枯燥乏味的脏活了」。

面对那些因不再需要亲自写代码而感到失落的工程师,Cherny给出了他的建议:

这行业一直在变。我祖父在苏联用穿孔卡片编程;后来变成了机器码;再后来是C语言、Java、Python。

这是一条不断抽象化的连续体,AI智能体只是这条线上的最新一个点。

如今,Cherny每天早上起床会在手机上启动3-4个编程智能体,到了公司再在终端里开几个。

任何时候,他都有五到十个智能体在跑任务。

Cherny总结道,「AI智能体将接管生活中所有繁琐的事——填表、搬运数据、发邮件。这会具有颠覆性,我们必须适应」。

话又说回来,Anthropic能不能先解决下Claude使用量?

今年的 CES 真可谓是八仙过海,黄仁勋、苏姿丰、陈力武等“经典面孔”齐亮相; 不过台上谈的已不只限于显卡、算力和制程,还在于 AI 接下来要被带去哪里。

AMD 的专场演讲中,苏妈甩出一个大胆判断:

“未来五年内,将有 50 亿人每天使用 AI,超过世界人口的一半。”

——什么概念?就是这个增长速度将远超互联网早期阶段,自 ChatGPT 在 2022 年底发布以来,AI 活跃用户已从 100 万暴涨至 10 亿+。

值得一提的是,这场演讲还请来了“AI 教母”李飞飞。

李飞飞并不是来站台新品的,她和苏妈主要探讨空间智能和世界模型,这也是她已耕深 20 余年的领域。

此外,OpenAI 总裁兼联合创始人 Greg Brockman 也登台助阵,指出行业痛点:“计算能力,仍然是 AI 走向通用智能的最大瓶颈。世界需要的 GPU 数量,远超我们现在拥有的规模。”

而这正是 AMD 接下来要解决的事情,他们希望能补齐 AI 普及所需的算力基础设施。在苏姿丰描述的未来世界里,AI 将无处不在,算力将人人可及——她这次在 CES 上抛出的,不只是几块更强的 GPU,而是一套完整的 AI 版图。

对于云端,基于下一代 MI455 GPU 的 Helios 机架级平台成为全场焦点:单机架集成 72 块 AI GPU,算力高达 2.9 ExaFLOPS,可通过成千上万个机架拼接成超大训练集群,直指千亿参数大模型的核心战场。

谈到云端算力的未来,苏姿丰毫不掩饰 AMD 的野心:

“全球人工智能运行在云端,而云端运行在 AMD 平台上。”

另外,她还指出,下一代 Instinct 数据中心 AI 加速器平台 MI500 系列,将在 2027 年推出并全面转向 2nm 工艺,并放出狠话:希望借此在四年内 AI 芯片性能提升 1000 倍(远超摩尔定律啊...)。

与此同时,AMD 还在推动把 AI 从云端下放到本地,而他们的一个很核心的落点,是 AIPC。

Ryzen AI 通过内置 NPU(神经网络处理单元,一种专门为 AI 推理设计的处理器)让 AI 本地运行、离线可用

Helios 机架级平台和 AIPC

数据中心这一 AI 算力的核心战场,AMD 开始卖“一整个机架”的算力方案 Helios,一个几乎重新定义“数据中心硬件形态”的存在。

Helios,是 AMD 面向 YottaFLOPS 级 AI 的下一代机架级平台,也是本场 AMD 发布会的“镇场之作”

所谓 YottaFLOPS 级 AI,就是算力达到 10²⁴ 次浮点运算/秒 的人工智能系统。直观地说,它不只是“更快的 AI”,而是能在极短时间内模拟、理解和优化极其复杂的世界系统,如全球气候、全人类基因等,能力规模远超今天任何单一 AI 模型。

Helios 从一开始就按大模型需求设计,用开放的 OCP 机架标准做底座,并与 Meta 合作开发,强调模块化、可扩展、能快速堆出大集群。

Helios 的核心是一种全新的算力组织方式,能将 72 颗芯片协同工作。

其中的系统设计是通过高速互联和软件栈,把这些 GPU 组织成一个可以统一调度的算力池,让它们更像一个整体,而不是“72 个独立设备”。在 FP4 这种推理常用的低精度口径下,单台 Helios 机架式服务器可提供高达 2.9 ExaFLOPS 的算力,并搭载 31TB 容量的 HBM4。

如果再把数千个 Helios 机架互联起来,就能搭建出面向万亿参数模型训练和推理的超大规模集群。

至于 Helios 的算力底座,是 AMD 最新一代 Instinct MI455 GPU,也是 AMD 历史上跨代提升幅度最大的 Instinct GPU

这颗芯片拥有超过 3000 亿个晶体管,相比 MI300 系列提升约 70%,推理与训练综合性能最高可达 10× 提升。

AMD 对 MI455 GPU 的定位非常明确:它要解决大模型训练和推理里最棘手的瓶颈“内存墙”。大模型跑不动,很多时候不是算力不够,而是数据喂不进去、内存带宽跟不上。

这颗加速器芯片采用 2nm 与 3nm 混合工艺打造,再配上先进的 3D 小芯片封装技术,并搭载新一代 HBM4 高带宽内存。

更重要的是,MI455 并不是孤立地“做一颗更强的 GPU”,它在计算托盘层面就与 EPYC 服务器 CPU、Pensando 网络芯片深度集成,让 CPU、GPU、网络协同成为平台能力,而不再是分散组件的简单拼接。

苏姿丰打了个生动的比方:“Helios 是个庞然大物般的货架,它不是普通的货架,而是双倍宽度的设计,重量接近 7000 磅。”她指出,这个机架的重量超过两辆小型轿车的总重量。

时至今日,AI 的推理能力已被推到聚光灯下,其特点是调用频率高、负载长期持续,进一步带来更明显的算力缺口。

苏姿丰分享称,AMD 下一代 MI500 系列正在开发中,计划全面转向 2nm 工艺,发布时间定在 2027 年。按照 AMD 给出的路线图,从 MI300 到 MI500 的四年周期内,其 AI 计算性能目标提升幅度达到 1000 倍。

她将这一跨代跃迁称为“公司历史上幅度最大的一次性能提升规划”,并将其视为支撑下一阶段超大模型训练和推理需求的关键基础。

在数据中心之外,AMD 还把另一张牌打到终端侧:把原本只能在云端完成的 AI 工作,搬到个人电脑上。

Ryzen AI Max 400 系列(代号 Strix Halo)正是这一策略的核心载体。AMD 给它的定位并不含糊:面向 AI 开发者和高端创作者,做一颗“能真正干活”的本地 AI 芯片。

与 Ryzen AI 300 一样,Ryzen AI Max 400 系列依然是 Zen 5 和 RDNA 3.5,但支持更快内存速度。

简单来说,Ryzen AI 400 是一颗为 AI 笔记本打造的高性能处理器,最高配备 12 核 CPU,同时集成了 更强的核显 和 最高 60 TOPS 的专用 AI 引擎。再加上对高速内存的支持,让它在多任务、创作以及本地 AI 应用中运行得更流畅。

但相比传统性能参数,更关键的是它的系统设计:芯片同时集成 XDNA 2 NPU,并采用统一内存架构,CPU 与 GPU 之间可共享最高 128GB 内存。

这也是能否跑大模型的前提条件。对本地 AI 来说,算力是否够强是一回事,模型能不能完整装进内存、数据能不能顺畅流动,往往才是决定成败的关键。

AMD 用一场直观的演示给出了答案:一台搭载 Ryzen AI 的设备,在完全离线的情况下,流畅运行了一个 700 亿参数的医疗大模型。

这意味着,开发者可以直接在笔记本上调试生成式模型;医疗、金融等行业,也可以在不把数据上传云端的前提下,完成模型推理和分析。本地终端不再只是“调用云端 AI”,而是开始真正承载模型本身。

摆数据:在高端笔记本形态下,Ryzen AI Max 在 AI 与内容创作类应用中的表现,快于最新一代 MacBook Pro;在小型工作站场景中,成本明显低于英伟达的 DGX Spark,而且原生支持 Windows + Linux。

AMD 还贴心地发布了一个本地 AI 参考平台:Ryzen AI Halo 

官方将其称为“世界上最小的 AI 开发系统”,可在完全离线的条件下运行多达 2000 亿参数模型,面向需要随时随地进行模型开发和部署的专业用户。

那些过去只能在数据中心机房里完成的工作,正在被压缩进一个可以随身携带的设备。

和李飞飞同台聊空间智能

前文提到“AI 教母”李飞飞也亮相了;其实在这种聚焦硬件与平台发布的商业舞台上,李飞飞不常露面,她更常被视为学术界和公共讨论中的“定锚者”。

李飞飞此次在 AMD 的专场讲演登台,强调 AI 不仅要生成内容,更要理解并参与真实世界。

在这一点上,苏姿丰的判断高度一致,她表示,过去几年,大语言模型的出圈(LLM)推动了 AI 的爆发,但无论是人类还是机器,智能并不只来自“看和说”,真正连接“感知 → 推理 → 行动”的关键能力,是空间智能(Spatial Intelligence)

过去这几年,GPU 的快速发展已让画质起飞了,但 3D 和 4D 世界却还在慢慢搭,往往需要团队花费数月甚至数年完成;而现在 AI 正在改变这种节奏。

李飞飞表示,她认为 AI 正进入一个新阶段:从语言智能,迈向具备空间理解与行动能力的生成式 AI:

“AI 在过去几年取得了巨大突破,我在这个领域工作了二十多年,从未像现在这样,对未来的发展感到如此兴奋。”

她也介绍了自己创业公司 World Labs 的核心动向:

  • World Labs 正在训练新一代世界模型(World Model)

  • 目标不是还原二维像素,而是直接学习 3D / 4D 结构;物体之间的空间关系;深度、尺度、物理一致性

已炼成的关键能力,包括仅凭几张照片,甚至单张图片,模型即可补全被遮挡区域、推断物体背后的结构,然后生成一致、持久、可导航的 3D 世界。

不是照片也不是视频,而是真正保持几何一致性的三维空间,具备“空间补全与想象”能力,而非拼贴。

李飞飞指出,过去需要数月才能完成的 3D 场景建模,现在可以在几分钟内完成。

她举例说明潜在影响:创作者:实时“在世界中创作”;机器人 / 自动驾驶:在物理一致的虚拟世界中训练,再进入现实;设计师 / 建筑师:直接“走进”设计,而不是看平面图。

她还特别强调了一个常被忽略的点:世界模型并不是“离线生成完就结束”,它需要实时响应、即时编辑,连续保持空间一致性。

这意味着:极高的内存需求,大规模并行计算,非常快的推理速度,否则世界就无法“活起来”。

谈及算力,李飞飞也透露称:World Labs 的世界模型已运行在 AMD 的 MI325X GPU 与 ROCm 软件栈之上,并在短短几周内实现了 超过 4 倍的推理性能提升

她还提到,随着 MI450 等后续平台 推出,更大规模世界模型的训练与实时运行将成为可能。

其他亮眼新品

  • 游戏和消费级显卡:

在消费级图形领域,AMD 本次带来的主要新品是 Radeon RX 9070  Radeon RX 9070 XT

这两张显卡均搭载了 AMD 的全新 RDNA 4架构,以及最新 AI 图像技术(包括 FSR 4),将游戏体验推向“AI 加速 + 实时渲染”双驱动的新时代。

其中 RX 9070 XT 的 64 个计算单元、较高频率设计,让其在多款 3A 游戏中表现强劲,在 4K 最高设置下帧率表现明显领先前代,在 30 多款游戏中平均比 RX 7900 GRE 快 42%

而 RX 9070 的规格稍低一些(但同样 16 GB 显存),其光追与 AI 能力也因较少计算单元略弱,不过仍能在高画质下保持流畅体验,在 30 多款游戏中平均比 RX 7900GRE 的帧率快 21%。

综合来看,这两款显卡延续了 RDNA 4 在 高效能比、AI 支持(如 FSR 4)、光追性能提升 上的特性,适用于 1440p 到 4K 游戏场景。

  • AI 专用 CPU:

EPYC Venice 是 AMD 为“AI 数据中心时代”打造的下一代服务器 CPU。

它采用 2nm 工艺,最多可集成 256 个 Zen 6 高性能核心,定位不只是“算得更快”,而是专门为 AI 集群服务。

相比上一代 EPYC,Venice 的内存带宽和 GPU 带宽都实现了翻倍,核心目标只有一个:在机架级规模下,持续、稳定地把数据“喂”给 MI455X 等 AI GPU。

换句话说,它不追求抢 GPU 的计算活,而是负责调度、通信和数据供给,避免 GPU 因“等数据”而空转。

为了支撑这种规模,EPYC Venice 还配套 800G 以太网,并结合 Pensando Volcano / Selena 网络芯片,面向万级机架规模的横向扩展。

在 AMD 的设计中,Venice 不只是服务器 CPU,而是 AI 机架级系统里的“中枢处理器”,决定整个集群能否高效运转。

参考链接:

https://www.youtube.com/watch?v=UbfAhFxDomE&list=TLGGBbam0h3MCckwNjAxMjAyNg&t=3063s

https://www.techtimes.com/articles/313772/20260105/amd-ceo-lisa-su-declares-ai-everyone-ces-2026-guests-openai-luma-ai-liquid-ai-world-labs.htm

https://www.amd.com/content/dam/amd/en/documents/corporate/events/amd-ces-2026-distribution-deck.pdf

来源文章:

快速阅读:


📌 转载信息
原作者:
okokxw
转载时间:
2026/1/5 12:21:43