编程实测:杀疯了的 GPT-5.5 真的有它说的那么强么?
北京时间 4 月 24 日 凌晨,OpenAI 正式发布新一代旗舰模型——GPT-5.5。官方介绍中,OpenAI 给的定义非常直接: 从官方公布的数据来看,GPT-5.5 这次不只是单项能力提升,而是在多个核心性能上形成了系统性进步。 按照官方文档,GPT-5.5 的提升主要集中在 Agentic coding、Knowledge work、Scientific research、Long context、推理效率和 Cybersecurity 等方向。数据较 GPT-5.4 有明显提升,并在多个项目上领先于老对手 Claude Opus 4.7 和 Gemini 3.1 Pro: 在 Artificial Analysis 的测评中,GPT-5.5 综合能力已重新领跑: 如果说 GPT-5.5 的总方向是"更会完成任务",那么最先体现出这种变化的,还是编程。 Agentic coding 是 GPT-5.5 最核心的亮点之一。OpenAI 称其为目前最强 Agentic Coding 模型。 它不只是 Coding 工具,而是能在 Codex 中承担更完整工程任务链:功能实现、代码重构、调试、测试、验证,甚至在大型代码库中持续代码迭代。GPT-5.5 的编程成绩全面高于 GPT-5.4: 其中,Terminal-Bench 2.0 考察复杂命令行工作流中的规划、迭代和工具协同能力;SWE-Bench Pro 面向真实 GitHub issue 解决;Expert-SWE 则是 OpenAI 内部长周期工程任务评测。 GPT-5.5 的第二个关键提升,是从编程扩展到更广泛的 knowledge work 和 computer use。 面对复杂任务,GPT-5.5 可自行规划、调用工具、检查结果,并跨工具推进到完成。在相关评测中,其表现突出: 这些指标覆盖了专业知识工作、真实电脑环境操作、复杂客服流程、工具调用和多模态任务。结合 Codex 的 computer use 能力,GPT-5.5 已经不只是生成文本,而是能够看屏幕、点击、输入、导航界面,在不同软件和工具之间移动,逐步形成"视觉—语言—动作"的闭环。 GPT-5.5 在 early scientific research 场景中的能力也有明显增强。数据显示,其科研与高难推理能力相比 GPT-5.4 明显提升: GPT-5.5 甚至参与发现了一个关于拉姆齐数的新证明,并已在 Lean 中验证。其能力已开始从"解释知识"走向"产生新知识"。 GPT-5.5 在上下文能力上进一步提升,API 最高支持 1M token context window,Codex 提供 400K context window。更关键的还在于它的准确性,根据 OpenAI MRCR v2 8-needle 测试,GPT-5.5 在不同长度区间表现如下: 相比之下,GPT-5.4 在 512K–1M 区间仅为 36.6%。 GPT-5.5 在能力提升的同时,依然维持了接近 GPT-5.4 的服务速度。OpenAI 表示,其在真实环境中的 per-token latency 基本持平,但整体智能水平更高。 在效率上,GPT-5.5 在 Codex 任务中用更少 token 完成相同的工作,减少重复尝试和冗余输出。 基础设施层面,GPT-5.5 基于 NVIDIA GB200 和 GB300 NVL72 systems 协同设计与部署,推理系统也进行了整体重构。通过 Codex 分析生产流量并生成自定义负载均衡与分区算法,token 生成速度提升超 20%。 同时,GPT-5.5 还参与了推理栈关键优化的发现与实现,使得模型能力与系统效率得以协同提升。 随着能力增强,GPT-5.5 也配套更严格的安全机制。OpenAI 表示,这是截至目前最强的一套 safeguards,并经过完整安全评估、红队测试及约 200 个早期合作伙伴验证: 数据说明了 GPT-5.5 的上限,但真正的产品体验,还得看具体任务里能不能稳定交付。 我们让 GPT-5.4 和 GPT-5.5 用同一个 prompt,生成一个"满屏彩色烟花秀"的单文件 HTML。 约束:只能使用 HTML 和 CSS,禁止 JavaScript、Canvas、SVG 及任何第三方库。烟花的升空、爆炸、散开、闪烁全靠 CSS 实现。这极度考验模型对 CSS 关键帧和渲染机制的理解。 这个测试主要看三点: 两款模型均按要求输出了纯 CSS 代码。从代码结构看,GPT-5.5 的实现更偏向利用 CSS 动画节奏、阴影和缓动曲线来塑造烟花的扩散与下坠感,视觉层次相对更自然。 如果说烟花测试考验的是强约束下的动效实现,那么第二个案例更接近真实产品开发: 90 秒快闪:GPT-5.4 VS GPT-5.5,谁做的微信红包更像真的? 我们让 GPT-5.4 和 GPT-5.5 在同等条件下完成这个任务:生成一个「微信聊天界面 + 红包开启动画」的单文件 HTML。 规则:同一个 prompt、同一档 Thinking、不允许外部依赖,只看最终交付效果。 评测重点不在"能不能写出来",而在更接近真实开发的三点: 两款模型均给出了可运行的单文件 HTML。GPT-5.4 实现了基础的图文排版和点击翻转动效;GPT-5.5 对 UI 细节(气泡圆角、色值、比例等)的还原度相对更高。这类差距不是能不能跑的问题,而是模型是否理解真实产品中的视觉层级、交互反馈和默认细节。 虽然单价较 GPT-5.4 明显上涨,但 OpenAI 强调 GPT-5.5 在 Codex 任务中 token 使用更少,因此实际完成任务的总成本不会等比例增加。 通过官方数据和实测,我们能明显感受到:GPT-5.5 正在跨过从"聊天工具"到"执行代理(Agent)"的边界。 面对纯 CSS 动效这种强约束任务,或"做一个像微信红包"的模糊产品需求,它展现出的不只是代码生成能力,而是对约束、上下文、交互细节和产品质感的综合理解。 对开发者来说,这才是 GPT-5.5 最值得关注的地方:它不只是更会写代码,而是更接近一个能参与交付的工程协作者。We're releasing GPT‑5.5, our smartest and most intuitive to use model yet, and the next step toward a new way of getting work done on a computer.
GPT-5.5——这是我们迄今为止最聪明、最易上手的模型,也宣告我们朝着一种全新的人机协作方式迈出重要一步。
核心能力全面升级,Agent 能力成为主轴


1. Agentic coding

2. Knowledge work & computer use:AI 开始真正「用电脑」

3. Scientific research:从信息检索走向「研究协作」

4. Long context:百万级窗口更接近实用
上下文长度 准确率 4K–8K 98.1% 128K–256K 87.5% 512K–1M 74.0% 5. 推理效率:模型与基础设施的协同升级
6. 安全能力:安全机制升级

案例一:GPT-5.5 跑一个 CSS-only 烟花

案例二:GPT-5.5 做的微信红包真不真?

GPT-5.5 多层定价体系
模型 Input Output Context Window GPT-5.5(标准版) $5 / 1M tokens $30 / 1M tokens 1M GPT-5.5 Pro $30 / 1M tokens $180 / 1M tokens 1M 总结
参考资料