标签 GPT-5 下的文章

神同步OpenAI!中国团队Deep Principle领衔发布LLMs for Science评测,引爆外网

0%
icon展开列表
面向临床的心电图AI,上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破
今天
img
神同步OpenAI!中国团队Deep Principle领衔发布LLMs for Science评测,引爆外网
今天
img
美团又上新模型,8个Thinker齐开工,能顶个诸葛亮?
今天
img
失去三个联创后,Mira公司危机持续:又有两人要出走
今天
img
不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化
今天
img
支付宝携手千问App、淘宝闪购等发布中国首个AI商业协议ACT
今天
img
刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家
今天
img
腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍
今天
img
DeepSeek连发两篇论文背后,原来藏着一场学术接力
今天
img
仅需一个混频器的无线射频机器学习推理,登上Science Advances!
今天
img
国内首个可复现!萝博派对公开人形机器人 “从 0 到跑” 全开源方案
01月15日
img
联发科天玑9500s、8500发布:GPU、光追拉满,红米Turbo 5Max将搭载
01月15日
img
通用级PixVerse P1的技术突破,揣着进入平行世界的密码
01月15日
img
Mira公司内乱?CTO被开除,带团队回OpenAI,翁荔上推发言
01月15日
img
Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
01月15日
img
刚刚,喝到了千问APP给我点的奶茶
01月15日
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
01月15日
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
01月15日
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
01月15日
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
01月15日
img

神同步OpenAI!中国团队Deep Principle领衔发布LLMs for Science评测,引爆外网

作者丨论文团队

编辑丨ScienceAI

最近,一篇由中国团队领衔全球 24 所 TOP 高校机构发布,用于评测 LLMs for Science 能力高低的论文,在外网炸了!

当晚,Keras (最高效易用的深度学习框架之一)缔造者 François Chollet 转发论文链接,并喊出:「我们迫切需要新思路来推动人工智能走向科学创新。」

图片

AI 领域 KOL Alex Prompter 分享论文核心摘要后,NBA 独行侠队老板 Mark Cuban 跟帖转发,硅谷投资人、欧洲家族办公室、体育媒体同时涌进评论区。

图片

仅一夜,累计阅读量逼近 200 万。

值得一提的是,同一时间窗里,OpenAI 也发布了对于 AI 在科学发现领域能力评测的论文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述,指出现有评测标准在 AI for Science 领域失灵。

图片

神同步 OpenAI、海外讨论出圈,究竟是什么样的一份工作成果,搅动了全球 AI 舆论场?

AI 距离可以助力科学发现还有多远?

前段时间,美国推出「创世纪计划」,号称要调动「自阿波罗计划以来最大规模的联邦科研资源」,目标是在十年内将美国科研的生产力和影响力翻倍。

但在人工智能估值泡沫隐现、能耗与产出比饱受质疑的当下,一面是资本的狂欢,另一面却是 AI 能力困于「文生图」等表层应用的尴尬;一面是各类大语言模型频繁霸榜 GPQA、MMMU 等题库式 Benchmark 的层出不穷,另一面却是现有 LLMs 还无法准确解析简单核磁图谱的尴尬现状。

人们不禁要问:能在题库拿高分,就能助力科学发现吗?现在的模型距离科学发现还有多远?究竟什么样的 AI 模型可以胜任,拓宽人类的生存边界?这些讨论,在中美 AI 竞争白热化的当下变得愈发浓烈。

在此背景下,由中国 AI for Science 领域的初创企业「深度原理 Deep Principle」领衔麻省理工学院、哈佛、普林斯顿、斯坦福、剑桥、牛津等全球 24 所科研院校共同发布的《Evaluating LLMs in Scientific Discovery》论文,正式回答该时代之问。

论文推出了 LLM for Science 首套评测体系 SDE(Scientific Discovery Evaluation),从科学问题到研究项目,对 GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 等全球主流大语言模型在生物、化学、材料、物理领域的科学研究与发现能力完成摸底。

图片

同以往评测体系不同的是,SDE 对模型能力的考量,从简单的问答式,引向了具体的「假设 -> 实验 -> 分析」实验场景。

研究发现,GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均准确率 50–70%,远低于它们在 GPQA、MMMU 等题库上的 80–90%;在 86 道「SDE-Hard」难题中,最高分不足 12%,共同暴露出多步推理、不确定性量化和实验与理论闭环的短板。

更值得警惕的是,模型规模与推理能力的提升已呈现明显的「边际效益递减」。

GPT-5 相较于前一代模型,参数规模和推理算力显著增加,但在 SDE 基准的四大科学领域中,平均准确率仅提升 3%-5%,部分场景(如 NMR 结构解析)甚至出现性能下滑。

换句话说,当前大语言模型在推动科学发现方面的表现,还不如一个普通的本科生。

能领衔 24 所顶尖科研院校发布的背后团队是谁?

《Evaluating LLMs in Scientific Discovery》论文通讯作者段辰儒,是「深度原理 Deep Principle」创始人兼 CTO。早在 2021 年,在 MIT 攻读化学博士期间,他就已在图灵奖得主 Yoshua Bengio 的支持下,发起了 AI for Science 社区的建立,并在 NeurIPS 上举办 AI for Science workshop。

2024 年初,他与 MIT 物理化学博士贾皓钧回国,共同创立「深度原理 Deep Principle」。贾皓钧任 CEO,段辰儒任 CTO,两人虽为 95 后,但已在全球 AI for Science 创业领域小有名气。

创业一年半以来,其已获得线性资本、高瓴创投、蚂蚁集团等多家知名机构的投资,且与晶泰科技、深势科技等 AI for Science 领域的知名企业建立战略合作关系。

「深度原理 Deep Principle」从创立之初,就带着全球 AI for Science 头部研究者们的期待。目前「深度原理 Deep Principle」已深入全球材料研发中的第一线,将生成式人工智能同量子化学结合起来,致力于推动材料发现等领域进入新纪元。

在过去的一年中,他们在 Nature 大子刊和 JACS 等顶级期刊上不断扔出重磅成果,宣告着他们的技术领先和开放交流的「95 后创业公司」心态。从开拓扩散生成模型(Diffusion Models)在化学反应的生成,证明「不止要生成材料,更需要生成材料的合成路径」,到机器学习势(Machine Learning Potentials, MLPs)和扩散生成模型的直接对比,证明传统的机器学习势不是「万能」的,再到现在组织各大顶级学者和高校推出 SDE,证明传统一问一答的 Benchmark 不能带领我们走向科学超级智能,精准切入 AI for Science 领域的核心冲突。

但同时,对于所有的 AI4S 公司而言,在商业真金白银的检验中,AI 能否真正解决新产品研发问题、满足客户期待,是日复一日必须面对的拷问。

随着与行业头部客户的商业化合作落地,「深度原理 Deep Principle」的数据库中已经汇聚了来源于客户与自己实验室、大量来自第一线的真实工业研发场景数据和模型应用经验。

学术圈的深耕与在 AI for Science 商业化第一线的积累,让「深度原理 Deep Principle」在提出要构建一把新尺子评测 LLMs for Science 能力时,一呼百应,摇来了 23 家全球 TOP 科学发现机构的 50 余位科学家,成立了制定 SDE 的「梦之队」。

这其中,不乏活跃在 LLM 领域的大牛学者们,比如:

  • 孙欢(Huan Sun),MMMU 发起人,俄亥俄州立教授

  • 杜沅岂(Yuanqi Du),康奈尔博士,AI4Science 社区「运营大管家」

  • 王梦迪,普林斯顿最年轻教授,AI+Bio Safety 先驱者

  • Philippe Schwaller,IBM RXN 之父,EPFL 教授

而「深度原理 Deep Principle」前期积累的科学发现场景,成为了后来 SDE 评测体系的前身。

在经历近 9 个月的跨高校跨学科跨时区的协作后,《Evaluating LLMs in Scientific Discovery》论文正式发布,通讯单位赫然写着:深度原理,杭州,中国。  

图片

自此,汇聚着全球顶级科学发现机构的集体智慧,来自中国的创业团队「深度原理 Deep Principle」,和大洋彼岸的 OpenAI,同时站在了向 AI for Science—— 这一人类通往终极 AGI 顶峰攀登的起跑线。

或许千百年后,当人类回望 AGI 时代,在 21 世纪的四分之一结束的当口,这场由中美团队共同呼应的,对于 AI for Science 的严肃讨论,把 LLMs 在各类问答式榜单上的内卷,向真正科学发现的星辰大海推近了一步。

至于怎么通往彼岸,段辰儒表示:「当大语言模型在各种科学问答榜单表现饱和,但还不能有效支持科学发现时,就像『考试成绩好』不等于『顶级研究者』,说明我们需要新的评测体系与训练路径。」

「深度原理 Deep Principle」与 20 多所机构的 50 多位合作者的研究证明了,目前 LLM 的发展路径并不能「顺便攻克」科学发现。

这条通往科学超级智能之路,需要更多有识之士共同并肩而行。

Coding agents(编码智能体) 已成为应用型 AI 中最活跃的领域之一,但许多团队在模型或服务商更迭时,仍不断重复构建脆弱的基础设施。那么,如何在生态不断变化的背景下保持快速迭代与高度韧性,并将更多精力投入到领域特定的工作流程和用户体验上?

作为行业内的动向标杆,OpenAI 的 Codex 提出了解决方法——“模型和 Harness(工具集)的共同构建”。最近,OpenAI 的架构师 Bill Chen 和 Brian Fioca 在演讲里一起详细介绍了该构建过程中克服的挑战,以及这个 Coding Agent 本身一些新兴的使用模式。基于该演讲视频,InfoQ 进行了部分删改。

核心观点如下:

  • 通过将模型与 Harness 一同开发,你能更好地理解它的行为,这也是 Codex 作为一个集成了模型和 Harness 的系统的优势所在。

  • 单纯在模型上构建包装器,忽视了基础设施层的整体价值。将精力集中在让产品脱颖而出的差异化功能上,才是这种模式的核心价值所在。

  • 未来将是关于庞大代码库和非标准库的时代,如何在闭源环境中工作,如何匹配现有模板和实践,模型将不断支持这些能力。

Coding Agent 的构成

首先,我们来谈谈 Coding Agent 的构成。其实非常简单,一个 Coding Agent 由三部分组成:用户界面、模型和 Harness。用户界面显而易见,可能是命令行工具,也可能是集成开发环境,或者是云端或后台 Agent。模型也很直白,比如我们最近发布的 GPT-5.1 系列模型或其他一些供应商的模型。至于 Harness,这是一个稍微复杂一点的部分,它直接与模型交互,最简化地说,可以将其看作是由一系列提示和工具组合而成的核心 Agent 循环,它为模型提供输入和输出。

Coding 领域是应用人工智能最活跃的前沿之一,而随着新模型的不断发布,我们面临的挑战也在增加。更为复杂的是,大家不得不不断调整 Agent 以适应新发布的模型。

接下来我们将聚焦于 Harness 的部分。Harness 是模型的接口层,它是模型与用户、代码之间进行交互的媒介。它包括了模型需要的所有组件,以便在多轮对话中进行工作,调用工具,并最终为你编写代码,解读用户的需求。对一些产品来说,Harness 可能是其中的关键部分。不过,构建一个高效的 Harness 并不是一件轻松的事。

那么,构建 Harness 过程中遇到的挑战有哪些呢?首先是 AV(音视频工具)问题。你可能会为 Agent 提供一个全新的、创新的工具,但它可能是模型之前从未见过的,它可能并不擅长使用这种工具。即使它曾经见过,你也需要花时间根据该模型的特点调整 Prompt。

新模型不断发布,延迟问题也是一个挑战。模型在处理某些问题时需要时间,那么,我们应该如何设计提示,避免延迟过长?如何在用户体验上展示模型思考的过程?它在思考时是否与用户沟通,还是我们需要总结其输出结果?此外,管理上下文窗口和数据压缩也是一大难题。另外,API 接口也在不断变化,现在我们有完成功能、响应功能,以及未来可能出现的其他功能,模型是否能熟练使用这些工具以便发挥最大的智能也是一个问题。

将模型适配到 Harness 中需要大量的 Prompt 设计。实际上,模型的训练方式会带来一些副作用。我喜欢这样理解:(Steerability = Intelligence + Habit)智能加上习惯。一方面,智能是指:模型擅长什么?熟悉哪些编程语言?在某些框架中,模型能把代码写得多好?另一方面,它又养成了哪些习惯来解决问题?我们在训练模型时,培养了它在规划解决方案、查找背景信息、思考问题后再动手写代码,并在最后测试工作的习惯。

理解这些习惯是成为一名优秀的 Prompt 工程师的关键。如果你没有按照模型熟悉的方式来指导它,可能会遇到问题。当我们发布 GPT-5 时,许多不习惯使用我们模型的人,尝试将其他模型的 Prompt 直接套用到我们的 Harness 中,结果发现我们的模型做的事情比其他模型要更为细致,导致了响应速度慢,效果不如预期。我们最终发现,如果让模型按照它习惯的方式进行工作,而不是过度引导,它的表现会更好。通过与模型的对话,我问它:“我喜欢这个解决方案,但它花了太长时间。下次你能做得更快吗?”模型回答说:“你让我去看所有的内容,其实我并不需要这样做,正是因为这个原因,才耗费了这么长时间。”

因此,通过将模型与 Harness 一同开发,你能更好地理解它的行为,这也是 Codex 作为一个集成了模型和 Harness 的系统的优势所在。

Codex 作为 Harness/Agent

Codex 被设计成一个适用于各种编程环境的 Agent,它可以作为 VS Code 插件、CLI 工具使用,甚至可以通过 VS Code 插件或手机上的 ChatGPT 在云端调用。它的功能非常基础:你可以通过提示将想法转化为可运行的代码,具备规划能力。它能在代码仓库中导航并编辑文件,执行命令和任务,你也可以从 Slack 或 GitHub 上调用它来审查 PR。

这意味着 Codex 的 Harness 需要能够完成许多复杂的任务:需要处理并行工具调用、线程合并等问题,还要考虑安全性,例如沙箱管理、提示语转发、权限设置、端口管理等。数据压缩和上下文优化的管理也非常复杂。何时触发压缩,何时重新注入数据,如何优化缓存,所有这些都是必须要解决的挑战。如果你要从零开始构建这些功能并保持其更新,工作量巨大。幸好,我们已经将这些功能集成到一个 Agent 系统中,它能安全地编写自己的工具来解决遇到的新问题。

这听起来比普通的 Coding Agent 强大多了,不是吗?但想想看,其实在浏览器和图形用户界面出现之前,我们操作计算机的方式不就是通过命令行界面写代码并将其串联起来吗?这意味着,如果你能将任务以命令行方式以及文件任务的形式表达出来,Codex 就能知道该如何执行。

举个例子,我喜欢使用 Codex 将我的桌面上的照片整理到一个文件夹里,这是一个非常简单的应用场景。但它还能做的不仅如此,它能够分析文件夹中大量的 CSV 文件,进行数据分析,这并不一定是 Coding 任务,只要能够通过命令行工具来完成,Codex 就能帮你做。现在我们可以看到,Codex 是如此强大和有趣。

用 Codex 构建自己的 Agent

如果你希望将 Codex 集成到自己的 Agent 中,该如何操作呢?如果你打算创建下一个 Coding 初创公司,一个关键的模式是:Harness 成为新的抽象层。这个模式的好处非常明显,你不再需要在每次模型升级时都优先优化提示语和工具。但这是不是意味着你仅仅是在构建一个包装器呢?不是。正如我所说,单纯在模型上构建包装器,忽视了基础设施层的整体价值。将精力集中在让产品脱颖而出的差异化功能上,才是这种模式的核心价值所在。

我们来看看一些我们与客户合作时所遇到的模式,这些模式实际上帮助他们成功构建了产品。Codex 是一个 SDK,你可以通过 TypeScript 库来调用它,也可以通过 Python 执行它。它还提供了一个 GitHub 动作,能够自动合并 PR 中的冲突,解决大家讨厌的合并问题。此外,你还可以将它添加到 AgentSDK 中,并为你的产品提供 MCP 连接器。这样,你就可以拥有一个 Agent 系统。

我喜欢说,我们从最初的聊天机器人开始,它们能与用户对话;然后我们为这些聊天机器人提供了使用的工具;如今,你可以为聊天机器人添加更多工具,使它能够自己生成尚未拥有的 Harness。现在,你可以构建一个企业级的软件,允许它为每个客户即时编写插件连接器,这曾是专业服务团队的工作。你可以获得完全可定制的软件,且它可以与自己对话。我曾为开发日创建了一个看板,它能够自动修复自己的 bug,非常有趣。

 

最后,你也可以像 Zed 一样,将 Codex 嵌入到一个层级中,为 IDE 提供接口,使其能够与用户互动并进行代码编辑。这样,Zed 就不必处理我们擅长的部分,而是可以专注于打造最好的代码编辑器。

我们的顶级合作伙伴,如 GitHub,已经利用这些模式取得了巨大成功。我们为 GitHub 创建了一个 SDK,允许他们直接与 Codex 集成。你也可以使用这个 SDK 将 Codex 作为你 CI/CD 管道的一部分,或者将它作为与自己 Agent 直接互动的工具。如果你想定制 Agent 层,完全可以这么做。举个例子,我们与 Cursor 团队紧密合作,他们将自己的 Harness 与我们开源的 Codex CLI 实现对接,成功地优化了系统性能,所有这些都是公开可用的,你可以克隆我们的代码库,随意使用。

Codex 的未来是什么样的呢?它还没有发布一年,尤其是在推出 Codex Max 之后,变化非常迅速。它目前是增长最快的模型,每周服务数十万亿个 token,这个数字从开发日以来翻了一番。我们可以合理假设,模型将变得更强大,它们能处理更长周期的任务,而且不需要监督。新模型的信任度将进一步提高,我相信这些模型已经能够处理比六个月前更复杂的工作,而且这种信任感将不断增长。

未来将是关于庞大代码库和非标准库的时代,如何在闭源环境中工作,如何匹配现有模板和实践,模型将不断支持这些能力。SDK 也将不断发展,以更好地支持这些模型的能力,使模型能够在执行任务的过程中不断学习,避免重复错误,并为写代码和使用终端解决问题的 Agent 提供更多支持,你将能够通过 SDK 在自己的产品中使用这一切。

那么,我们从中学到了什么呢?Harness 构建非常复杂,特别是在新的模型不断发布的背景下。我们已经为你在 Codex 里构建了一个集成的工具,你可以直接使用它,或者查看源代码自行改进。除 Coding 以外,通过它你还可以构建更多全新功能,而我们会处理确保你的计算机 Agent 具备最强的能力。同时,我们非常期待看到你们用它创造出的产品。

参考链接:

https://www.youtube.com/watch?v=wVl6ZjELpBk

众所周知,gpt5 系列的长思考一直被诟病,在之前,由于没有回传思考,导致 gpt 的每次对话都要重新思考,会导致时间的大幅浪费

然而目前 kilo roo 等对于 gpt 系列又不会回传思考签名,所以就只能自己做了

gpt 本身其实也提供了回传思考签名的方法,需要走 responses 格式的接口

实际体验来说,确实如预期那样,整体思考时间大幅缩减,只会在首次几轮存在长思考的情况,后续长思考就几乎没有了:

开头几轮:

之后:


和在 cursor 里的 gpt 表现一致,所以建议使用 gpt 时,尽量使用能支持回传思考签名的

gpt 本身 debug 的能力是比 claude 要更强的

一回合做出来的效果:

测试使用的插件来自:


📌 转载信息
原作者:
Lianues
转载时间:
2026/1/6 12:07:23

目录帖:

本章以开源 / 闭源模型为划分,介绍一下日常使用及评估的经验。本节可能较为主观,请各位看官也要多多结合自身体感及实际业务体验来评判。

闭源模型:一种循环

目前实现了 SOTA(State of the Art,特定领域或任务中,当前的最新进展和最高水准,基本上是各家自称)的闭源模型厂主要有如下几家(豆包除外,稍后单讲):

公司 / 机构AI 模型系列
OpenAIGPT 系列
GoogleGoogle Gemini 系列
AnthropicClaude 系列
xAIGrok 系列
阿里巴巴通义千问系列
字节跳动豆包系列

这几家基本上每隔一段时间就宣称自己发布了最强大的 xx 模型,以至于形成了一种循环。当然 SOTA 这个词很微妙,最新最大杯的模型未必就最适合你。下面按照模型家族介绍一下本代的各种主力型号的特点(截至 2026 年 1 月 4 日):

OpenAI GPT:冷静的理性思考

自从迈入 GPT-5 时代以来,GPT 系列模型就以回复简短闻名。从好的方面看,OpenAI 做到了省 output token(输出 token 数),这使得任务总体所需时间进一步得到压缩。然而代价是冷漠到近乎不近人情的回复使得创意写作用户不得不忍痛抛弃它。后续推出的编码特化模型 gpt5-codex 模型进一步强化了这个特征,有时候描述性文字几乎已经不能称之为人话了。好在 GPT-5.2 系列在一定程度上解决了这个问题,虽然比起 GPT-4.5 甚至 GPT-4o 系列模型给人在 Chat 上的主观感受仍有差距,但已经较为可用。

OpenAI 作为 LLM 的领头羊,服务压力自然是很大的,无论是网页还是 API 都可能会有服务异常的情况。为了解决这个问题,GPT-5 系列在网页端给出的解决方案是自动路由(其实就是超级降智)。然而,对于指定了特定型号的 API 用户来说,GPT-5 系列模型的推理速度仍然显得相对较慢。

说完了缺点,那么剩下的基本上全是优点。回复简短意味着完成同等任务下所需 tokens 更少,冷静的理性思考带给人一种指哪打哪的感觉 —— 不废话,just do it。比起 GPT-4 时代的人味儿来说,GPT-5 更像一名理工男。当然,它是一名后端理工男,在审美上未必有多好的品味。

模型名称模型 ID上下文长度最大输出长度备注
GPT-5.2 Thinkinggpt-5.2gpt-5.2-2025-12-11400K128K最高推理强度,支持 reasoning 参数(大杯)
GPT-5.2 Progpt-5.2-pro400K128K企业级最高准确度,支持 xhigh reasoning(超大杯)
GPT-5.2 Chat (Instant)gpt-5.2-chat-latest128K16KChatGPT“GPT-5.2 即时” 模式,延迟最低(其实就是小杯,很蠢)
GPT-5.2 (base)gpt-5.2400K128K通用旗舰版,默认 reasoning=medium(中杯)
GPT-5.2-Codexgpt-5.2-codex400K128K代理式编码专用,支持上下文压缩与视觉输入
GPT-5.1-Codex-Maxgpt-5.1-codex-max400K128K支持 “压缩” 技术,可跨多窗口连贯处理数百万 tokens,专为长时间、项目级编码任务设计

这里需要特别注意的是,gpt-5.2-codex 并非代码万灵药。如果你不太会写 prompt 或者这个工程需要范围更广的探索思考,那么 gpt-5.2 可能会比 codex 变体好用些。codex 更突出指哪打哪的能力,而 gpt-5.2 会主动帮你多想些。换句话说,改 bug 用 gpt-5.2-codex,新开工程 / 模块用 gpt-5.2。推荐写后端或复杂的前端逻辑时使用 GPT 系列模型。

Google Gemini:多模态和世界知识之王

牢谷坐拥无尽的网络资源宝库以及 Deepmind+TPU 的神秘力量加持,尽管在 LLM 时代赶了个晚集,但从 Gemini 2.0 开始一路猛追,到了 2.5 时代已经是妥妥的御三家之一。Gemini 的多模态能力令人惊叹,Pro 系列的世界知识更是让人折服。比起 GPT 来说,Gemini 更像一名文科生:大参数带来的丰富世界知识给了它更强的文学理解能力,思考之细腻和情感共鸣能力使得它成为创意写作的最优选。当接入 Chatbot 的时候,你甚至可能没法分清它到底是 AI 还是人 —— 太能接梗了。

大家都不知道 Gemini Pro 系列的参数到底有多大,目前普遍认为 1T 以上。然而推理速度比起其他各家大参数模型来说又快的离谱,疑似 Jeff Dean 在机房里手敲(其实应该是 TPU 的特点所致)。总之,如果你想选择一款有超强的世界知识并且对推理速度有一定要求的模型,那么 Gemini 系列是毋庸置疑的选择。

Gemini 3.0 Pro 从内部测试阶段就不断炸场,多模态 + 大参数写出的前端效果惊艳了所有关注 AI 前沿动向的人。尽管 Gemini 3.0 Pro 存在较为严重的长上下文幻觉问题,但瑕不掩瑜,它依然是现在最适合前端的模型。

Gemini 3.0 Flash 推出后,甚至神秘地实现了某种程度上对 Pro 的反杀,几乎和 Pro 一样丰富的世界知识和更好的编码能力。下克上?搞不懂牢谷。

模型名称模型 ID上下文长度最大输出长度备注
Gemini 3 Progemini-3-pro1000K (1M)64K旗舰模型。最强多模态推理与编码能力,支持 high 深度思维模式。前端很强非常强!但受限于长上下文幻觉,后端稀烂(相比其他两家)
Gemini 3 Flashgemini-3-flash1000K (1M)64K速度旗舰。专为 Agent 设计,支持 minimal/medium 等多级思维调节。Flash 反杀 Pro!大部分搬砖的活计用 Flash 就够了,速度飞快。
Gemini 2.5 Progemini-2.5-pro1000K (1M)64K2.5 世代旗舰。具备极强的长文本召回能力。(前面是官方说法,实际上各家长文本都一坨)
Gemini 2.5 Flashgemini-2.5-flash1000K (1M)64K2.5 世代均衡版。高吞吐量,默认支持长上下文处理。
Gemini 2.5 Flash-Litegemini-2.5-flash-lite1000K (1M)64K极致性价比。针对极低延迟任务优化,是目前最廉价的百万上下文模型。

Anthropic Claude:最均衡的编码代理模型

Anthropic,又称 A÷ / A 畜,大家很熟悉了,神一样的 Coding Agent,翔一样的口碑和服务可用性。抛开立场不谈,最早的 Claude 模型以创意写作闻名,比起同期的 GPT-3.5 来说回答更有人味。后来 Claude 率先扩展了长上下文窗口以及 STEM 能力,走向了编码特化的不归路。到了 Claude 3 时代开始就是彻头彻尾的 Coding 模型了,直到现在的 Claude 4.5 成为了最均衡的编码代理模型 —— 如果你想前后端一把抓,选它准没错。强大的规划能力能够给出更适合工程上的方案,在各种场景下都能很好的完成目标。跑分没赢过,体验没输过。尽管日常处于即将被超越的状态,但还没被超越不是吗?(对标苹果!)

模型名称模型 ID上下文长度最大输出长度备注
Claude 4.5 Opusclaude-4-5-opus-20251124200K64K支持 effort 参数调节推理强度。编码与科研任务首选(超大杯)(反重力反代优选)
Claude 4.5 Sonnetclaude-4-5-sonnet-20250929200K / 1000K*64K专为复杂 Agent 与项目级代码设计,性能超越早期 Opus 4(中杯)(对于反重力用户来说,有 Opus 谁用 Sonnet)
Claude 4.5 Haikuclaude-4-5-haiku-20251014200K64K路边一条,官方说具备 Sonnet 4 级别的性能,但被 Gemini Flash 家族打出 shi 来了

注:只有官方 Max 订阅才有 1000K 上下文,大部分渠道都是 200K 的上下文,比如反重力逆向或 Kiro 逆向。

xAI Grok:力大砖飞,以及瑟瑟

马斯克也许缺乏品味,但他足够有钱。Grok 好不好用先放一边,超大规模的显卡集群是实打实存在的。这个系列一直秉持力大砖飞的原则,猛堆参数。迫于 Scaling law 的存在,就算是几百头猪,炼进 Transformer 里也能出些成果了罢。

Grok 在某些领域有着和 Gemini 系列相似的特性:参数够大,很适合创意写作任务。Grok 4 家族拥有不俗的吐槽能力,在对齐上比起 a helpful assistant 来说更像一名沙雕网友。而且 Grok 背靠 X(aka Twitter),也有着丰富的语料及不错的搜索功能。对于老外来说,Grok 简直是全自动开盒器(is that true ? )

Grok 系列另一个令人津津乐道的地方就是极低的审查下限。在各家 API 中,Grok / Google Vertex / DeepSeek 是审查力度相对较低的。但到了网页端上 Grok 也保持极低的审查下限就很离谱,当然考虑到 X 网页端上你依然可以畅爽 NSFW… 好吧,Grok 适合搞瑟瑟是从娘胎里就带出来的本事。无需破甲,无需诱导,很黄很暴力。酒馆和各种文字扮演游戏的常客。

模型名称模型 ID上下文长度最大输出长度备注
Grok 4 Heavy (SuperGrok)grok-4-heavy256K8K - 16K多智能体协作系统,通过并行推理验证结果,推理强度最高(超大杯)
Grok 4.1grok-4.1256K16K2025 年底旗舰,主打高情商 (EQ) 与低幻觉率,创意写作能力很好(大杯)
Grok 4grok-4256K8K2025 年中发布的标准旗舰,原生支持多模态推理与实时 X 搜索
Grok 4.1 Fast (Long)grok-4.1-fast2,000K16K超长上下文版,支持 200 万 token,类似 Gemini Flash(中杯)
Grok 4 Fast (Instant)grok-4-fast2,000K30K极速 / 高性价比版,支持 reasoning 切换(可关闭推理以获得极低延迟,类似 Gemini Flash Lite,小杯)
Grok Code Fast 1grok-code-fast-1256K16K马斯克的钞能力,在一众编程模型当中显得平平无奇,但不要钱不要钱不要钱!速度很快,质量一般,体感跟 Gemini 2.5 Flash 差不多的性能,但在各种 Vibe Coding 客户端里都作为免费选项出现。

阿里 通义千问 & 字节跳动 豆包:能力先行还是产品先行?

阿里作为目前开源界当之无愧的扛把子,从 Meta 手中接过了开源的大旗。r/LocalLlama 如今已是 r/LocalQwen 的形状了。Qwen 家族分为开源模型和闭源模型两种。除了每代的超大杯(通义千问 Max)为闭源外,其他商业 API 均能找到对应的类似开源型号。通义千问的特点是极强的指令遵循能力和稀烂的产品。

Qwen 家族的模型在输出上总感觉缺了点味道。它不像 GPT 那样冷静简洁,不像 Gemini 那样细腻有人味,但也不像 DeepSeek R1 0120 那样放飞自我。很怪,AI 味很重,在大规模使用 RL 训练的 Qwen3 世代这个特点尤为显著。国模的通病之一在 Qwen 上有显著体现:思考时非常消耗 Token,甚至在 Instruct 模型上模型倾向于输出思维链,导致最终完成复杂任务时所耗 Token 相对较高。

但从另一个方面上来讲,Qwen 作为国内 AI 的 T0 选手,其模型非常适合国内企业落地开发使用:性价比适中、模型选择丰富、较好的服务稳定性,还有强大的指令遵循能力可以减轻不少开发难度。逻辑能力也相当不错。

阿里系除了主打的阿里云百炼平台提供的通义千问服务外,还有面向开发者的 modelscope(魔搭)、心流团队的 iFlow、面向 C 端的蚂蚁灵光系列,主打一个养蛊和乱拳打死老师傅。以下表格主要介绍闭源的通义千问 3 家族:

模型名称模型 ID上下文长度最大输出长度备注
Qwen3-Maxqwen3-max256K64K超大杯。非思考模式输出可达 64K,思考模式输出 32K。
Qwen-Plusqwen-plus1M32K大杯。百万级长文本支持,适合复杂任务推理。
Qwen-Flashqwen-flash1M32K中杯。兼顾百万级上下文与极速响应速度。
Qwen3-VL-Plusqwen3-vl-plus256K32K视觉大杯。支持高分辨率,单图最大 16,384 tokens。
Qwen3-VL-Flashqwen3-vl-flash256K32K视觉中杯。支持视觉推理模式,单图上限同 Plus。
Qwen-Longqwen-long10M32K长文本专家。支持 1000 万 token 超长输入。
Qwen3-Coder-Plusqwen3-coder-plus1M64K编码特化大杯。专为复杂编程设计,支持百万级上下文与 64K 超长输出。
Qwen3-Coder-Flashqwen3-coder-flash1M64K编码特化小杯。高效处理编程任务,具备极高的响应速度。

把目光转回到字节的豆包家族。阿里和字节基本上是截然相反的 —— 字节在 LLM 上的开源很少,可用的只有 Seed-OSS-36B,豆包底模也一直很一般。然而豆包的产品做的很好,在国内 C 端市占率遥遥领先。这当然得益于他们深耕多模态,但这可能和集团底色也有一定关系。如果你手机里需要一款不需要爬墙就很好用的 AI 应用,那我想应该是豆包没错了。但使用 LLM API?除非你的公司疯狂迷恋 Coze。

模型名称模型 ID上下文长度最大输出长度备注
Doubao-Seed-1.8doubao-seed-1-8-251215256K32K大杯。支持深度思考、多模态理解与工具调用,最长思维链达 64K。
Doubao-Seed-Codedoubao-seed-code-preview-251028256K32K编码特化。专为编程场景设计,支持深度思考与多模态理解。
Doubao-Seed-Litedoubao-seed-1-6-lite-251015256K32K中杯。兼顾生成效率与推理能力,支持结构化输出。
Doubao-Seed-Flashdoubao-seed-1-6-flash-250828256K32K小杯。具备视觉定位能力,适用于高频多模态交互。
Doubao-Seed-Visiondoubao-seed-1-6-vision-250815256K32K视觉中杯(也可能是大杯?)。侧重 GUI 任务与复杂多模态理解。

📌 转载信息
原作者:
flymyd
转载时间:
2026/1/4 16:55:38