标签 闭源模型 下的文章

目录帖:

本章以开源 / 闭源模型为划分,介绍一下日常使用及评估的经验。本节可能较为主观,请各位看官也要多多结合自身体感及实际业务体验来评判。

闭源模型:一种循环

目前实现了 SOTA(State of the Art,特定领域或任务中,当前的最新进展和最高水准,基本上是各家自称)的闭源模型厂主要有如下几家(豆包除外,稍后单讲):

公司 / 机构AI 模型系列
OpenAIGPT 系列
GoogleGoogle Gemini 系列
AnthropicClaude 系列
xAIGrok 系列
阿里巴巴通义千问系列
字节跳动豆包系列

这几家基本上每隔一段时间就宣称自己发布了最强大的 xx 模型,以至于形成了一种循环。当然 SOTA 这个词很微妙,最新最大杯的模型未必就最适合你。下面按照模型家族介绍一下本代的各种主力型号的特点(截至 2026 年 1 月 4 日):

OpenAI GPT:冷静的理性思考

自从迈入 GPT-5 时代以来,GPT 系列模型就以回复简短闻名。从好的方面看,OpenAI 做到了省 output token(输出 token 数),这使得任务总体所需时间进一步得到压缩。然而代价是冷漠到近乎不近人情的回复使得创意写作用户不得不忍痛抛弃它。后续推出的编码特化模型 gpt5-codex 模型进一步强化了这个特征,有时候描述性文字几乎已经不能称之为人话了。好在 GPT-5.2 系列在一定程度上解决了这个问题,虽然比起 GPT-4.5 甚至 GPT-4o 系列模型给人在 Chat 上的主观感受仍有差距,但已经较为可用。

OpenAI 作为 LLM 的领头羊,服务压力自然是很大的,无论是网页还是 API 都可能会有服务异常的情况。为了解决这个问题,GPT-5 系列在网页端给出的解决方案是自动路由(其实就是超级降智)。然而,对于指定了特定型号的 API 用户来说,GPT-5 系列模型的推理速度仍然显得相对较慢。

说完了缺点,那么剩下的基本上全是优点。回复简短意味着完成同等任务下所需 tokens 更少,冷静的理性思考带给人一种指哪打哪的感觉 —— 不废话,just do it。比起 GPT-4 时代的人味儿来说,GPT-5 更像一名理工男。当然,它是一名后端理工男,在审美上未必有多好的品味。

模型名称模型 ID上下文长度最大输出长度备注
GPT-5.2 Thinkinggpt-5.2gpt-5.2-2025-12-11400K128K最高推理强度,支持 reasoning 参数(大杯)
GPT-5.2 Progpt-5.2-pro400K128K企业级最高准确度,支持 xhigh reasoning(超大杯)
GPT-5.2 Chat (Instant)gpt-5.2-chat-latest128K16KChatGPT“GPT-5.2 即时” 模式,延迟最低(其实就是小杯,很蠢)
GPT-5.2 (base)gpt-5.2400K128K通用旗舰版,默认 reasoning=medium(中杯)
GPT-5.2-Codexgpt-5.2-codex400K128K代理式编码专用,支持上下文压缩与视觉输入
GPT-5.1-Codex-Maxgpt-5.1-codex-max400K128K支持 “压缩” 技术,可跨多窗口连贯处理数百万 tokens,专为长时间、项目级编码任务设计

这里需要特别注意的是,gpt-5.2-codex 并非代码万灵药。如果你不太会写 prompt 或者这个工程需要范围更广的探索思考,那么 gpt-5.2 可能会比 codex 变体好用些。codex 更突出指哪打哪的能力,而 gpt-5.2 会主动帮你多想些。换句话说,改 bug 用 gpt-5.2-codex,新开工程 / 模块用 gpt-5.2。推荐写后端或复杂的前端逻辑时使用 GPT 系列模型。

Google Gemini:多模态和世界知识之王

牢谷坐拥无尽的网络资源宝库以及 Deepmind+TPU 的神秘力量加持,尽管在 LLM 时代赶了个晚集,但从 Gemini 2.0 开始一路猛追,到了 2.5 时代已经是妥妥的御三家之一。Gemini 的多模态能力令人惊叹,Pro 系列的世界知识更是让人折服。比起 GPT 来说,Gemini 更像一名文科生:大参数带来的丰富世界知识给了它更强的文学理解能力,思考之细腻和情感共鸣能力使得它成为创意写作的最优选。当接入 Chatbot 的时候,你甚至可能没法分清它到底是 AI 还是人 —— 太能接梗了。

大家都不知道 Gemini Pro 系列的参数到底有多大,目前普遍认为 1T 以上。然而推理速度比起其他各家大参数模型来说又快的离谱,疑似 Jeff Dean 在机房里手敲(其实应该是 TPU 的特点所致)。总之,如果你想选择一款有超强的世界知识并且对推理速度有一定要求的模型,那么 Gemini 系列是毋庸置疑的选择。

Gemini 3.0 Pro 从内部测试阶段就不断炸场,多模态 + 大参数写出的前端效果惊艳了所有关注 AI 前沿动向的人。尽管 Gemini 3.0 Pro 存在较为严重的长上下文幻觉问题,但瑕不掩瑜,它依然是现在最适合前端的模型。

Gemini 3.0 Flash 推出后,甚至神秘地实现了某种程度上对 Pro 的反杀,几乎和 Pro 一样丰富的世界知识和更好的编码能力。下克上?搞不懂牢谷。

模型名称模型 ID上下文长度最大输出长度备注
Gemini 3 Progemini-3-pro1000K (1M)64K旗舰模型。最强多模态推理与编码能力,支持 high 深度思维模式。前端很强非常强!但受限于长上下文幻觉,后端稀烂(相比其他两家)
Gemini 3 Flashgemini-3-flash1000K (1M)64K速度旗舰。专为 Agent 设计,支持 minimal/medium 等多级思维调节。Flash 反杀 Pro!大部分搬砖的活计用 Flash 就够了,速度飞快。
Gemini 2.5 Progemini-2.5-pro1000K (1M)64K2.5 世代旗舰。具备极强的长文本召回能力。(前面是官方说法,实际上各家长文本都一坨)
Gemini 2.5 Flashgemini-2.5-flash1000K (1M)64K2.5 世代均衡版。高吞吐量,默认支持长上下文处理。
Gemini 2.5 Flash-Litegemini-2.5-flash-lite1000K (1M)64K极致性价比。针对极低延迟任务优化,是目前最廉价的百万上下文模型。

Anthropic Claude:最均衡的编码代理模型

Anthropic,又称 A÷ / A 畜,大家很熟悉了,神一样的 Coding Agent,翔一样的口碑和服务可用性。抛开立场不谈,最早的 Claude 模型以创意写作闻名,比起同期的 GPT-3.5 来说回答更有人味。后来 Claude 率先扩展了长上下文窗口以及 STEM 能力,走向了编码特化的不归路。到了 Claude 3 时代开始就是彻头彻尾的 Coding 模型了,直到现在的 Claude 4.5 成为了最均衡的编码代理模型 —— 如果你想前后端一把抓,选它准没错。强大的规划能力能够给出更适合工程上的方案,在各种场景下都能很好的完成目标。跑分没赢过,体验没输过。尽管日常处于即将被超越的状态,但还没被超越不是吗?(对标苹果!)

模型名称模型 ID上下文长度最大输出长度备注
Claude 4.5 Opusclaude-4-5-opus-20251124200K64K支持 effort 参数调节推理强度。编码与科研任务首选(超大杯)(反重力反代优选)
Claude 4.5 Sonnetclaude-4-5-sonnet-20250929200K / 1000K*64K专为复杂 Agent 与项目级代码设计,性能超越早期 Opus 4(中杯)(对于反重力用户来说,有 Opus 谁用 Sonnet)
Claude 4.5 Haikuclaude-4-5-haiku-20251014200K64K路边一条,官方说具备 Sonnet 4 级别的性能,但被 Gemini Flash 家族打出 shi 来了

注:只有官方 Max 订阅才有 1000K 上下文,大部分渠道都是 200K 的上下文,比如反重力逆向或 Kiro 逆向。

xAI Grok:力大砖飞,以及瑟瑟

马斯克也许缺乏品味,但他足够有钱。Grok 好不好用先放一边,超大规模的显卡集群是实打实存在的。这个系列一直秉持力大砖飞的原则,猛堆参数。迫于 Scaling law 的存在,就算是几百头猪,炼进 Transformer 里也能出些成果了罢。

Grok 在某些领域有着和 Gemini 系列相似的特性:参数够大,很适合创意写作任务。Grok 4 家族拥有不俗的吐槽能力,在对齐上比起 a helpful assistant 来说更像一名沙雕网友。而且 Grok 背靠 X(aka Twitter),也有着丰富的语料及不错的搜索功能。对于老外来说,Grok 简直是全自动开盒器(is that true ? )

Grok 系列另一个令人津津乐道的地方就是极低的审查下限。在各家 API 中,Grok / Google Vertex / DeepSeek 是审查力度相对较低的。但到了网页端上 Grok 也保持极低的审查下限就很离谱,当然考虑到 X 网页端上你依然可以畅爽 NSFW… 好吧,Grok 适合搞瑟瑟是从娘胎里就带出来的本事。无需破甲,无需诱导,很黄很暴力。酒馆和各种文字扮演游戏的常客。

模型名称模型 ID上下文长度最大输出长度备注
Grok 4 Heavy (SuperGrok)grok-4-heavy256K8K - 16K多智能体协作系统,通过并行推理验证结果,推理强度最高(超大杯)
Grok 4.1grok-4.1256K16K2025 年底旗舰,主打高情商 (EQ) 与低幻觉率,创意写作能力很好(大杯)
Grok 4grok-4256K8K2025 年中发布的标准旗舰,原生支持多模态推理与实时 X 搜索
Grok 4.1 Fast (Long)grok-4.1-fast2,000K16K超长上下文版,支持 200 万 token,类似 Gemini Flash(中杯)
Grok 4 Fast (Instant)grok-4-fast2,000K30K极速 / 高性价比版,支持 reasoning 切换(可关闭推理以获得极低延迟,类似 Gemini Flash Lite,小杯)
Grok Code Fast 1grok-code-fast-1256K16K马斯克的钞能力,在一众编程模型当中显得平平无奇,但不要钱不要钱不要钱!速度很快,质量一般,体感跟 Gemini 2.5 Flash 差不多的性能,但在各种 Vibe Coding 客户端里都作为免费选项出现。

阿里 通义千问 & 字节跳动 豆包:能力先行还是产品先行?

阿里作为目前开源界当之无愧的扛把子,从 Meta 手中接过了开源的大旗。r/LocalLlama 如今已是 r/LocalQwen 的形状了。Qwen 家族分为开源模型和闭源模型两种。除了每代的超大杯(通义千问 Max)为闭源外,其他商业 API 均能找到对应的类似开源型号。通义千问的特点是极强的指令遵循能力和稀烂的产品。

Qwen 家族的模型在输出上总感觉缺了点味道。它不像 GPT 那样冷静简洁,不像 Gemini 那样细腻有人味,但也不像 DeepSeek R1 0120 那样放飞自我。很怪,AI 味很重,在大规模使用 RL 训练的 Qwen3 世代这个特点尤为显著。国模的通病之一在 Qwen 上有显著体现:思考时非常消耗 Token,甚至在 Instruct 模型上模型倾向于输出思维链,导致最终完成复杂任务时所耗 Token 相对较高。

但从另一个方面上来讲,Qwen 作为国内 AI 的 T0 选手,其模型非常适合国内企业落地开发使用:性价比适中、模型选择丰富、较好的服务稳定性,还有强大的指令遵循能力可以减轻不少开发难度。逻辑能力也相当不错。

阿里系除了主打的阿里云百炼平台提供的通义千问服务外,还有面向开发者的 modelscope(魔搭)、心流团队的 iFlow、面向 C 端的蚂蚁灵光系列,主打一个养蛊和乱拳打死老师傅。以下表格主要介绍闭源的通义千问 3 家族:

模型名称模型 ID上下文长度最大输出长度备注
Qwen3-Maxqwen3-max256K64K超大杯。非思考模式输出可达 64K,思考模式输出 32K。
Qwen-Plusqwen-plus1M32K大杯。百万级长文本支持,适合复杂任务推理。
Qwen-Flashqwen-flash1M32K中杯。兼顾百万级上下文与极速响应速度。
Qwen3-VL-Plusqwen3-vl-plus256K32K视觉大杯。支持高分辨率,单图最大 16,384 tokens。
Qwen3-VL-Flashqwen3-vl-flash256K32K视觉中杯。支持视觉推理模式,单图上限同 Plus。
Qwen-Longqwen-long10M32K长文本专家。支持 1000 万 token 超长输入。
Qwen3-Coder-Plusqwen3-coder-plus1M64K编码特化大杯。专为复杂编程设计,支持百万级上下文与 64K 超长输出。
Qwen3-Coder-Flashqwen3-coder-flash1M64K编码特化小杯。高效处理编程任务,具备极高的响应速度。

把目光转回到字节的豆包家族。阿里和字节基本上是截然相反的 —— 字节在 LLM 上的开源很少,可用的只有 Seed-OSS-36B,豆包底模也一直很一般。然而豆包的产品做的很好,在国内 C 端市占率遥遥领先。这当然得益于他们深耕多模态,但这可能和集团底色也有一定关系。如果你手机里需要一款不需要爬墙就很好用的 AI 应用,那我想应该是豆包没错了。但使用 LLM API?除非你的公司疯狂迷恋 Coze。

模型名称模型 ID上下文长度最大输出长度备注
Doubao-Seed-1.8doubao-seed-1-8-251215256K32K大杯。支持深度思考、多模态理解与工具调用,最长思维链达 64K。
Doubao-Seed-Codedoubao-seed-code-preview-251028256K32K编码特化。专为编程场景设计,支持深度思考与多模态理解。
Doubao-Seed-Litedoubao-seed-1-6-lite-251015256K32K中杯。兼顾生成效率与推理能力,支持结构化输出。
Doubao-Seed-Flashdoubao-seed-1-6-flash-250828256K32K小杯。具备视觉定位能力,适用于高频多模态交互。
Doubao-Seed-Visiondoubao-seed-1-6-vision-250815256K32K视觉中杯(也可能是大杯?)。侧重 GUI 任务与复杂多模态理解。

📌 转载信息
原作者:
flymyd
转载时间:
2026/1/4 16:55:38