标签 多模态模型 下的文章

前言:如果说 2023 年是“大模型”的破壳时刻,那么 2026 年则被科技界正式定义为 “智能体(AI Agent)元年”。这一年,AI 完成了从“只会聊天的计算器”到“能办事的数字员工”的跨越。一场关于行动力、自主权与新赛道的产业革命已然拉开序幕。

一、 范式跃迁:从“静态生成”到“动态执行”


2026 年,我们正见证 AI 逻辑的根本性扭转。过去,大模型以“知”见长,而现在的智能体以“行”取胜。

  • 自主决策的闭环: 智能体不再是被动等待指令的对话框,而是具备目标感知、环境交互与任务规划能力的“数字生命”。
  • 具身智能的延伸: 通过多模态模型的融合,智能体开始走出屏幕,深入到自动驾驶、智能制造以及复杂的个人事务处理中,实现了从“辅助工具”到“行动主体”的质变。

二、 赛道开辟:2026 产业生态的三大爆发点


在这一条全新的赛道上,三根核心支柱正支撑起万亿级的市场空间:

1. 智能体原生市场的形成

如同当年的 App Store 改变了移动互联网,2026 年的“智能体市场”成为了新的流量入口。开发者不再仅仅提供算法,而是发布具备专业技能(如理财顾问、代码架构师、健康管家)的独立智能单元。

2. 跨系统协同的“数字劳动力”

智能体之间开始学会“对话”。通过标准化的协作协议,不同的智能体可以像人类部门一样相互配合,完成从市场调研到方案落地的一站式自动化办公。

3. 可信治理与责任伦理

随着 AI 拥有了代理权,2026 年也成为了“AI 治理元年”。全球范围内关于智能体身份认证、行为审计与权限分级的法律框架基本成型,为新赛道的狂飙突进安上了“安全阀”。


三、 角色再造:人类从“操作员”转型为“协调者”


智能体的普及并非对人的取代,而是对人类价值的重新定义。在 2026 年的工作流中,人类的角色发生了以下转变:

人类设定目标(What to do)- 智能体规划路径(How to do)

人类判断价值(Why it matters)- 智能体执行交付(Get it done)

未来的核心竞争力,不再是你会不会写代码或画图,而是你是否具备“智能体调度能力”——即如何高效地管理一群 AI 智能体来达成复杂的商业目标。


四、 结语:开辟者,终将定义未来


2026 年,大幕已启。智能体来了,它带来的不仅是技术的迭代,更是一次文明层面的协作升级。在这条新赛道上,先行者正在重塑行业逻辑,而跟随者也将在 AI 原民的时代找到新的生态位。

这或许就是“智能体元年”最深刻的启示:技术的终点,永远是人的升华。

本文章和图片由AI负责生成

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01有话题的技术

1、阶跃星辰开源 Step3‑VL‑10B:10B 模型对标 200B 能力

昨天,阶跃星辰宣布正式开源旗下 10B 参数量多模态模型 Step3‑VL‑10B。该模型在多项核心基准测试中达到同规模 SOTA 水平,部分能力甚至超越 10–20 倍体量的大模型。

Step3‑VL‑10B 主打「小模型实现大模型能力」,在视觉感知、逻辑推理、数学竞赛题、多模态对话等任务中表现突出。

阶跃星辰称,Step3‑VL‑10B 的性能已接近甚至超越部分百亿级开源模型(如 GLM‑4.6V 106B‑A12B、Qwen3‑VL‑Thinking 235B‑A22B),并在部分场景中达到顶级闭源旗舰模型(如 Gemini 2.5 Pro、Seed‑1.5‑VL)水平。

官方强调,该模型的关键突破来自三项核心设计:

  • 全参数端到端多模态联合预训练:在 1.2T 高质量多模态数据上训练,实现视觉与语言的深度对齐;
  • 大规模多模态强化学习:经历超过 1,400 次迭代,使模型在识别、推理与对话能力上持续提升;
  • 并行协调推理机制:通过并行探索与证据聚合提升复杂任务的准确度,尤其在数学推理、OCR、计数与空间拓扑任务中效果显著。

Step3‑VL‑10B 同时提供 SeRe(顺序推理)与 PaCoRe(并行推理)两种范式,覆盖 STEM 推理、OCR、GUI Grounding、空间理解与代码等多项能力维度。

当前,Step3‑VL‑10B 已开放 Base 与 Thinking 两个版本,社区可在 HuggingFace 与 ModelScope 获取模型并进行微调。

项目主页:
https://stepfun-ai.github.io/Step3-VL-10B/

Hugging Face:
https://huggingface.co/collections/stepfun-ai/step3-vl-10b

ModelScope:
https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

论文链接:
https://arxiv.org/pdf/2601.09668

(@阶跃星辰、@APPSO)

2、showlab 开源 whisperVideo:集成 SAM3 与 TalkNet 实现长视频「音视对齐」的说话人转录

showlab 近期开源了名为 whisperVideo 的项目,专门致力于解决长视频场景下「谁在说话」的身份归属难题。该工具打破了传统方案仅依赖音频的局限,通过融合视听双重特征,实现了语音内容与画面特定人脸的精准对齐。

为了突破纯音频方案在多人混响或近距离交谈时常见的识别漂移问题,whisperVideo 构建了一套紧密的多模态级联架构。它集成了 WhisperX 负责语音转录、Pyannote.audio 处理声纹分离,并引入 SAM3 进行人脸分割以及 TalkNet 判定主动说话人。这种组合拳方式,确保了机器能像人类一样同时「听」和「看」,从而做出更准确的判断。

针对小时级素材中常见的跨场景挑战,工具特别引入了「长时身份一致性」机制。利用视觉嵌入与轨迹聚类技术,系统能在漫长的视频时间轴上记住每一张脸,确保同一说话人的 ID 在不同场景切换中始终保持稳定。

在工作流设计上,whisperVideo 追求全自动化体验。内置的 SceneDetect 能够自动进行场景切割与分段处理,无需人工干预即可完成时间戳、文本与视觉 ID 的三方对齐。最终生成的成果不仅包括带说话人 ID 的字幕,还支持可视化的面板模式,并将底层数据以 。pckl 格式开放给开发者。

目前,项目已在 GitHub 开源,需使用 CUDA GPU 环境,依赖 HuggingFace Token 调用 Diarization 模型,支持 Python 命令行一键推理。

GitHub:
https://github.com/showlab/whisperVideo

( @aigclink\@X)

3、Bolna 获 630 万美元种子轮融资:自研 SLM 语音智能体,支持「印式英语」混说

总部位于班加罗尔的初创公司「Bolna」近日完成了由 General Catalyst 领投的 630 万美元种子轮融资。这家公司致力于通过自研的专用小模型(SLM)技术,打破多语言环境下的自动化通信瓶颈。

为了适应印度极其复杂的语言生态,Bolna 构建的语音智能体不仅将端到端响应延迟控制在 500 毫秒以内,更实现了深度的本地化适配。它能够流畅处理包括印地语、泰米尔语在内的 10 余种本土语言及 50 多种地区口音,甚至针对印度特有的语言混合现象,专门优化了对「印式英语(Hinglish)」的语义理解与生成能力。

在技术架构上,Bolna 摒弃了昂贵的通用大模型方案,转而采用针对事务性查询优化的 SLM 与智能路由架构。这种策略有效平衡了计算成本与响应速度,使其更适合大规模商业落地。配合其提供的无代码控制台,企业可自主设计并监控智能体。目前,该平台的日呼叫处理量已从 1,500 通激增至 20 万通以上,广泛应用于购物车挽回、货到付款确认及招聘筛选等场景。

平台现已正式上线,主要面向印度企业提供订阅制的自助服务。

( @AI Tech Suite)

02有亮点的产品

1、消息称华为首款 AI 眼镜将在上半年发布:搭载鸿蒙 OS,支持同传翻译与拍照

1 月 20 日多家媒体消息,华为的第一款「AI 眼镜」暂定在今年上半年推出,支持拍照和音频,鸿蒙系统 + 跨端无缝协同,同传翻译等功能。 AI 眼镜被誉为「下一代 AI 终端超级入口」,已然是大厂必争之地,百度、小米、阿里、理想等早已进场,并推出了 AI 拍照眼镜,字节也即将推出 AI 眼镜,作为国内消费类智能终端龙头的华为自然不会落后于人。

据 @数码闲聊站 爆料,华为 AI 眼镜将采用鸿蒙 OS 系统与轻量化设计,内置 3 块锂电池,支持跨端无缝协同,进一步拓展使用场景。并提供流光银、钛银灰、摩登黑三款配色,支持拍照、拍视频、音频播放以及同声传译等功能。

虽然目前具体细节尚未公布,但结合华为在 AI 技术领域的探索,预计将内置华为 AI 助手小艺,产品可能涉及 AI 识物、智能场景推荐等功能。

经查询发现,华为曾推出带有音频功能的智能眼镜,主打听音乐、打电话、健康播报等。如今随着 AI 的兴起,智能眼镜行业也纷纷上马 AI,以及自带摄像头、显示屏的 AI 眼镜也不断推新。

据 IDC 预测,智能眼镜产品成为 2025 年消费电子赛道的黑马,相应产品在中国市场出货量预计达到 290.7 万台,同比增长 121.1%。业内人士普遍认为,这缘于技术突破、市场需求释放以及产业链成熟等多重因素。

汇丰控股认为,智能眼镜市场仍处于加速扩张阶段。分析师预计,智能眼镜的用户规模将在未来十多年内迎来爆发式增长,到 2030 年代末将达到 2.89 亿人,较 2025 年的 1500 万用户增长超过 18 倍。

(@即智 Ultra、@IT 之家)

2、MiniMax 推出「Agent 实习生」,AI-native Workspace 全面升级

昨天,MiniMax 官宣,AI-native Workspace 迎来两项核心升级,进一步推动 AI 深度嵌入真实工作场景,并面向用户开放限时免费体验。

  • 桌面端应用正式上线: 用户可在本地环境中指定 Workspace 作为工作空间与上下文,使 AI 能够直接理解本地文档、代码仓库、邮件与日程,从而构建一个专属于个人的智能工作环境。
  • 推出「专家 Agents」能力: 用户可构建在特定领域达到「95 分甚至 100 分」水平的专业智能体。这类 Agent 能够在复杂任务链路中稳定执行、主动判断并长期协作。

公司内部数据显示,「Agent 实习生」在过去数周已被接近 100% 的员工使用,并在运维场景中承担了约 80% 的查 Bug 工作量。

MiniMax 表示,AI-native Workspace 标志着 Agent 从「被动执行指令」向「主动感知环境」的形态演进。

公司认为,未来的 Agent 将具备长期记忆、完整职业上下文与跨系统感知能力,成为用户的长期工作伙伴,而非一次性工具。

目前,MiniMax 已开启专家 Agents 的限时免费体验。用户可通过 Web 端直接试用,也可通过官方体验链接获取桌面端安装包。

体验地址:
https://agent.minimaxi.com/

( @APPSO)

3、Crow 发布 AI 智能体框架:支持 OpenAPI 与 MCP 协议,实现「对话即 UI」交互

Crow 近期推出了一套专为 SaaS 产品打造的 AI 智能体基础设施,旨在通过「对话即 UI」的理念重构软件交互模式。该工具的核心逻辑在于将传统的点击操作转化为自然语言指令流,通过接入 OpenAPI 规范或 MCP 协议,使智能体不仅能回答问题,更能直接触发后端 API 调用及前端 UI 导航,从而实现对软件功能的深度控制。

为了解决生成式 AI 不可控的难题,Crow 引入了名为「Journeys」的结构化工作流。开发者可以针对取消订阅、创建报表等特定业务场景,定义确定性的引导路径,确保智能体在执行敏感操作时严格遵循预设的逻辑分支。配合支持文件与文档集成的 RAG 管道,智能体还能充分理解产品特定的业务逻辑与私有数据。

在开发与运维层面,Crow 提供了生产级的观测指标,能够详细追踪每一条指令对应的工具调用路径。其低代码部署方案仅需嵌入单行 Script 标签,官方宣称这能将传统长达半年以上的自研周期缩短至一周以内,并支持与 Claude Code 或 Cursor 等工具集成。目前该产品已正式上线,开发者项目可免费试用,同时针对中大型企业提供了定制化方案。

( @Y Combinator Launch)

4、Thread 发布 Voice AI:实现 MSP 电话自动化分拣与实时工单同步,单人效能提升 30%

Thread 宣布其专为托管服务提供商设计的 Voice AI 正式商用。该产品旨在终结传统 IVR(交互式语音应答)系统的僵化体验,通过语音智能体接管电话接入、分拣与派发的全流程,将高成本的电话渠道整合进结构化的自动化运维体系中。

AI Attendant 与 Overflow Agent 双引擎驱动:

  • AI Attendant:取代传统 IVR,能够即时接听电话并识别来电者身份。它不仅能进行自然的语音交互,还能在后台实时创建工单、匹配技术人员,并完成「热切换」,确保客户在转接给真人时无需重复复述问题。
  • Overflow Agent:专为下班后或线路繁忙场景设计。它能拦截进入语音信箱的电话,自动收集关键信息并进行分类;遇到 P1 级紧急事件时,可直接升级并呼叫待命团队,消除了「下班后盲区」。

Voice AI 的核心价值在于将非结构化的语音高效转化为结构化数据。系统不仅能根据通话内容自动填充工单的标题、类别、优先级和解决摘要,还引入了「自动时间条目」功能,可依据通话时长直接生成计费记录。据官方数据统计,这一特性为每张工单平均节省了 19 分钟的处理时间,从而推动单一技术人员的日均通话处理量从 8-12 通显著提升至 14-20 通。

在生态兼容性方面,该方案作为 Thread AI Service Desk 平台的重要组成部分,已与 ConnectWise、Autotask 和 HaloPSA 等主流 PSA 系统实现了原生集成。这意味着所有通话数据都会实时转化为结构化文档,并无缝同步至企业现有的工作流中,从而确保了整个服务链条的完整性与可追溯性。

据 Thread 统计,通过消除手动记录和人工轮班需求,该系统可使响应速度提升 5 倍,平均解决时间缩短 78%。目前该服务已正式上线。

相关链接:
https://www.getthread.com/voice-ai

( @Mansfield News Journal)

03有态度的观点

1、谷歌前 CEO 施密特:欧洲要么投资开源 AI,要么依赖中国模型

1 月 20 日,据外媒报道,谷歌前 CEO、科技投资人埃里克 · 施密特 (Eric Schmidt) 周二表示,欧洲必须投资建设自己的开源 AI 实验室,并解决能源价格飙升的问题,否则很快就会发现自己对中国的模型产生依赖。 施密特周二在达沃斯世界经济论坛表示:「在美国,企业基本上正在转向闭源,这意味着这些技术将被购买、授权等等。而与此同时,中国在做法上基本是开放权重、开源的。除非欧洲愿意为欧洲自己的模型投入大量资金,否则欧洲最终将会使用中国的模型。」

目前,许多热门 AI 模型都是闭源的,比如谷歌的 Gemini 和 OpenAI 的 ChatGPT,这意味着这些公司不会向外界提供底层代码供下载或审查。虽然这种方式能为用户带来更顺畅、更统一的使用体验,但通常成本更高、灵活性也更低。中国在所谓「开放权重」模型的开发方面处于领先地位,这类模型具有更高的透明度。

为了在开发更强大 AI 模型和智能体的全球竞赛中具备竞争力,欧洲还需要解决高企的能源价格问题,并建设更多可用于训练这些技术的数据中心。施密特曾联合创办一家数据中心公司,致力于应对这类基础设施巨大的能源需求。他也对美国 AI 发展对电力供应的影响表示担忧。

(@IT 之家)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考

本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

我们采访了智象未来联合创始人姚霆,他指出在多模态领域,深度 Scaling up 模型能力提升收益放缓,而广度 Scaling up 会带来更多惊喜,多模态能力也在重塑大模型推理过程。另外,2025 年的模型价格战倒逼厂商三大加速:研发新模型抢占短暂的版本优势、提升推理速度、升级高性价比架构降本。他认为,低价趋势 2026 年将延续,核心原因是市场远未饱和。结合公司情况,姚霆表示模型商业模式从卖 API、积分制转向“按结果付费”。下面是详细对话内容,以飨读者。

多模态大模型的 Scaling up

InfoQ:Scaling up 是否仍是最佳路线?

姚霆: 对于多模态大模型而言,Scaling up 有深度和广度。深度 scaling up 就是类似于单一多模态任务的纯粹模型参数 scaling up 过程,我们会发现这种 scaling up 下模型能力提升收益放缓,并不是指数级的增长,与之搭配的还需要高质量数据和架构的“Scaling up”,而且盲目扩增模型参数也会对推理 cost 带来极大地负担,所以我们在深度 scaling up 过程中除了模型性能之外更多地会去考虑训练和推理的 cost,期望达到极致的性能 - 效率平衡。

而广度 scaling up 指的是从垂域场景和商业化落地的视角下去看 scaling up,即不同多模态任务之间的 scaling up,我们发现这种广度上的 scaling up 会带来更大的惊喜,例如在联合架构中去实现多模态理解和生成任务的统一,以及视频生成和音频生成任务的统一,衍生出类似音画同步的特色。

InfoQ:MoE 架构为什么会成为 2025 年的主流架构?其在参数效率与推理成本间的平衡能力,是否彻底改变了大模型的开发与部署逻辑?非 MoE 路线的企业如何构建差异化竞争力?

姚霆: 稀疏 MoE 架构的一大优势是较高的推理效率,尽管其模型参数量很大,但在推理过程中只有部分参数被激活,这样既保持了高参数量带来的模型学习能力,也在部署推理过程中表现出较高的效率。

而对于非 MoE 架构,也就是参数稠密型的模型,虽然推理的性价比会比 MoE 架构低,但是对于垂域任务,稠密型模型由于总参数量更小,部署更加灵活,也可以体现出较好的效果。

多模态大模型的代表性发展

InfoQ:2025 年多模态能力取得了哪些飞跃性发展?Nano Banana Pro 代表的图片生成模型、OpenAI Sora、Google Veo 3 代表的视频生成模型,分别做了哪些优化得到了不错的效果?

姚霆:2025 年多模态大模型能力有几个代表性的发展:

  1. 音画同步生成,让视频从默片时代进入了有声时代;

  2. 主体参考的一致性,实现了从片段化到连贯叙事的转变,AI 漫剧因此迎来了井喷的爆发;

  3. 运镜表达、表情演绎,让视频生成更具备影视表达,从“形似”到“神似”。

Veo 3 就在音画同步上做的很出彩,而 Nano Banana Pro 则将主体参考一致性发挥到新的高度,因为都是闭源模型,所以只能猜测在技术上不会局限于单一的 DiT 架构,例如借助多模态推理和生成的统一(VLLM+DiT)实现更精准的多模态内容编辑,而将更多不同模态的 token(文本、图像、视频、语音等)融入到统一的架构中则能端到端实现类似音画同步的能力。

InfoQ:多模态能力是否会重塑推理?跨模态推理是否也成为必答题?预计推理能力的突破方向在哪里?

姚霆:2025 年 多模态能力已经在重塑大模型推理过程,从 DeepSeek OCR 中使用图片来进行长文本压缩,到 Nano Banana 中直接生成解题过程的图片,多模态能力已经成为大模型推理能力中不可或缺的一部分。

多模态数据往往能提供比纯文本数据更稠密、直观和具备逻辑关联的信息。目前多模态数据越来越多的引入,对于大模型结构、训练方法以及数据三方面都会带来新的挑战。其中,大模型结构要尽可能支持原生多模态的输入或者输出,对于模型的参数量上提出了更高的要求;训练方法上需要去平衡各种不同的任务,保证模型在不同任务上都达到一定的收敛程度;数据上则对数据的广度和精度上又有了进一步的要求,广度上需要尽可能涵盖需要的多模态推理任务,同时高质量精品数据可以在训练后期提升推理能力。

InfoQ:从语言模型到多模态模型,再到世界模型,这个演进的本质是什么?您认为世界模型未来发展趋势如何?

姚霆: 从语言模型到多模态模型,再到世界模型,演进的本质是“大模型对真实世界的建模能力升级”:语言模型是“理解人类符号”,多模态理解模型是“感知世界表象”,多模态生成模型则是“模拟世界表象”,而世界模型是“掌握物理规律和因果关系并与之交互”,这也是通往 AGI 的必经之路。

因此,世界模型未来必将会在理解物理世界空间结构的同时,提升对物理规律和因果关系的刻画能力,而且通过与物理真实世界的交互实现从感知到决策的闭环。

“低价趋势肯定会延续”

InfoQ:2025 年模型价格战最关键的影响是什么?价格战倒逼厂商做了哪些架构演进?低价趋势在 2026 年是否会继续延续?

姚霆: 主要还是倒逼模型厂商去持续加速,一是加速研发新模型形成短暂的版本优势,二是加速模型的推理时间,时间就是金钱,三是加速模型架构的升级,引入性价比更高的架构设计来降低成本。低价趋势肯定会延续,因为市场还远没有饱和。

InfoQ:2025 年在 B 端和 C 端,都有哪些创新的商业模式出来吗?

姚霆: 创新的商业模式是很难的,所以我觉得更多是一些特色吧。

B 端和 C 端的界限越来越模糊,总体来说都是内容的生成者,真正的海量 C 端其实是内容的消费者,所以可以把两个端一起谈,商业模式的创新就是从售卖 API 提升到了售卖结果,以前 B、C 两端都是积分制,本质就是价值折算的积分,但是我们在不断探索按照结果来付费。

在移动端,我们也在突破过去 web 端复杂的积分逻辑对应的不同的会员等级,pro、ultra 等等,我们只会把功能区分为会员功能和非会员功能,然后按需充值即可,不会再纠结额度来觉得是否续费。

InfoQ:在您看来,2026 年大模型竞赛的核心是什么?您认为下一次“大模型代际飞跃”可能来自哪条技术路线?

姚霆:2026 年 大模型竞赛的核心,会从“技术能力”转向“价值落地能力”,类似于比拼“行业收入规模”和“客户留存率”。谁能更快将技术转化为行业实效,谁就能占据先机。

下一次“代际飞跃”很可能来自两个方向:

一是新颖的用户交互体验,随着基础原子能力目前逐渐饱和,2025 年 Agent 相关的应用出现了爆发式的增长,而 Agent 爆发的背后实际上代表了用户在认可大模型能力的同时又对于 AI 应用的交互体验提出了更高的要求,让大模型从单一的原子能力向完整解决方案提供者演变,一旦在用户交互方式、交互体验上跨越式提升,就会带来新的机遇。

二是专业级能力的大众化,目前大模型能力对于专业从业者来说已经达到一个很惊艳的程度,但是对于大众来说还是存在一些使用上的“困难”,这种困难可能来自于高昂的推理成本,编写专业级 prompt 的入门难度,以及缺乏大模型使用经验以及思维,而下一次飞跃可能就来自于如何拉近大模型对于大众的隔阂,出现真正的全民级 AI 应用。

 “模型和商业化一直会是两个最大挑战”

InfoQ:根据您的观察,科技公司 2025 年面临的压力如何?对此采取了什么样的应对措施?员工们的状态如何?

姚霆: 对我们这样的模型研发的公司来说,模型和商业化一直会是两个最大的挑战,这两个挑战汇集在一起就是对于底层模型架构的突破变成必选项,模型公司不能像过去那样不断的优化数据和推理来解决用户的问题,而是要在架构上做出突破,敢为人先。

非常开心的是我们的员工状态始终保持战斗状态,因为我们不要 80 ->85,而是要 120 分的创新和颠覆,同时模型团队也和业务团队有了更多的协同,这种协同对于模型团队的能力落地起到非常重要的作用。

InfoQ:经过一年竞赛,国内前沿 AI 水平取得了怎样的成绩?是否赶上了硅谷科技公司?

姚霆: 在多模态大模型这个赛道,我觉得国内外是百花齐放,例如我们在 2025 年 4 月的图像模型 HiDream-I1 开源打响了国内多模态生成式大模型登顶国际竞技场的第一枪,同时大家也开始重视了多模态生成式大模型的竞技场,这些过去只有硅谷科技公司的模型名单里开始快速出现国内的各家模型。

InfoQ:您认为,2026 年的技术赛点可能是什么?您会重点关注哪些行业和技术?

姚霆: 技术赛点从多模态模型架构上来说我觉得还有比较长的路,但是在应用上我觉得技术的赛点是多模态 agent 的成熟落地。2025 年上半年的 Manus,下半年持续火热的 vibe  coding 都是大语言模型的应用落地的典型案例,多模态模型看似比大语言模型更解决用户,但是生图生视频场景还没有出现真正技术应用上完全解决用户痛点的 agent,所以我们也会更关注多模态 agent 。

本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

我们采访了百度智能云平台产品事业部算法架构师、千帆策略部负责人吴健民,他指出,Agentic 模型训练最大卡点不是模型,是真实环境复刻,外部接口、数据库、登录依赖等真实链路的稳定访问,技术实现门槛极高。在当前,通用全能的 Agentic 模型现阶段不可能实现,业务场景、工具、环境差异过大,通用模型泛化性有限,针对垂直场景的模型定制和持续学习或是破局关键。

在多模态模型发展方面,吴健民指出,视觉生成主流为 模型框架从 Diffusion Model 发展到 Flow Matching,效果、稳定性碾压前代方案,视觉理解模型仍以 ViT Encoder 嫁接语言模型的主流方案,模型能力迭代的主要聚焦在垂直方向的数据合成。虽然工业和学术界有很多尝试,当前未真正实现多模态理解和生成的统一建模,目前分开独立优化效果依旧优于融合建模。

下面是详细对话内容,以飨读者。

“没有模型可以支持所有 Agent 场景”

InfoQ:如何让大模型更好支持 Agent 应用?技术有哪些瓶颈?

吴健民:目前我们的研发目标,是让模型能够在各类 垂直 Agent 场景中更好地发挥作用。其中,最核心、发展也最快的场景是 Coding Agent,包括通用编程以及面向网页开发或特定垂直领域的 Agent 应用。现阶段,我们的工作重点之一就是更具体地聚焦在网页开发相关的 Agent 能力上。

在这一过程中,有一个重要的问题需要回答:SOTA 的通用模型是否能在各种垂直 Agent 场景下都能达到工业级的效果。就目前来看,具备这种能力的通用模型还没有出现。

原因在于,不同 垂直 Agent 所处的场景设定、可使用的工具集合以及运行环境差异极大,而当前的通用模型尚不足以在如此多样的场景中实现稳定泛化。因此,围绕具体应用场景定制模型,反而更容易形成优势。

此外,不同场景对效果的评估标准也存在显著差异,即 Reward 的定义并不通用。如果一个场景能够清晰地定义 Reward,并且该 Reward 判断能够高效自动地完成,那么针对这一场景通过强化学习在通用基座模型上定制训练的 Agentic 模型,往往可以显著超过现有通用模型。

第二个难点在于环境的复杂性。以代码场景为例,其运行环境不仅涉及代码本身,还包括外部接口调用、工具使用、数据库依赖,以及登录、扫码等一系列真实应用中的外部依赖。在训练过程中,这些依赖都必须能够被高并发、稳定地访问,这对技术实现提出了很高要求。

第三个挑战在于强化学习系统本身。当前业内已形成共识,即要实现模型在特定场景中的持续迭代,必须依赖一套在该场景下运行顺畅、具备高效率和高吞吐能力的强化学习系统。由于强化学习系统本身的架构复杂性,也出现了不少 RLaaS 的平台产品,把算法复杂性封装在平台内,业务仅需要聚焦在业务场景定义,Reward 评估方案制定和迭代。这也是百度千帆平台 26 年的重点业务方向。

InfoQ:那现在有没有比较通用、效果较好的强化学习框架?

吴健民:目前开源社区中已有不少强化学习框架,例如 OpenRLHF、TRL 以及 VeRL 等,它们基本覆盖了强化学习流程中的主要环节。但在工业级应用中,这些框架仍然不够成熟,特别是涉及多轮工具调用的 Agentic 场景,往往需要进行深度定制和打磨。

打磨方向主要在两个方面:首先是模型规模支持,严肃应用往往依赖参数量较大的 SOTA 模型,例如百度文心或 DeepSeek 开源的模型,强化框架能否高效支撑这类大模型至关重要;其次是 Agent 训练能力,早期的强化学习多集中于单步任务,例如数学推理,而代码类、客服、DeepReasearch 等 Agent 更依赖多轮工具调用的复杂交互,这就要求强化训练框架能够配合一整套稳定、高效的脚手架系统。

此外,工业级 Agentic 模型的 研发对整体技术栈的要求极高,包括沙盒环境以及高性能、高并发的调度运行能力;若涉及联网搜索,还需要稳定的高并发搜索 API 支持。因此,具备云计算或搜索基础能力的团队往往更具优势。

InfoQ:要在基座模型上增强 Agentic 能力,需要哪些技术支持?

吴健民:这一问题的核心仍然在于强化学习如何在基座模型之上更好地服务于具体场景。强化训练的本质并不是创造全新的能力,而是激发和稳定模型在特定场景中的既有能力。因此,首要前提是基座模型本身在目标场景上具备优势。这种优势通常来源于预训练阶段的数据分布。例如,搜索相关数据占比更高的模型,在代码类 Agent 场景中往往更具潜力,不同场景基座模型的选择,通常观察基座模型在对应场景的 Pass@k 指标,即推理多次能得到正确答案的比例。Pass@k 指标高的模型,有更大空间通过强化学习训练激发并稳定模型在对应场景的表现。

另一个关键依赖是训练效率。强化学习的过程本质上更接近一种搜索机制:模型通过大量尝试生成不同路径,Reward 对每次尝试进行优劣评估,并将表现较好的路径通过强化训练反馈到模型参数中。在这一过程中,生成尝试路径(Rollout)通常占据 80%—90% 的时间成本。因此,是否能够以高吞吐方式高效完成 Rollout,是强化训练成败的关键。这个过程的关键是“训推一体”的技术,实现训推计算资源的高效利用以及训练精度差异的对齐。

InfoQ:另外,现在强化学习的 scaling 在业内似乎未形成共识?

吴健民:的确不像预训练 scaling 一样普遍的共识。过去,强化训练通常只占总体训练很小的一部分,被视为对预训练模型的微调,给预训练模型的蛋糕上放一个樱桃。而现在,强化训练的样本规模已经可以扩展到百万级,系统性地提升了模型推理和复杂问题解决能力。

要实现大规模多场景的强化训练,前提是结果评估能够准确自动完成,且最好能有稠密的评估奖励反馈。在代码或数学等评估相对确定的场景中,这一点相对容易实现,模型在代码和数学解题方向能力也得到显著提升。但在通用问答或复杂垂直场景中,由于缺乏统一、自动化的评估方案,规模扩展变得困难。这也是模型尚未在更通用场景实现泛化的重要原因。

尽管如此,业内普遍认为强化训练依然具有显著的 scaling 效果,问题的焦点转化到可泛化到评估奖励方案设计上。从依赖人工反馈的小规模 RHF,到基于规则甚至更通用奖励方案的 RLVR 强化训练,随着规模扩大,模型效果确实在持续提升,这一点在实际应用中也得到了验证。

InfoQ:通用 Agent 与专用 Agent 之间的能力差距,该如何弥补?

吴健民:当前主要存在两种思路。一种是追求在所有方向上都表现出超过人类的全能模型或 Agent,这本质上指向 AGI。业内对实现 AGI 需要的时间判断差异很大,而我们认为这一目标仍然相当遥远。另一种更现实的路径,是在特定专业场景中不断提升模型和 Agent 能力,能够在局部任务上超过人类水平,这在相当长一段时间内仍将是主流方向。

我们负责研发的全球领先的可商用自我演化超级智能体百度伐谋,为可以准确定义评估验证方案的 NP-hard 问题,提供高效的最优解演化方案,实现超过人类水平的效果。

InfoQ:长上下文能力对 Agent 的支持非常重要,应当如何建设?

吴健民:模型支持的上下文长度与 Agent 能力之间存在直接关系。上下文决定了模型能够记忆和理解的信息规模,而在复杂任务中,Agent 需要不断与环境交互,每一次反馈都会进入上下文,成为下一步决策的依据。因此,交互轮次越多,对模型长上下文理解能力的要求就越高。

在此基础上,业界也在探索通过 Agent 脚手架本身“放大记忆”的方案。类似人类并不会记住所有信息,而是通过笔记、字典或工具进行辅助,Agent 也可以通过工具使用来弥补上下文长度的限制。例如,在审核数百页合同的场景中,即便无法一次性将全文放入上下文,Agent 仍可以借助工具调用逐页查看、回溯关联内容,从而完成整体审核任务。从这个角度看,通过工具增强记忆能力,也是实现长上下文处理的一种有效路径,体现了 Agent 开发中 Progressive Disclosure 的原则。

InfoQ:在一些偏注意力机制的底层架构方面,业内是否做了调整?

吴健民:这个涉及模型网络结构本身的问题了。无论通过何种工具把上下文扩展得更长,模型本身的上下文理解能力始终存在上限。比如目前常见的 128K 或 256K 甚至 1M 上下文,长上下文能力的关键是模型能否准确理解高效处理,这依赖高效的注意力机制设计和实现。

模型利用上下文,在生成下一个 token 时,一个重要的观察是:并非全部上文 token 都对预估当前 token 同等重要,真正起作用的往往只是其中一小部分。基于这一特性,注意力机制可以采用稀疏化策略,不必对全部 128K 的 token 做同等精细的计算,可以采用比如 DeepSeek DSA 方案,先租略进行一次快速扫描,再对相关性高的部分 token 进行精细注意力计算。另一个思路是把上文 token 进行分块,先筛选相关的块,再对相关块内 token 进行精细注意力计算。结合两个方案的优势,也是一个实现的思路。

InfoQ:2025 年 MoE 架构被广泛采用,是否意味着更强模型的整体方向已经基本确定?

吴健民:MoE 架构被广泛应用到搜索、推荐等不同预估场景。大模型提到的 MoE,实际上是稀疏 MoE。其实从去年年初开始,这项技术就在业内受到较多关注。它要解决的核心问题仍然是 Scaling Law:随着模型参数规模不断增大,训练和推理成本也在持续上升,是否能在保持参数规模扩展的同时,控制实际训推计算的成本。

MoE 给出的答案是肯定的。通过这种方式,可以在继续增大模型总参数的同时,让训练和推理所实际使用的参数规模保持次线性增长。具体而言,在 Transformer 架构中,MoE 将原本的全连接层拆分为多个对等的小模块,即“专家”,在每次前向推理只激活其中一部分,从而显著降低计算成本。稀疏 MoE 已逐渐成为业内的主流选择,稀疏比耶做到了 5% 甚至更低的水平,成为推动模型规模继续扩展的一种现实可行方案。

多模态模型架构层逐渐收敛

InfoQ:从单一模态发展到多模态并引入 Agent,在底层架构上发生了哪些变化?

吴健民:一个最显著的变化,是在原有语言模型基础上引入视觉能力,这也是从去年开始 VLM 大量出现的主要方向。实际工作中,核心仍然在语言模型本身:通常是在语言模型训练到一定阶段后,引入视觉编码器,并用图文对其数据与语言模型联合训练,对齐文本和视觉 token,使模型能够理解视觉信号。这种 “桥接”或“嫁接”的方案,逐步成为当前的主流方案。

在多模态领域,一个长期目标是希望视觉模型也能像语言模型一样有很好的Scaling Law,但这一问题至今仍未解决。视觉信号本身的信息密度比较低,它更像是自然世界的直接映射,并不一定承载明确的知识结构。相比而言,互联网上存在的海量文本数据,是人类产生的对世界知识的总结压缩,信息密度很高。这使得仅依赖视觉输入进行大规模训练,难以达到语言模型那样的效果。

因此,现有方案高度依赖图文对齐数据,即为图片配备高质量、细粒度的文本描述,通过充分对齐文本与图片,来提升模型的理解能力。但这类数据难以规模化获取,不易全面覆盖实际的图片分布,目前行业可用的规模大致在 3–5T token,量级上存在明显差距,也限制了多模态模型的进一步 scale。

InfoQ:2025 年文生图、图生图模型更新频繁,突破点主要在哪里?

吴健民:这属于视觉生成方向。从 Sora 开始,这一领域受到了广泛关注,也出现了不少高质量的开源项目,支持生成效果不断提升。但像 Sora 2 或 Nano Banan 等业内 SOTA 的生成模型,其具体实现细节并未完全公开。

从算法角度看,视觉生成方案本身仍在快速演进,从早期的 Stable Diffusion 到当前的 Flow Matching,建模方法和训练效率都得到了显著优化。不过,从能力定位上看,视觉生成模型更偏向专精模型,主要解决“生成”的问题,也有观点认为,生成模型可能进一步发展为所谓的“世界模型”,即在理解物理规律的基础上生成符合现实约束的内容,进而通向 AGI 的实现。

2026 方向:生成与理解的统一建模

InfoQ:在此基础上,未来一段时间,尤其是 2026 年,大家主要会沿着哪些方向继续演进?

吴健民:一个非常重要的方向,多模态生成与理解的统一建模。很多公司都在尝试通过统一的多模态建模方式,让生成能力和理解能力形成协同效应,而不再是彼此割裂。这意味着模型既不是单纯为生成而设计,也不是只服务于理解任务。外界对 GPT-5 等模型也曾寄予类似期待,尽管目前看相关路径尚未完全跑通,但可以确定的是,这一方向仍在持续探索之中。

InfoQ:在专家视角下,生成与理解真正实现统一,应当达到什么样的效果?

吴健民:最终评价标准仍然是结果导向。如果通过统一训练得到的模型,在生成和理解两个维度上的表现,都优于分别独立训练的模型,那么这种统一才是有意义的。举例来说,如果一个生成 - 理解统一模型在生成质量上能够超过当前生成领域的 SOTA 模型,那么就可以认为内生的理解能力确实提升了生成效果。但就目前来看,分开针对生成和理解进行优化,独立效果仍然更好。

InfoQ:也就是说,目前融合后的效果还不如单独优化?

吴健民:是的,至少在现阶段仍是如此。

InfoQ:但很多团队似乎还是在把各种能力揉合进一个模型里。

吴健民:确实存在这种趋势,但并非所有团队都选择同一条路径。不同团队对通用人工智能实现方式的理解并不一致。

一种思路是将多种能力融合到单一模型中,希望模型像人一样具备听、说、读、写等多种模态能力,这是一种全模态模型的路线。

另一种思路则是强调模型学会使用工具。人类智能的显著提升,本质上源于工具使用能力的不断演进,从最原始的简单工具到今天的计算机系统,工具极大放大了人的能力。Agent 的发展,本质上正是沿着“工具使用”这一路径展开的,不同理解会带来不同的技术路线和实现方式,当前没有看到哪条路一定能走通。

InfoQ:2025 年“世界模型”这个概念被频繁提及,从语言模型到动态模型再到世界模型,这条演进逻辑是怎样的?

吴健民:“世界模型”这一说法本身就存在多种理解。最早在 Sora 第一代发布时,其自称为世界模型,核心目标是通过建模来理解物理世界的运行规律,尤其是借助视觉输入,让模型学习空间关系和物理约束,例如生成的视频必须符合基本物理常识。这一路线随后发展得很快,重点在于提升模型的空间感知推理和物理一致性。

但也存在另一种理解路径。例如 Meta 前段时间发布的 CWM 模型,强调的是代码能力和工具调用能力,同样定义为世界模型。在这种视角下,只要模型能够高效使用现实世界中的各种工具,就可以被视为对“世界”的一种建模。

Agentic 模型是今年必答题

InfoQ:展望明年,大模型能力提升的核心突破点可能来自哪些技术路线?

吴健民:明年的变化大概率会延续 2025 年已经显现的趋势。2025 年一个非常明显的方向是 Agentic Model,即模型具备稳定、准确的工具调用能力。代码场景已经率先验证了这一点,明年这一能力很可能扩展到更多应用场景,模型将不再只调用编程相关工具,而是能够使用更广泛的现实世界 API,这是一个较为明确的发展趋势。

InfoQ:那面对复杂环境,大模型将如何应对?

吴健民:通用场景的环境通常非常复杂,模型需要对接的 API 接口、数据库、人际交互界面等系统差异较大。针对后者,目前较为可行的方案,仍然是让模型在特定场景的 Agent 脚手架中学会熟练使用该场景所涉及的工具。尽管应用场景很多,但每个场景对应的工具集合通常是相对有限的。模型通过场景反馈不断优化工具使用方式,就可以逐步适应复杂环境。代码 Agent 场景正是一个典型例子,模型通常只需要掌握十几种工具调用方式,随着打磨程度提升,其在该场景下的表现也会持续改善。

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

刚刚运营的北京通州站位于地下,为了充分利用自然光,屋顶采用了透光的膜结构,上方还有一个风帆形状的保护架。(via

中国 AI 大模型领导者在想什么

上周六(1月10日),北京有一场"AGI-Next 前沿峰会",由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者,很多都出席了。

  • 唐杰:清华大学教授,智谱创始人
  • 杨植麟:月之暗面 Kimi 创始人
  • 林俊旸:阿里 Qwen 技术负责人
  • 姚顺雨:OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法,网上有发言实录

内容非常多,有意思的发言也很多,下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年,我们开始研究,能不能让机器像人一样思考,当时就从清华成果转化,在学校的大力支持下,成立了智谱这么一家公司,我现在是智谱的首席科学家。

那个时候,我们实验室在图神经网络、知识图谱方面,在国际上做的还行,但我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力,我教它一点点,它就能举一反三。就和人一样,教小孩子的时候,我们总希望教三个问题,他就会第四个、第十个,甚至连没教过的也会。怎么让机器拥有这种能力?

目前为止,我们主要通过 Scaling(规模化)达到这个目标,在不同层面提高泛化能力。

(1)我们最早期用 Transformer 训练模型,把所有的知识记忆下来。训练数据越多、算力越多,模型的记忆能力就越强,也就是说,它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。比如,你问中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

(2)第二层是把模型进行对齐和推理,让它有更复杂的推理能力,以及理解我们的意图。我们需要持续的 Scaling SFT(Supervised Fine-Tuning,监督式微调),甚至强化学习。通过人类大量的数据反馈,不断 Scaling 反馈数据,可以让模型变得更聪明、更准确。

(3)今年是 RLVR(强化学习与可验证奖励)爆发年。这里的"可验证"是什么意思?比如,数学可以验证、编程可能可以验证,但更广泛地,网页好不好看,就不大好验证了,它需要人来判断。

这就是为什么这个事情很难做,我们原来只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。

如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事:新范式的开始

大家可能会问,是不是不停地训练模型,智能就越来越强?其实也不是。

2025年初,DeepSeek 出来,真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来,而且性能确实很强,一下子让很多人感到很震撼。

我们当时就想一个问题,也许在 DeepSeek 这种范式下,Chat(对话)差不多算是解决了。也就是说我们做得再好,在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点,变成有情感的 Chat,或者再复杂一点,但是总的来讲,这个范式可能基本到头了,剩下更多的反而是工程和技术的问题。

那么,AI 下一步朝哪个方向发展?我们当时的想法是,让每个人能够用 AI 做一件事情,这可能是下一个范式,原来是 Chat,现在是真的做事了。

当时有两个方向,一个是编程,做 Coding、做 Agent;另一个是用 AI 来帮我们做研究,类似于 DeepResearch,甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多,很多人问这是为什么?

这起源于2023年8月3日,我们开源了一个小模型,它是我们内部用来做实验的 1.8B 模型。我们做预训练,资源毕竟有限,你做实验的话不能通通用 7B 的模型来验,就拿 1.8B 的来验。

当时我的师弟跟我说,我们要把这个模型开源出去。我非常不理解,我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?他跟我说 7B 很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果 1.8B 开源出去的话,很多同学就有机会毕业了,这是很好的初心。

干着干着,手机厂商跑来跟我们说 7B 太大,1.8B 太小,能不能给我们干一个 3B 或 4B 的,这个容易,没有什么很难的事情。一路干下来,型号类型越来越多,跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的,不仅仅是服务开发者或者服务科研人员,而是能不能做一个 Multimodal Foundation Agent(多模态基础智能体)。

我特别相信这件事情,2023年的时候大模型是一个大家都不要的东西,多多少少有那么几分大炼钢铁的成分,多模态是我们从那时就一直想做的事情。

为什么呢?我们觉得如果你想做一个智能的东西,天然的应该是 Multimodal(多模态),当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。我懒得吵这个架,人有眼睛和耳朵可以做更多的事情,我更多的考虑是 Foundation(基础智能体)有更多的生产力,能不能更好地帮助人类,毫无疑问我们应该做视觉,我们应该做语音。

更进一步,我们要做什么东西呢?Omni 的模型(全模态模型)不仅仅是能够理解文本、视觉、音频,我们可能还让它生成文本、音频。今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C(消费者模型)和 To B(商业用户模型)发生了明显的分化。

大家一想到 AI,就会想到两个东西,一个是 ChatGPT,另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说,大部分人大部分时候不需要用到那么强的智能,可能今天的 ChatGPT 和去年相比,研究分析的能力变强了,但是大部分人大部分时候感受不到,更多把它当作搜索引擎的加强版,很多时候也不知道该怎么去用,才能把它的智能激发出来。

但对于 To B 来说,很明显的一点是智能越高,代表生产力越高,也就越值钱。所以,大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月,我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元,每天要做10个任务,一个非常强的模型可能10个任务中八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。

所以,在 To B 这个市场上,强的模型和稍微弱点的模型,分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是,基础模型和上层应用,到底是垂直整合,还是模型应用分层,也开始出现了分化。

比如,ChatGPT Agent 是垂直整合,Claude(或者 Gemini)+ Manus 是模型应用分层。过去大家认为,当你有垂直整合能力肯定做得更好,但起码今天来看并不一定。

首先,模型层和应用层需要的能力还是挺不一样的,尤其是对于 To B 或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好,或者让这样的模型有溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现,其实在 To C 的应用上,垂直整合还是成立的,无论 ChatGPT 还是豆包,模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值?我们发现,很多时候需要的是额外的 Context(上下文)。

比如,我问 AI 今天该去吃什么?其实,你今天问 ChatGPT 和你去年问或者明天问,答案应该会差很多。这个事情想要做好,不是说你需要更大的模型、更强的预训练、更强的强化学习,而是可能需要更多额外的输入,或者叫 Context。如果它知道我今天特别冷,我需要吃些暖和的,我在今天这样的范围活动,可能我老婆在另一个地方吃什么等各种各样的事情,它的回答就会更好。

回答这样的问题,更多需要的是额外的输入。我和老婆聊了很多天,我们可以把聊天记录转发给元宝,把额外的输入用好,会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话:中国 AI 的未来

李广密(主持人):我想问大家一个问题,在三年和五年以后,全球最领先的 AI 公司是中国团队的概率有多大?我们从今天的跟随者变成未来的引领者,这个过程到底还有哪些需要去做好?

9、姚顺雨的回答

我觉得概率还挺高的,我挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

(1)中国的光刻机到底能不能突破,如果最终算力变成了瓶颈,我们能不能解决算力问题。

(2)能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

(3)更重要的是主观因素,我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说,有没有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题,理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异。比如说,美国的 Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是 OpenAI 还是什么,他们大量的算力投入到的是下一代研究当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的算力,这会是一个比较大的差异。

这可能是历史上就有的问题,创新是发生在有钱的人手里,还是穷人手里。穷人不是没机会,我们觉得这些富哥真的很浪费,他们训练了这么多东西,可能训练了很多也没什么用。但今天穷的话,比如今天所谓的算法 Infra(基础设施)联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。

未来可能还有一个点,如果从软硬结合的角度,我们下一代的模型和芯片的软硬结合,是不是真的有可能做出来?

2021年,我在做大模型,阿里做芯片的同学,找我说能不能预测一下,三年之后这个模型是不是 Transformer,是不是多模态。为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴,我都不知道!但我今天还在阿里巴巴,它果然还是 Transformer,果然还是多模态,我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,是不是穷则思变,创新的机会会不会发生在这里?

今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神,一个很典型的例子是当时电动车刚出来,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情,但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

三年到五年后,最领先的 AI 公司是一家中国公司的概率,我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认,无论是做研究,尤其是企业界的 AI Lab,和美国是有差距的,这是第一点。

我们做了一些开源,可能有些人觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。

但我觉得,现在慢慢变得越来越好。

(1)90后、00后这一代,远远好过之前。一群聪明人真的敢做特别冒险的事,我觉得现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

(2)咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。

(3)回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。如果我们笨笨的坚持,也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日,湖北制造的载人飞艇祥云 AS700,完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行,可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米,最大载客量9人。由于载客量太小,不可能用作常规的交通工具,只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机,结果因为手指带水无法触控。

他灵机一动,发明了戴在鼻子上的触控笔。

它的结构很简单,就是一个石膏纤维的鼻管,里面插着一支触控笔。

这个发明看上去很有用,可以解放双手,也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令,禁止不可跳过的广告,将于2026年2月15日起生效。

法令规定,视频广告的等待时间必须在5秒以内,否则观众可以选择跳过。而且,关闭方式应该是清晰简便的,禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到,越南互联网值得叫好。

文章

1、我所有的新代码都将闭源(英文)

作者是一个开源软件贡献者。他感到,自己的开源代码都被大模型抓取,导致仓库访问者减少,进而也没有收入,所以他后面的代码都要闭源。

2、网站的视觉回归测试(英文)

本文介绍如何使用 Playwright,对网页进行视觉测试,看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis(英文)

Redis 是最常用的缓存工具,作者介绍它的痛点在哪里,怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条(英文)

一篇 CSS 初级教程,介绍四个简单的技巧,让网页不会出现水平滚动条(即避免溢出)。

5、消息队列原理简介(英文)

本文是初级教程,介绍消息队列(mesage queue)的概念和作用。

6、macOS Tahoe 的圆角问题(英文)

macOS 最新版本 Tahoe 加大了圆角半径,造成调整窗口大小时经常失败。作者认为,从操作角度看,圆角面积最好超过端头的50%。

工具

1、whenwords

本周,GitHub 出现了一个奇特的库,没有一行代码,只有一个接口文档。

用户需要自己将接口文档输入大模型,并指定编程语言,生成相应的库代码再使用。

以后会不会都是这样,软件库没有代码,只有接口描述?

2、Hongdown

Markdown 文本的格式美化器,根据预设的规则,修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器,会自动显示多个时点的视频缩略图,便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。(@hoochanlon 投稿)

6、Flippy Lid

一个实验性软件,把 macbook 铰链开合作为输入,可以玩 Flippy Lid,也可以作为密码解锁。(@huanglizhuo 投稿)

7、Jumble

nostr 网络的开源 Web 客户端,专门用来浏览以 feed 内容为主的 relay 节点。(@CodyTseng 投稿)

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。(@wangrongding 投稿)

9、SlideNote

开源的 Chrome 浏览器插件,在侧边栏做笔记,支持跨设备自动同步。(@maoruibin 投稿)

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板,提供实时统计、PV 过滤、IP 归属地、客户端解析。
@likaia 投稿)

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用,自动从 arXiv 抓取每周的热门 AI 论文,通过 NotebookLM 生成视频讲解,并能发布到抖音。(@brianxiadong 投稿)

2、CC Switch

一个跨平台桌面应用,一键切换 Claude Code / Codex / Gemini CLI 的底层模型,以及完成其他的管理设置。(@farion1231 投稿)

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单,进行总结。(@immotal 投稿)

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段,该字段记录了一段文本,只要发上区块链就永远不会删除和修改。(@blueslmj 投稿)

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目,交互式哺乳纲演化树,探索哺乳动物2亿年的演化。(@SeanWong17 投稿)

图片

1、冰下修船

俄罗斯有一个船厂,位于北极圈附近。每年冬天,船坞都要结冰。

为了冬天也能修船,船厂会把冰层凿掉一块,露出船底。

冰层通常不会那么厚,不会结冰到船底,必须分层凿开。工人先用电锯,锯开最上层的冰层,然后等待下面的河水结冰,再用电锯向下切割,反复多次,直到船底结冰。

有时,需要凿开一条很长的冰槽。

下图是工人进入冰层下方,检修船底,由于冰下工作条件恶劣且有危险性,工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何?

我很高兴这样,因为我把这看作是我一生努力的延续:民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件,并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而,这项技术太重要,绝不能只掌握在少数公司手中。

-- Antirez,Redis 项目的创始人

2、

即使你不相信 AI,但跳过它对你和你的职业都没有帮助。

以前,你熬夜编程,看到项目顺利运行时,心潮翻滚。现在,如果你能有效利用 AI,可以建造更多更好的项目。乐趣依旧存在,未受影响。

-- Antirez,Redis 项目的创始人

3、

如果你不写作,你就是一个有限状态机。写作时,你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆(Manuel Blum),图灵奖得主

4、

人们陷入困境有三个主要原因:(1)行动力不足,(2)行动方向错误,(3)等待天上掉馅饼(幻想问题会缓解而拒绝采取行动)。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则(#334)

YouTube 有多少个视频?(#284)

AI 聊天有多强?(#234)

政府的存储需求有多大?(#184)

(完)

腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

0%
icon展开列表
腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍
今天
img
DeepSeek连发两篇论文背后,原来藏着一场学术接力
今天
img
仅需一个混频器的无线射频机器学习推理,登上Science Advances!
今天
img
国内首个可复现!萝博派对公开人形机器人 “从 0 到跑” 全开源方案
01月15日
img
联发科天玑9500s、8500发布:GPU、光追拉满,红米Turbo 5Max将搭载
01月15日
img
通用级PixVerse P1的技术突破,揣着进入平行世界的密码
01月15日
img
Mira公司内乱?CTO被开除,带团队回OpenAI,翁荔上推发言
01月15日
img
Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
01月15日
img
刚刚,喝到了千问APP给我点的奶茶
01月15日
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
01月15日
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
01月15日
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
01月15日
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
01月15日
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
01月15日
img
Agent时代,为什么多模态数据湖是必选项?
01月15日
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
01月15日
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img

腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

图片

随着大模型步入规模化应用深水区,日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 “降本增效” 的行业共识下,从量化、剪枝到模型蒸馏,各类压缩技术竞相涌现,但往往难以兼顾性能损耗与通用性。

在此背景下,投机采样作为一种 “另辟蹊径” 的推理加速范式,正凭借其近乎无损的加速效果成为业界新宠。腾讯混元近日升级的 AngelSlim 训练框架,首次将这一技术的潜力拓展至 LLM、VLM 及语音的全模态场景,实现了从 “可加速” 到 “善加速” 的关键跃迁。其核心在于独创的 Eagle3 训练架构,通过让小模型学会 “前瞻性” 地为大模型起草多步候选 token,再由大模型并行验证,一举将大模型解码阶段的算力冗余转化为提速动能,实测最高可带来 1.9 倍的推理速度飙升。这不仅是一次技术升级,更是对下一代高效推理基础设施的重要定义,为多模态 AI 应用的实时化、普惠化铺平了道路。

一、AngelSlim + 投机采样

投机采样是一种通过小模型多步预测 + 大模型一步验证的推理加速技术,其核心思想是:使用一个轻量级的草稿模型生成多个候选 token,由目标模型对候选结果进行并行验证是否接受,以此来并行解码加速,在有效利用大模型解码阶段的算力冗余,提升推理吞吐并降低单请求延迟。

AngelSlim 是一款集成了包括量化、投机采样等压缩算法,面向全模态的大模型压缩算法工具包。此次对投机采样训练进行了重磅升级,支持了大语言、多模态理解、语音等不同模态大模型投机采样草稿模型训练能力。

AngelSlim 以 “Eagle3 训练即部署” 为设计核心,提供从数据处理、模型封装到投机采样算法训练的完整链路,帮助开发在不侵入现有模型结构的前提下,显著降低推理时延与计算成本,各模态、各类大模型加速可达 1.4-1.9 倍。

图片

Github 开源地址:https://github.com/Tencent/AngelSlim

二、核心亮点

1. 覆盖从文生文、多模态理解到语音的全模态投机采样训练

AngelSlim 是一个从设计之初就支持全模态的投机采样训练框架,通过统一的训练接口,不同模态之间共享核心算法与工程能力,避免重复造轮子。

2. 面向部署

AngelSlim 并不止步于 “能训”,而是强调训出来就能用。AngelSlim 训练产出的模型可以无缝用于 vLLM/Sglang 等框架进行部署。

三、核心训练组件解析

图片

1. 数据处理模块

图片

数据处理模块为投机采样训练多个模态提供稳定、可复用的数据基础,主要包括:

a. 数据重采样:针对分布外数据集重新采样,生成分布内数据集用以训练。

b. 数据预处理:

i. 统一不同模态的数据格式,将文本、图像、音频等输入标准化处理成 token ids 和 loss mask。

ii. 草稿模型裁剪词表的映射。

c. 隐藏特征提取:根据处理好的 token ids 获取对应的隐藏特征。

图片

2. 模型模块

模型模块是 AngelSlim 实现高度扩展性的关键。

a. 统一的 TargetModel 接口

i.AngelSlim 提供统一的 TargetModel 接口,包括模型加载与权重管理、前向计算、中间层 / 隐状态特征提取等抽象方法;

b. 低成本扩展新的模型后端

ii. 对于新的模型架构或后端,用户只需实现 TargetModel 中定义的抽象方法即可完成模型注册并接入训练流程,无需修改训练器或核心算法代码。这一设计极大降低了对新模型、新模态的适配成本。

图片

3. 训练器模块

a. 训练器针对 Eagle3 算法特点设计了两种训练模式:在线训练和离线训练。在线与离线训练的区别在于是否预先生成并存好全量数据的 hidden states。在线训练适合小尺寸模型或显存足够的场景,离线训练适合大尺寸模型、低显存高磁盘空间机器。

b. 训练器实现封装了 Eagle3 等投机采样算法训练的关键逻辑:

i. 训练时测试(training-time-test):训练时模拟 Eagle3 模型多步生成过程,让 Eagle3 模型看到并学习使用自己的预测。

c. 训练器原生支持断点续训能力,完整保存并恢复:

i. 草稿模型参数

ii.Optimizer/ LR Scheduler 状态以及训练进度

四、实践与部署

1. 快速开始

当安装好 AngelSlim 后,进入 AngelSlim 根目录按照如下命令可以快速开始 Eagle3 的训练:

# 启动vLLM 服务
bash scripts/speculative/run_vllm_server.sh
# 生成训练数据
bash scripts/speculative/generate_data_for_target_model.sh
# 开始在线训练
bash scripts/speculative/train_eagle3_online.sh

其中前两条命令是准备数据,对训练数据进行重采样,生成目标模型分布内的数据。这一步是可选项,如果训练数据已经是来自目标模型的 SFT 数据或自身生成的数据,这一步可跳过。对 Eagle3 模型进行训练直接执行最后一条命令即可,更多进阶的使用指南可以参见我们的文档。

我们提供了全面的多模态模型 Eagle3 训练与部署指南,支持 LLM / VLM / Audio (ASR & TTS) 模型。

详见:https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/eagle.html

2.AngelSlim 训练模型的加速表现

我们使用 vLLM 在代码、数学、指令跟随、文本生成、多模态理解等任务上评测了 AngelSlim 所训练的 Eagle3 模型,设置 num_speculative_tokens=2 or 4 下我们所训的模型接收长度可达 1.8-3.5,最高加速可达 1.4-1.9 倍。

图片

3. 代码和模型链接

  • AngelSlim 代码 Github 开源仓库:https://github.com/Tencent/AngelSlim

  • Hugging-Face Eagle3 模型与权重:https://huggingface.co/collections/AngelSlim/eagle3

五、未来计划

在未来规划中,我们将从工具与算法两个层面持续推进投机采样能力演进:工具方面,计划支持基于 vLLM 的离线 hidden states 生成,以进一步降低数据构建与训练成本,并通过系统性的训练加速优化提升整体训练效率;算法创新方面,将探索多模态理解与语音输入信息在 Eagle3 模型中的深度融合,统一建模文本、视觉与语音特征,拓展投机采样在全模态场景下的适用性与加速潜力。

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

刚刚运营的北京通州站位于地下,为了充分利用自然光,屋顶采用了透光的膜结构,上方还有一个风帆形状的保护架。(via

中国 AI 大模型领导者在想什么

上周六(1月10日),北京有一场"AGI-Next 前沿峰会",由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者,很多都出席了。

  • 唐杰:清华大学教授,智谱创始人
  • 杨植麟:月之暗面 Kimi 创始人
  • 林俊旸:阿里 Qwen 技术负责人
  • 姚顺雨:OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法,网上有发言实录

内容非常多,有意思的发言也很多,下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年,我们开始研究,能不能让机器像人一样思考,当时就从清华成果转化,在学校的大力支持下,成立了智谱这么一家公司,我现在是智谱的首席科学家。

那个时候,我们实验室在图神经网络、知识图谱方面,在国际上做的还行,但我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力,我教它一点点,它就能举一反三。就和人一样,教小孩子的时候,我们总希望教三个问题,他就会第四个、第十个,甚至连没教过的也会。怎么让机器拥有这种能力?

目前为止,我们主要通过 Scaling(规模化)达到这个目标,在不同层面提高泛化能力。

(1)我们最早期用 Transformer 训练模型,把所有的知识记忆下来。训练数据越多、算力越多,模型的记忆能力就越强,也就是说,它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。比如,你问中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

(2)第二层是把模型进行对齐和推理,让它有更复杂的推理能力,以及理解我们的意图。我们需要持续的 Scaling SFT(Supervised Fine-Tuning,监督式微调),甚至强化学习。通过人类大量的数据反馈,不断 Scaling 反馈数据,可以让模型变得更聪明、更准确。

(3)今年是 RLVR(强化学习与可验证奖励)爆发年。这里的"可验证"是什么意思?比如,数学可以验证、编程可能可以验证,但更广泛地,网页好不好看,就不大好验证了,它需要人来判断。

这就是为什么这个事情很难做,我们原来只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。

如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事:新范式的开始

大家可能会问,是不是不停地训练模型,智能就越来越强?其实也不是。

2025年初,DeepSeek 出来,真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来,而且性能确实很强,一下子让很多人感到很震撼。

我们当时就想一个问题,也许在 DeepSeek 这种范式下,Chat(对话)差不多算是解决了。也就是说我们做得再好,在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点,变成有情感的 Chat,或者再复杂一点,但是总的来讲,这个范式可能基本到头了,剩下更多的反而是工程和技术的问题。

那么,AI 下一步朝哪个方向发展?我们当时的想法是,让每个人能够用 AI 做一件事情,这可能是下一个范式,原来是 Chat,现在是真的做事了。

当时有两个方向,一个是编程,做 Coding、做 Agent;另一个是用 AI 来帮我们做研究,类似于 DeepResearch,甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多,很多人问这是为什么?

这起源于2023年8月3日,我们开源了一个小模型,它是我们内部用来做实验的 1.8B 模型。我们做预训练,资源毕竟有限,你做实验的话不能通通用 7B 的模型来验,就拿 1.8B 的来验。

当时我的师弟跟我说,我们要把这个模型开源出去。我非常不理解,我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?他跟我说 7B 很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果 1.8B 开源出去的话,很多同学就有机会毕业了,这是很好的初心。

干着干着,手机厂商跑来跟我们说 7B 太大,1.8B 太小,能不能给我们干一个 3B 或 4B 的,这个容易,没有什么很难的事情。一路干下来,型号类型越来越多,跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的,不仅仅是服务开发者或者服务科研人员,而是能不能做一个 Multimodal Foundation Agent(多模态基础智能体)。

我特别相信这件事情,2023年的时候大模型是一个大家都不要的东西,多多少少有那么几分大炼钢铁的成分,多模态是我们从那时就一直想做的事情。

为什么呢?我们觉得如果你想做一个智能的东西,天然的应该是 Multimodal(多模态),当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。我懒得吵这个架,人有眼睛和耳朵可以做更多的事情,我更多的考虑是 Foundation(基础智能体)有更多的生产力,能不能更好地帮助人类,毫无疑问我们应该做视觉,我们应该做语音。

更进一步,我们要做什么东西呢?Omni 的模型(全模态模型)不仅仅是能够理解文本、视觉、音频,我们可能还让它生成文本、音频。今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C(消费者模型)和 To B(商业用户模型)发生了明显的分化。

大家一想到 AI,就会想到两个东西,一个是 ChatGPT,另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说,大部分人大部分时候不需要用到那么强的智能,可能今天的 ChatGPT 和去年相比,研究分析的能力变强了,但是大部分人大部分时候感受不到,更多把它当作搜索引擎的加强版,很多时候也不知道该怎么去用,才能把它的智能激发出来。

但对于 To B 来说,很明显的一点是智能越高,代表生产力越高,也就越值钱。所以,大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月,我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元,每天要做10个任务,一个非常强的模型可能10个任务中八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。

所以,在 To B 这个市场上,强的模型和稍微弱点的模型,分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是,基础模型和上层应用,到底是垂直整合,还是模型应用分层,也开始出现了分化。

比如,ChatGPT Agent 是垂直整合,Claude(或者 Gemini)+ Manus 是模型应用分层。过去大家认为,当你有垂直整合能力肯定做得更好,但起码今天来看并不一定。

首先,模型层和应用层需要的能力还是挺不一样的,尤其是对于 To B 或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好,或者让这样的模型有溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现,其实在 To C 的应用上,垂直整合还是成立的,无论 ChatGPT 还是豆包,模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值?我们发现,很多时候需要的是额外的 Context(上下文)。

比如,我问 AI 今天该去吃什么?其实,你今天问 ChatGPT 和你去年问或者明天问,答案应该会差很多。这个事情想要做好,不是说你需要更大的模型、更强的预训练、更强的强化学习,而是可能需要更多额外的输入,或者叫 Context。如果它知道我今天特别冷,我需要吃些暖和的,我在今天这样的范围活动,可能我老婆在另一个地方吃什么等各种各样的事情,它的回答就会更好。

回答这样的问题,更多需要的是额外的输入。我和老婆聊了很多天,我们可以把聊天记录转发给元宝,把额外的输入用好,会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话:中国 AI 的未来

李广密(主持人):我想问大家一个问题,在三年和五年以后,全球最领先的 AI 公司是中国团队的概率有多大?我们从今天的跟随者变成未来的引领者,这个过程到底还有哪些需要去做好?

9、姚顺雨的回答

我觉得概率还挺高的,我挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

(1)中国的光刻机到底能不能突破,如果最终算力变成了瓶颈,我们能不能解决算力问题。

(2)能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

(3)更重要的是主观因素,我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说,有没有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题,理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异。比如说,美国的 Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是 OpenAI 还是什么,他们大量的算力投入到的是下一代研究当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的算力,这会是一个比较大的差异。

这可能是历史上就有的问题,创新是发生在有钱的人手里,还是穷人手里。穷人不是没机会,我们觉得这些富哥真的很浪费,他们训练了这么多东西,可能训练了很多也没什么用。但今天穷的话,比如今天所谓的算法 Infra(基础设施)联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。

未来可能还有一个点,如果从软硬结合的角度,我们下一代的模型和芯片的软硬结合,是不是真的有可能做出来?

2021年,我在做大模型,阿里做芯片的同学,找我说能不能预测一下,三年之后这个模型是不是 Transformer,是不是多模态。为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴,我都不知道!但我今天还在阿里巴巴,它果然还是 Transformer,果然还是多模态,我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,是不是穷则思变,创新的机会会不会发生在这里?

今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神,一个很典型的例子是当时电动车刚出来,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情,但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

三年到五年后,最领先的 AI 公司是一家中国公司的概率,我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认,无论是做研究,尤其是企业界的 AI Lab,和美国是有差距的,这是第一点。

我们做了一些开源,可能有些人觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。

但我觉得,现在慢慢变得越来越好。

(1)90后、00后这一代,远远好过之前。一群聪明人真的敢做特别冒险的事,我觉得现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

(2)咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。

(3)回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。如果我们笨笨的坚持,也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日,湖北制造的载人飞艇祥云 AS700,完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行,可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米,最大载客量9人。由于载客量太小,不可能用作常规的交通工具,只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机,结果因为手指带水无法触控。

他灵机一动,发明了戴在鼻子上的触控笔。

它的结构很简单,就是一个石膏纤维的鼻管,里面插着一支触控笔。

这个发明看上去很有用,可以解放双手,也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令,禁止不可跳过的广告,将于2026年2月15日起生效。

法令规定,视频广告的等待时间必须在5秒以内,否则观众可以选择跳过。而且,关闭方式应该是清晰简便的,禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到,越南互联网值得叫好。

文章

1、我所有的新代码都将闭源(英文)

作者是一个开源软件贡献者。他感到,自己的开源代码都被大模型抓取,导致仓库访问者减少,进而也没有收入,所以他后面的代码都要闭源。

2、网站的视觉回归测试(英文)

本文介绍如何使用 Playwright,对网页进行视觉测试,看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis(英文)

Redis 是最常用的缓存工具,作者介绍它的痛点在哪里,怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条(英文)

一篇 CSS 初级教程,介绍四个简单的技巧,让网页不会出现水平滚动条(即避免溢出)。

5、消息队列原理简介(英文)

本文是初级教程,介绍消息队列(mesage queue)的概念和作用。

6、macOS Tahoe 的圆角问题(英文)

macOS 最新版本 Tahoe 加大了圆角半径,造成调整窗口大小时经常失败。作者认为,从操作角度看,圆角面积最好超过端头的50%。

工具

1、whenwords

本周,GitHub 出现了一个奇特的库,没有一行代码,只有一个接口文档。

用户需要自己将接口文档输入大模型,并指定编程语言,生成相应的库代码再使用。

以后会不会都是这样,软件库没有代码,只有接口描述?

2、Hongdown

Markdown 文本的格式美化器,根据预设的规则,修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器,会自动显示多个时点的视频缩略图,便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。(@hoochanlon 投稿)

6、Flippy Lid

一个实验性软件,把 macbook 铰链开合作为输入,可以玩 Flippy Lid,也可以作为密码解锁。(@huanglizhuo 投稿)

7、Jumble

nostr 网络的开源 Web 客户端,专门用来浏览以 feed 内容为主的 relay 节点。(@CodyTseng 投稿)

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。(@wangrongding 投稿)

9、SlideNote

开源的 Chrome 浏览器插件,在侧边栏做笔记,支持跨设备自动同步。(@maoruibin 投稿)

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板,提供实时统计、PV 过滤、IP 归属地、客户端解析。
@likaia 投稿)

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用,自动从 arXiv 抓取每周的热门 AI 论文,通过 NotebookLM 生成视频讲解,并能发布到抖音。(@brianxiadong 投稿)

2、CC Switch

一个跨平台桌面应用,一键切换 Claude Code / Codex / Gemini CLI 的底层模型,以及完成其他的管理设置。(@farion1231 投稿)

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单,进行总结。(@immotal 投稿)

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段,该字段记录了一段文本,只要发上区块链就永远不会删除和修改。(@blueslmj 投稿)

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目,交互式哺乳纲演化树,探索哺乳动物2亿年的演化。(@SeanWong17 投稿)

图片

1、冰下修船

俄罗斯有一个船厂,位于北极圈附近。每年冬天,船坞都要结冰。

为了冬天也能修船,船厂会把冰层凿掉一块,露出船底。

冰层通常不会那么厚,不会结冰到船底,必须分层凿开。工人先用电锯,锯开最上层的冰层,然后等待下面的河水结冰,再用电锯向下切割,反复多次,直到船底结冰。

有时,需要凿开一条很长的冰槽。

下图是工人进入冰层下方,检修船底,由于冰下工作条件恶劣且有危险性,工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何?

我很高兴这样,因为我把这看作是我一生努力的延续:民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件,并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而,这项技术太重要,绝不能只掌握在少数公司手中。

-- Antirez,Redis 项目的创始人

2、

即使你不相信 AI,但跳过它对你和你的职业都没有帮助。

以前,你熬夜编程,看到项目顺利运行时,心潮翻滚。现在,如果你能有效利用 AI,可以建造更多更好的项目。乐趣依旧存在,未受影响。

-- Antirez,Redis 项目的创始人

3、

如果你不写作,你就是一个有限状态机。写作时,你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆(Manuel Blum),图灵奖得主

4、

人们陷入困境有三个主要原因:(1)行动力不足,(2)行动方向错误,(3)等待天上掉馅饼(幻想问题会缓解而拒绝采取行动)。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则(#334)

YouTube 有多少个视频?(#284)

AI 聊天有多强?(#234)

政府的存储需求有多大?(#184)

(完)

GLM-Image 技术报告:GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation

模型基于昇腾 Atlas 800T A2 设备和昇思 MindSpore AI 框架完成从数据到训练的全流程,是首个在国产芯片上完成全程训练的 SOTA 多模态模型。
GLM-Image 采用自主创新的「自回归 + 扩散解码器」混合架构,实现了图像生成与语言模型的联合,是我们面向以 Nano Banana Pro 为代表的新一代「认知型生成」技术范式的一次重要探索。

新一代图像生成模型 GLM-Image 正式上线并开源!

这一次,图像生成不只 “好看”,更 “写对”

核心亮点:

强理解 × 准文字:理解复杂指令,文字绘制更精准,特别适合海报、插画等知识密集型场景

架构革新:面向以 Nano Banana Pro 为代表的新一代技术范式打造

硬核突破:首个在国产芯片上完成全程训练的 SOTA 图像模型

极致性价比:API 生成一张图仅 0.1 元

Bigmodel 已就位,欢迎大家上手体验,一起玩出新高度

详情 i3z.cc/v-8na7u

消息转发自官方开发者社群


📌 转载信息
原作者:
zhongruan
转载时间:
2026/1/14 10:25:43

据科创板日报报道,一款代号为 “Kiwi-do” 的神秘模型已现身 LMArena,并通过了被标注为 “月之暗面 K2.1” 的 VPCT 基准测试。
多位分析人士指出,这极有可能正是 月之暗面 备受期待的多模态升级版本 ——K2-VL。
若消息属实,这将构成一个关键拐点:
Kimi,正在从 “会思考”,走向 “能感知”。


📌 转载信息
转载时间:
2026/1/6 18:53:13

准备:

modal secret create qwen-auth QWEN_API_KEY=sk-123abc
modal secret create huggingface-secret HF_TOKEN=hf_…
import modal, os
MODEL_ID = "Qwen/Qwen3-VL-8B-Instruct-FP8"
MODEL_DIR = "/data/model"
vol = modal.Volume.from_name("qwen-storage", create_if_missing=True)
image = (modal.Image.debian_slim().apt_install("ffmpeg", "libsm6", "libxext6").run_commands("pip install -U pip").pip_install("vllm>=0.7.0").pip_install("huggingface_hub", "hf_transfer", "decord","torch-c-dlpack-ext").env({"HF_HUB_ENABLE_HF_TRANSFER": "1","PYTORCH_CUDA_ALLOC_CONF": "expandable_segments:True"}))
app = modal.App("qwen-vl-volume")
@app.function("/data": vol},timeout=1800,secrets=[modal.Secret.from_name("huggingface-secret")]) def download_model_to_volume():
    from huggingface_hub import snapshot_download
    snapshot_download(MODEL_ID,local_dir=MODEL_DIR,ignore_patterns=["*.pt", "*.bin"])
    vol.commit()
@app.cls(gpu="l4", image=image, volumes={"/data": vol}, scaledown_window=180, timeout=600, secrets=[modal.Secret.from_name("qwen-auth")]) class QwenServer:
@modal.web_server(port=8000, startup_timeout=600) def serve(self):
        import subprocess, sys
        if not os.path.exists(MODEL_DIR):
            return
        api_key = os.environ.get("QWEN_API_KEY", "sk-default")
        cmd = [sys.executable, "-m", "vllm.entrypoints.openai.api_server","--model", MODEL_DIR,"--served-model-name", MODEL_ID,"--trust-remote-code","--tensor-parallel-size", "1","--api-key", api_key,"--gpu-memory-utilization", "0.90", "--max-model-len", "8192", "--kv-cache-dtype", "auto","--limit-mm-per-prompt", '{"image": 16, "video": 4}',"--port", "8000"]
        subprocess.Popen(cmd, stdout=sys.stdout, stderr=sys.stderr)


效果:

原图:


29.0 tok/s


📌 转载信息
原作者:
Clancy
转载时间:
2026/1/6 12:02:52

昨天用banana生成了好几张照片,效果确实碉堡,看到这个项目挺不错的,分享一下,前提是要有你自己的key哦,并不是白嫖。

Gemini 3 Pro 是一个基于 Web 的轻量级、高性能 AI 绘图客户端。它专为 Google Gemini 多模态模型(如 gemini-3-pro-image-preview)设计,提供了一个无需后端、纯前端运行的专业工作台。

除了基础的对话和绘图功能外,它还内置了本地图片切片工厂表情包制作模式以及并发任务管理,所有数据均存储在本地浏览器中。

? 在线演示:点击这里查看 Demo (建议替换为您部署在 GitHub Pages 的链接)

✨ 核心特性

? 专业的绘图体验

  • 并发生成:支持多会话同时进行,后台处理生成任务,无需等待。
  • 多模态输入:支持上传多张参考图(Reference Images),完美适配 Gemini 的多模态理解能力。
  • 精细控制

    • 支持 1K / 2K / 4K 分辨率预设。
    • 内置 10+ 种常用长宽比(21:9, 16:9, 1:1, 9:16 等)。
  • 即时预览:生成的图片支持灯箱预览、一键下载原图。

✂️ 独家功能:图片切片工厂 (Slicer Tool)

不再需要 Photoshop,直接在浏览器中完成素材处理:

  • 九宫格/自定义切片:内置横向/纵向辅助线,拖拽即可调整切割位置。
  • 智能补全:支持 1:1 强制补全(不论原图比例,自动填充背景色)。
  • 一键打包:自动将切割后的图片打包为 ZIP 下载。
  • 表情包制作流:配合“制作表情包”快捷指令,生成后直接切片,工作流一气呵成。

?️ 隐私与安全

  • 纯前端运行:没有中间服务器,API 请求直接从您的浏览器发送至 Google。
  • 本地存储:所有对话记录、API Key 配置均通过 IndexedDB 和 LocalStorage 存储在您的设备上。
  • API 管理:支持自定义 API Host(便于反代用户)和多渠道轮询。

? 响应式设计

  • 完美适配桌面端与移动端。
  • 移动端支持侧边栏手势、触摸优化。

? 界面概览

?️ 桌面端工作台

image
image

image

? 移动端与切片工具

image
image
image

image


? 快速开始

本项目是一个单文件(或纯静态)应用,无需复杂的构建工具(如 Webpack/Vite),开箱即用。

方法 1:直接运行

  1. 克隆本项目或下载 ZIP 包。
  2. 直接双击打开 index.html 文件。
  3. 点击右上角 设置 图标,输入您的 Google API Key。

方法 2:部署到 GitHub Pages (推荐)

  1. Fork 本仓库。
  2. 进入仓库 Settings -> Pages
  3. Branch 设置为 main,点击保存。
  4. 一分钟后,您即可通过 https://您的用户名.github.io/仓库名 访问。

方法 3:本地开发

如果您想二次开发:

# 克隆仓库
git clone https://github.com/your-username/gemini-3-pro.git

# 进入目录
cd gemini-3-pro

# 使用 VS Code Live Server 或 Python 启动简易服务器
python -m http.server 8000

⚙️ 配置说明

点击界面右上角的 设置 (⚙️) 图标进入配置面板:

配置项说明默认值
渠道名称用于区分不同的 Key官方 API
API Base URL接口地址https://generativelanguage.googleapis.com
API KeyGoogle AI Studio 获取的 Key(空)
Model使用的模型名称gemini-3-pro-image-preview
提示: 如果您处于无法直接访问 Google API 的网络环境,请将 API Base URL 修改为您的反向代理地址(例如 Cloudflare Worker 地址)。

?️ 技术栈

  • Core: HTML5, CSS3 (Variables, Flex/Grid), Vanilla JavaScript (ES6+)
  • Storage: IndexedDB (对话历史), LocalStorage (配置)
  • Libraries:

    • JSZip (CDN 引入,用于图片打包下载)
    • 无其他第三方 UI 框架依赖

?️以此为基础的后续计划 (Roadmap)

  • [ ] PWA 支持:支持安装到桌面/手机主屏幕。
  • [ ] 提示词优化器:内置 prompt 润色功能。
  • [ ] 参数预设库:保存常用的绘图参数组合。
  • [ ] 更多模型支持:适配 Claude 或 OpenAI 绘图接口。

? 贡献指南

非常欢迎通过 Pull Requests 或 Issues 提交您的建议!

  1. Fork 本仓库
  2. 新建 Feat_xxx 分支
  3. 提交代码
  4. 新建 Pull Request

? 开源协议

本项目基于 MIT License 开源。


⚠️ 免责声明

本项目仅作为 API 调用客户端,不提供任何 AI 模型服务。

  • 请确保您使用的 API Key 符合 Google Generative AI 的使用条款。
  • 请勿利用本项目生成违反法律法规的内容。

前言

前阵子看到paddle发布SOTA的OCR模型,预览效果很nb,但看很少人去尝试使用。刚好公司有一些书籍类型的pdf(含公式,图片,表格等),内容双栏显示。使用场景够复杂了吧,也是日常会遇到的情况。于是就开始折腾部署PaddleOCR-VL模型。

配置

  • RTX6000(46G显存)
  • Windows11(配置wsl,Ubuntu-22.04)
  • python==3.12
  • 确保wsl内的CUDA 版本必须大于或等于 12.6(nvidia-smi查看)

开始操作

所有流程都在wsl中操作,包括python虚拟环境创建包安装等。我使用非Docker的方式安装
1.创建虚拟环境
conda create -n paddleocr python==3.12
2.安装paddle包

# 以下命令安装 CUDA 12.6 版本的 PaddlePaddle,对于其他 CUDA 版本以及 CPU 版本,请参考 https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/develop/install/pip/linux-pip.html
python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

连续使用以下命令即可

python -m pip install -U "paddleocr[doc-parser]"
python -m pip install https://paddle-whl.bj.bcebos.com/nightly/cu126/safetensors/safetensors-0.6.2.dev0-cp38-abi3-linux_x86_64.whl

3.python代码(单个pdf文档)

from pathlib import Path
from paddleocr import PaddleOCRVL

input_file = "./your_pdf_file.pdf"
output_path = Path("./output")

pipeline = PaddleOCRVL()
output = pipeline.predict(input=input_file)

markdown_list = []
markdown_images = []

for res in output:
    md_info = res.markdown
    markdown_list.append(md_info)
    markdown_images.append(md_info.get("markdown_images", {}))

markdown_texts = pipeline.concatenate_markdown_pages(markdown_list)

mkd_file_path = output_path / f"{Path(input_file).stem}.md"
mkd_file_path.parent.mkdir(parents=True, exist_ok=True)

with open(mkd_file_path, "w", encoding="utf-8") as f:
    f.write(markdown_texts)

for item in markdown_images:
    if item:
        for path, image in item.items():
            file_path = output_path / path
            file_path.parent.mkdir(parents=True, exist_ok=True)
            image.save(file_path)

4.完成到这部就可以运行了,第一次使用会下载模型比较慢。可能之前安装依赖中断过几次的原因,运行代码报错缺失系统依赖,错误日志丢ai解决即可。
我使用的文档是书中截取的三页内容,并非全书。消耗显存5.9G左右

效果

效果图
可以看到即使两栏内容,paddleocr也能很好的识别连接,公式使用latex,图表这里不知道为什么没识别成表格(官方演示效果)但还是完整保留下来了。有部分公式格式异常,导致公式没有正常渲染。后面写了脚本把二十多个pdf都进行ocr,占用显存44.5G。

结论

目前看效果已经非常好了,个人还没有做多模态检索,所以图片数据不是很重要,但确实已经很好的保留书籍的完整结构。这种文档结构识别再进行ocr的架构(类似于工作流)应该是未来OCR的方向了。

参考连接:使用教程 - PaddleOCR 文档