标签 大模型应用 下的文章

如果说大模型决定了智能体“能想多聪明”,
那么工作流,决定了它“能走多远、能不能落地”**。

在过去一年中,AI Agent 成为开发者与企业管理层共同关注的核心概念。但大量实践已经证明:

阻碍智能体进入真实业务的关键因素,并不是模型能力,而是系统是否具备“工作流意识”。

本文将从工程视角回答一个关键问题:

为什么几乎所有真正跑进业务系统的 AI Agent,本质上都是工作流系统?


一、什么是智能体工作流(Agentic Workflow)?

智能体工作流​,可以被定义为:

通过流程编排、状态管理与工具调用,将大模型的概率推理能力,约束在一个确定性的业务执行框架中。

在工程上,它的作用不是增强模型“思考能力”,而是​控制模型的行为边界​。

一个常见的类比是:

  • 大模型:引擎
  • 智能体工作流:变速箱 + 底盘 + 制动系统

没有工作流的 Agent,本质只是一个具备自然语言能力的交互 Demo,而不是业务系统的一部分。


二、为什么“纯 Prompt 智能体”无法进入真实业务?

许多团队在 Agent 的 0→1 阶段都会遇到同一个困惑:

“模型已经足够强,为什么还需要设计复杂流程?”

原因在于一个根本性冲突:

业务系统要求确定性,而大模型的输出天生具有概率性。

智能体工作流的价值,并不在于“让模型更聪明”,而在于解决以下三个工程级问题。


1️⃣ 将模型幻觉限制在可控边界内

在工作流系统中,复杂任务会被拆解为​最小原子能力​:

  • 分类
  • 信息抽取
  • 条件判断

模型不再被允许“自由发挥”,而是只在明确约束下完成局部认知任务。

模型负责推理,系统负责兜底。

2️⃣ 事实来源于系统,而非模型生成

在可落地的 Agent 系统中:

  • 库存数据 → 数据库 / SQL
  • 金额信息 → 财务系统
  • 订单状态 → 业务服务

模型只负责​逻辑决策​,而不负责​事实生成​。

**这是智能体工作流最核心的一条原则:
逻辑交给模型,事实交给系统。**

3️⃣ 从“调 Prompt 玄学”到“可调试系统工程”

在工作流中,每一步都是可观测、可回放、可重试的:

  • 是意图识别失败?
  • 还是外部 API 异常?
  • 还是条件分支判断错误?

这类工程级调试能力,是纯 Prompt Agent 永远无法具备的。


三、智能体工作流的三个成熟阶段(工程共识)

在大量真实项目中,成功落地的 Agent 几乎都经历了以下三个阶段。


第一阶段:顺序链(Sequential Chain)

Input → Step A → Step B → Output

适用于:

  • 摘要
  • 翻译
  • 单次生成任务

这一阶段的 Agent 更接近“流程化生成”,适合作为 Demo,而非业务系统。


第二阶段:条件路由(Conditional Routing)

系统先进行判断,再根据条件进入不同流程分支。

典型应用包括:

  • 客服意图分流
  • 售后 / 退款 / 技术支持
  • 内容审核策略分支

这一阶段,Agent 开始具备基础的“系统意识”。


第三阶段:闭环 Agent(Loop & Multi-Agent)

Plan → Act → Observe → Reflect

核心特征:

  • 任务失败可回退
  • 行为可自我修正
  • 支持长流程与多角色协作
到这一阶段,智能体才真正开始“像一名员工”,而不是脚本。

四、真正的工程难点:不是设计流程,而是“编排成本”

在真实系统中,Agent 落地面临的最大挑战并不是逻辑设计,而是工程复杂度:

  • 图结构难以维护
  • 状态在多节点间难以传递
  • 重试、超时、中断处理极其复杂

这也是大量 Agent 项目停留在 Demo 阶段的根本原因。


五、为什么 Agent 基础设施正在平台化?

行业正在形成一个清晰共识:

Agent 的基础设施必须被平台化、低代码化。

越来越多团队选择使用类似 「智能体来了」 这样的智能体平台:

  • 底层负责:流程调度、上下文管理、失败重试
  • 上层专注:业务流程与策略设计

其核心价值在于:

让业务专家,而不是工程师,定义智能体的行为逻辑。

六、结论:未来 Agent 的核心竞争力是什么?

不是模型参数规模,而是三点工程能力:

  1. 是否具备清晰的流程拆解能力
  2. 是否能将不确定性约束进工作流
  3. 是否支持持续复用与演进

Agent 的上限,不在模型,而在工作流。

「智能体来了」正在做的,正是把复杂的 Agent 工程,转化为​人人可设计的流程系统​。

引言:为什么说 2026 是 AI 应用真正的起点?

过去几年,大模型能力的提升有目共睹,但在真实业务环境中,一个越来越清晰的共识正在形成:

模型可用,并不等于系统可用,更不等于业务长期可用。

进入 2026 年,随着推理成本持续下降、模型能力逐步标准化,AI 的竞争焦点正在发生转移——
从“谁的模型更强”,转向“谁能把 AI 稳定地跑在生产环境中”。

从这个意义上看,2026 年并不是模型能力爆发的一年,而是 AI 应用真正起飞的一年。


一、从模型能力到工程能力:关键拐点已经出现

在企业级场景中,大模型面临的核心挑战,从来不只是“能不能回答问题”,而是:

  • 是否具备可控性与可复现性
  • 是否能与既有业务系统深度集成
  • 是否支持长期运行、可观测、可运维

这也是为什么在过去一年中,越来越多团队开始重新重视工程化能力、系统架构设计以及确定性逻辑。

从实践层面看,几个变化尤为明显:

1. 推理成本下降,AI 从实验功能变为系统能力

模型调用成本的持续下降,使 AI 不再只是 Demo 或边缘功能,而是可以作为系统中的常驻能力被设计。

2. 交互范式升级,从对话走向任务执行

AI 的使用方式正在从单轮、多轮对话,演进为具备任务拆解、路径规划与工具调用能力的执行型系统。

3. 确定性逻辑回归,工程系统重新站上核心位置

在关键业务路径上,大模型更多承担“理解与生成”的角色,而真正影响结果正确性的部分,仍由代码、规则和流程兜底,以降低幻觉带来的系统性风险。


二、为什么“智能体(Agent)”正在成为主流形态?

相比直接调用模型 API,智能体更接近一个​可运行、可治理的系统单元​。

一个具备工程落地价值的智能体,通常包含以下几个层次:

  • 感知层​:输入理解、上下文管理、状态感知
  • 决策层​:任务拆解、路径规划、策略选择
  • 执行层​:工具调用、接口编排、流程执行
  • 反馈层​:结果校验、异常处理、状态更新

当系统开始具备完整的“感知—决策—执行—反馈”闭环,其复杂度已经进入系统工程范畴,而不再是简单的 Prompt 调整问题。

在实际落地过程中,一些团队开始借助智能体平台来降低工程复杂度。例如,智能体来了公司 提供的企业级智能体方案,通过任务编排、工具治理与流程控制,将大模型能力封装为可复用、可运维的业务组件,从而缩短从模型能力到生产系统之间的距离。


三、技术人如何跨越“模型”与“工程落地”的鸿沟?

从已经成功推进 AI 应用落地的团队来看,往往具备以下几个共性特征。

1. 工程视角优先,而非模型视角

模型是能力来源,但并不是系统核心。
真正决定 AI 应用能否长期运行的,是一系列工程问题:

  • 数据流如何组织与校验
  • 异常如何兜底与回滚
  • 状态如何持久化与追踪
  • 多任务如何协同与调度

从本质上看,​AI 应用是一类“引入不确定性的分布式系统”​,而不是一个单纯的模型调用接口。


2. 重视“胶水层”能力建设

Python、工作流引擎、API 编排与任务调度工具,正在成为 AI 应用的关键基础设施。

它们负责把模型能力、业务系统、数据与云资源稳定地连接起来,解决的不是“能不能连上”,而是“能否长期可靠运行”。


3. 理解行业,而不仅是理解技术

通用大模型解决的是共性问题,而真正形成壁垒的,往往来自:

  • 行业知识结构
  • 业务流程理解
  • 长期沉淀的数据与规则

AI 的最终价值,并不体现在模型参数规模上,而体现在​具体业务场景中的系统能力​。


结语:AI 的下半场,属于“会做系统的人”

当模型能力逐步趋同,真正拉开差距的将不再是参数规模或榜单成绩,而是:

谁能把 AI 稳定、可靠、可持续地运行在真实业务系统中。

这,正是 2026 年被称为 AI 应用元年 的真正原因。

关于我的 App

前几个月写了一个用大模型处理文字内容的 App。可以在 Windows 和 macOS 里通过快捷键 + 选中文字来快速的调用大模型。

比如,我在阅读一个技术文档,内容实在是太多了,我想让 AI 给我总结一下内容。那么我就选中所有的文字,然后通过快捷键让 AI 给我解释。

又或者,你看到一段非中文的内容,想让 AI 翻译一下。你再也不需要复制粘帖了,或者像谷歌翻译那样,要选择输入 + 输出的语言。现在只要选中文字再按下快捷键就可以了!

用法

1,下载,安装
2,给快捷键绑定提示词。比如,我想把翻译的功能绑定到 cmd+shift+T
3,在系统的任何地方选中文字,按下快捷键。
4,享受效率的提升!

展示

总结一段文字

Screen Recording 2026-01-22 at 10.28.52

或者,把你随意写的一段中文翻译成任何语言。也可以把任何语言翻译成中文,无需设置源语言。

Screen Recording 2026-01-22 at 10.33.29

为什么要做这个 App

我日常工作会经常的用到翻译之类的功能,一般是我写一段中文,然后让 AI 帮助我翻译成英文,或者是直接写英文,然后让 AI 帮助我挑一下语法错误。以前每次都要打开一个聊天界面然后把选中的文字输入进去,效率非常低。寻找一番后也没有找到我想要的软件,所以就自己做了一个。

后来我发现其实豆包和 CherryStudio 也有类似的功能,但是跟我想要的还是有差距。他们都是通过划词实现的,我无法接受划词弹出的那个小框。平时工作需要经常给别人共享屏幕,那个小窗口着实令人尴尬。而我的应用非常的 “隐形”,而且界面和功能很简单。对我这种有点强迫症的人非常友好。

下载


📌 转载信息
原作者:
notLouee
转载时间:
2026/1/22 13:11:54

首先声明这个不是推广帖,也不是引战贴,标题不是噱头

帖子省流版:

  • 对这段时间做的事情做了一些总结
  • 大家提痛点需求,一起做一款让大家觉得爽的开源 AI 产品,形式可能为 build in pulic
  • 拉了个微信群,分享开发 Agent 的经验技巧和坑

缘起

我是一个重度 vim 用户,一开始( 25 年中旬)用的是 github 官方 copilot.vim (原因是因为开源了几个上千 star 的项目(非凡尔赛),copilot pro 一开始对这些开发者是免费的,当然现在不免费了),但是自动补全很慢,非常影响效率。

然后就找有关的替代品,尝试了很多,比如 chatgpt.nvim ,codecompanion.nvim 等,但是都不太满意。后来也尝试了 Cursor 和 Claude Code ,但是也有各样问题,一是不太习惯 IDE ,二是还是需要人大量的时间去交互,实际体验下来开发效率并没有提升多少(当然现在要好不少)。后来一想为什么就不能自己写一个呢?于是开始了折腾(造轮子)之路。

过程

一开始是古法编程用 python 快速写了个自动 fix ut 的命令行,还在团队内部做了分享,但是很多时候这个 cli 工作的并不好,然后就想办法优化。

看了很多资料,差不多 100+篇关于 AI 的论文(在 alphaxiv 的帮助下,挑重点 paper 细读。主题包括框架、Agent/Multi-Agent 、注意力、记忆、规划等等),其中一篇给我比较多启发的是 Alita 这篇论文 https://arxiv.org/abs/2505.20286 。当时 Context Engineering 这个概念刚火,还花了好几天看这个 https://github.com/davidkimai/Context-Engineering (后来证明这个项目对我来说基本没用)。然后设计出一套方案,目标是做一个让自己用起来爽的 Agent ,具体来说是:

  • 快(干活快)
  • 狠(彻底解决问题)
  • 准(交付质量高)
  • 美(产品要有设计品味)

充分发挥不同大模型的能力,不局限于单一模型。下面是一开始的架构设计:

集中精力花了差不多 3 个月时间实现,中间还重构了一版(因为效果没有达到预期),核心逻辑全部手写,其他部分前期使用了 Cursor 来帮助写 TUI ,后面就全是用产品自己开发自己了。

产品

产品形态是 Desktop + Tui ,可以编程、Research 、干杂活等,可以简单理解为 Claude Code + Cowork 。

  • 桌面版

对应视频在这

  • TUI

对应视频在这

问题

上个月底这个月初找了几个朋友内测了下,大家给了一些建议。

这两天也开源了,在 HN 和 v2 也分别发了一个帖子简单介绍了下,反馈都比较平平,发的帖子很快沉下去了。我自己反思了下,可能是自己做的东西确实不够好,也可能是大家没关注到,或者大家关注到了但是不感兴趣。

所以想看下大家真实的想法,先抛个几个问题:

  • 现在大家对此类工具和产品怎么看?是产品引不起自己的兴趣吗?
  • 除了 claude code/codex/cursor/opencode 等,还用其他什么比较好的产品吗?比如豆包
  • 现有的工具已经能很好的解决自己的问题了吗?还有其他的痛点吗?

最后

大家需要的话,我可以免费帮实现大家实现有关功能,未来产品的形态由大家来定义。

另外我拉了个微信群,准备把开发 Agent 的时候一些经验技巧和坑分享一下,同时也方便大家交流有关话题,有感兴趣的可以评论区留言我拉一下大家进群。

2026 年,AI 真正“下地干活”的第一战,被阿里打响了。

1 月 15 日,在杭州阿里园区举行的千问 App 发布会上,阿里巴巴集团总裁吴嘉做了一次并不复杂、却很直观的演示:他用千问给现场嘉宾点了 40 杯“伯牙绝弦”奶茶。整个过程没有人工介入。千问自行匹配附近奶茶店,下单,并调用支付宝完成支付。没一会儿,淘宝闪购的骑手把奶茶送进会场。发布会的气氛,也在这一刻被彻底点燃。

事后,有杭州的网友恍然大悟“怪不得刚刚西溪附近叫不动外卖!”

image

相比 PPT 上的参数和模型指标,这个场景更容易被理解:AI 第一次在公开场合,完整地替人把一件现实中的事情办成了。

在这次更新中,阿里将千问定位成 “每个人的生活助手”。路径也很明确:不从新场景做起,而是直接接入阿里现有的业务体系,让 AI 先把眼前的事干好。

在 日常生活 层面,千问首批接入了 淘宝闪购、支付宝、淘宝、飞猪和高德 五大业务,可以一句话 点外卖、买东西、订机票、订酒店、查路线,这些原本需要在多个 App 之间来回切换的操作,现在可以交给一句话来完成。

image

在 “办事” 这一层,千问的能力被进一步拉长。它开始尝试处理更复杂的任务,比如打电话订餐厅、整理调研资料、处理财务文件、辅助搭建网站等。这类功能目前仍处于定向邀测阶段,

吴嘉在发布会上表示:“AI 在拥有超强大脑之后,正在长出能够触达真实世界的手和脚,在生活中实实在在地替用户‘干活’。 千问的优势在于‘最强的 Qwen 模型’与‘阿里最完整的商业生态’的结合。AI 办事的时代才刚刚开始,我们会持续探索,把千问打造成真正有用的个人 AI 助手。”

自千问上线两个月以来,月度活跃用户已突破 1 亿。 吴嘉认为,随着 AI coding、全模态理解以及超长上下文等关键能力逐步成熟,AI 正在走出手机屏幕,进入更复杂、也更真实的生产与生活场景。

把阿里折叠进千问中, 通过统一的 AI 入口,让千问拥有 400 余项办事能力,在 生活、办公、教育 等方面全场景覆盖,让千问成为 AI 时代的超级应用入口,这正是阿里的野心。

办事之上如何理解需求,才能判断是不是一个合格的助手

伴随着模型能力的跃迁,思考让 Agent 做事,已经是近几年行业的集体共识。但 干的活好不好,这才是能否放心 AI 当助手的关键。

阿里此次的更新方向,既在意料之中,又有些意料之外的惊喜,这个惊喜的落脚点就在于 对需求的理解

在对千问用户数据观察中,用户主动询问商品推荐的月环比高达 300%,这引起了阿里的注意,利用好千问与淘宝的链接,让千问拥有更可用的商品推荐能力,这确实踩中了不少人的真实需求,也成为千问区别其他通用 Agent 的功能独特切入点。

image

这不仅发挥了阿里在电商上的传统优势,也让庞大的商品供给和相对成熟的推荐体系真正被用起来。用户只需一句话,就能完成从商品推荐到下单的完整流程。其背后,是 阿里各业务接口的打通和协同调用,用起来足够顺,也足够省事。

但更令人惊喜的是 对决策层面的关注,这也是 模型深入理解真实需求的表现,如何调用工具做更好的决策,体现了阿里强大的整合能力。

比如,现场展示了要给老人购买一款家庭扫地机,并且家里还养了一只猫,预算在 2000-4000 左右。千问在综合产品的价格与能力之上,还进一步老人的便捷需求与对猫毛的清洁效果,在综合这些复杂的条件后,给出推荐产品与相关理由,这正是大模型方便人类决策的一个虚拟需求感知。

image

在另一个徒步推荐的方案中,千问不仅推荐出行路线,结合天气情况给出建议,还将徒步需要的产品直接发送到了千问界面上,确实让人看到 AI 未来融入世界的真实摸样。

image

不是只做简单的一件事,而是将好多事做好,形成闭环,阿里已经迈出第一步。

笔者能想到的弊端,可能就是如何避免大模型被商家刷的假好评和广告垃圾数据污染,根据错误数据给出错误推荐。

在一个全家人考虑去三亚出行的案例中,千问综合了路线、预算、老人与孩子的需求等,给出了路线选择,并给出三套酒店方案。

image

不过,酒店的均价都在两三千左右,不少人吐槽这恐怕没人住得起,方案不适用,不接地气,这或许是笔者认为的阿里迈出的是“半步”,还需要进一步的地方。

现场还有一个小惊喜是,千问演示现场定饭店的时候,有一段与老板确定需求的打电话环节,从包间大小,价格,有小朋友等需求进行多方拉扯沟通,直到最后,电话结尾说,“我是千问 AI 助手在与你沟通”,大家才恍然大悟,原来是千问的语音功能在完成订酒店的“最后一公里”。

这正是各种多模态打通后,AI 能做到的程度,留给人更多想象空间。

这种好用,同时体现在在对办公需求上,在更专业的场景上,需要更好的交付结果,要求也更难。

千问可以集成各种复杂工具,完成做表格、整理数据、处理报表、汇报 PPT 等各种具体业务。从如何处理资料到最后成品展现,从效果来看,确实还不错。

image

此次,阿里找来了专业人士来验收干活效果,千万财经博主小 Lin 说,亲自下场演示了用千问生成一份《2026 毕业生就业报告》,从信息汇总,消化资料,角度分析,文章演示到 PPT 的生成,千问干了一个完整的活。

不过,如果把千问当做个工作三年内的大学生,来干这些活,效果还是不错的,如果要求更高,可能就是把控 PPT 的内容重点质量,PPT 的设计是否美观。

image

而在教育领域,千问也做出一些精心设计,令人印象深刻的是在各种题目中,除了思路的讲解,还会生成一段动态视频进行图示演说,能随时对话沟通,给出思路和解法,并且多模态展示,这让千问更像一个人一样解决问题。

image

笔者也亲自进行了一个上手测评,一个是用千问点奶茶,还有一个是用千问询问如何落户问题,千问都给出了较为实用的操作结果。

image

总体来看,千问并没有试图一下子把所有事都做好,而是在尝试把复杂的事做得更完整、更贴近人的真实需求。它距离“完全可靠的 AI 助手”还有距离,但已经明显走出了聊天框,开始进入决策和执行的真实环节。而对干活质量的进一步打磨,恐怕正是阿里下一步要发力的方向。

在几家最受关注的 AI 巨头中,字节跳动 选择从系统层切入,通过豆包手机助手借助操作系统能力,去调度第三方应用,与现实世界建立连接;阿里 的路线则更为直接,依托自身已高度成熟的电商、支付、物流、出行等业务体系,将这些能力整体接入千问,形成一个以自有生态为核心的闭环。腾讯 目前尚未对外展示完整方案,但从近期在 Agent 和多模态方向上的密集招聘来看,其下一步布局大概率仍将围绕微信这一超级入口展开。

image

表面上看,Agent 之争比拼的是模型能力,但更深层的竞争,实际上取决于谁能更稳定、更规模化地承接真实世界的复杂需求。

推荐 codex cli,便宜好用,建议开 xhigh 档。

把你的作业要求粘到一个 markdown 文件中。

对于代码任务,codex 直接自己生成自己跑就行。

对于文字任务
如果是报告类,让 codex 直接用 latex 写,给大家一个润色用的 prompt。
“将所有的句子、过渡词和连接词替换为最基础、最常用的词语。尽量使用简单、直接的表达方式,避免使用复杂或生僻的词汇,确保句子之间的逻辑关系清晰,删掉文末总结的部分。 避免使用机械化的连接词 (如 “首先”“其次”“然后”),改用更具连贯性的自然过渡;通过使用多样化句式,混合简单句、复合句和插入语使表达更富有层次感,同时避免连续短句或过于整齐的句式。在叙述数据或结论时,补充背景信息或个人研究观察,使内容更加具体并贴近实际研究场景,并通过问题引导或总结的方式实现段落之间的自然过渡,避免生硬切换,从而提升整体阅读的流畅性和逻辑性。不要使用太多的无序号分点,保持报告的学术性。”

如果是 PPT 类,让 codex 用 latex 的 beamer 模板写一个就行。

选择 latex,不仅给予了 ai 一个很好的交互载体,而且写出来的东西逼格较高,老师喜欢。

如果是写一个小学术 paper 这种,给大家另一套 prompt。
“Act as a senior academic editor and domain expert in [nsert Field, e.g., Computer Vision] topolish the following text for a top-tier publication (Ce.g., CVPR, IEEE). You must strictlyeliminate “Al-style” writing patterns by adhering to these constraints: do not useparentheses for supplementary information but integrate them syntactically; avoid hollow"A-B-C" parallel structures and forced symmetry; do not coin new terms or place standardconcepts in quotation marks; strictly preserve all technical terminology, LaTeX formulas.variables, and data values without modification; adopt a critical, analytical tone rather than apassive summary; absolutely ban cliche openers (e.g., “In the realm of”,“In the landscape of”.“Delve into”) and minimize mechanical transition words; ensure seamless logical flowbetween sentences to prevent abrupt jumps; avoid using slashes or excessive bolding; andnever hallucinate data or references. The final output must be concise, logically coherent.and indistinguishable from expert human writing.”

你只需要把工作流整理好发给 codex,就可以美美睡觉,一觉起来作业就做完了。
(当然以上内容仅限 cs 类专业)


📌 转载信息
原作者:
Jasper1024
转载时间:
2026/1/16 12:29:54

2026 年,AI 真正“下地干活”的第一战,被阿里打响了。

1 月 15 日,在杭州阿里园区举行的千问 App 发布会上,阿里巴巴集团总裁吴嘉做了一次并不复杂、却很直观的演示:他用千问给现场嘉宾点了 40 杯“伯牙绝弦”奶茶。整个过程没有人工介入。千问自行匹配附近奶茶店,下单,并调用支付宝完成支付。没一会儿,淘宝闪购的骑手把奶茶送进会场。发布会的气氛,也在这一刻被彻底点燃。

事后,有杭州的网友恍然大悟“怪不得刚刚西溪附近叫不动外卖!”

image

相比 PPT 上的参数和模型指标,这个场景更容易被理解:AI 第一次在公开场合,完整地替人把一件现实中的事情办成了。

在这次更新中,阿里将千问定位成 “每个人的生活助手”。路径也很明确:不从新场景做起,而是直接接入阿里现有的业务体系,让 AI 先把眼前的事干好。

在 日常生活 层面,千问首批接入了 淘宝闪购、支付宝、淘宝、飞猪和高德 五大业务,可以一句话 点外卖、买东西、订机票、订酒店、查路线,这些原本需要在多个 App 之间来回切换的操作,现在可以交给一句话来完成。

image

在 “办事” 这一层,千问的能力被进一步拉长。它开始尝试处理更复杂的任务,比如打电话订餐厅、整理调研资料、处理财务文件、辅助搭建网站等。这类功能目前仍处于定向邀测阶段,

吴嘉在发布会上表示:“AI 在拥有超强大脑之后,正在长出能够触达真实世界的手和脚,在生活中实实在在地替用户‘干活’。 千问的优势在于‘最强的 Qwen 模型’与‘阿里最完整的商业生态’的结合。AI 办事的时代才刚刚开始,我们会持续探索,把千问打造成真正有用的个人 AI 助手。”

自千问上线两个月以来,月度活跃用户已突破 1 亿。 吴嘉认为,随着 AI coding、全模态理解以及超长上下文等关键能力逐步成熟,AI 正在走出手机屏幕,进入更复杂、也更真实的生产与生活场景。

把阿里折叠进千问中, 通过统一的 AI 入口,让千问拥有 400 余项办事能力,在 生活、办公、教育 等方面全场景覆盖,让千问成为 AI 时代的超级应用入口,这正是阿里的野心。

办事之上如何理解需求,才能判断是不是一个合格的助手

伴随着模型能力的跃迁,思考让 Agent 做事,已经是近几年行业的集体共识。但 干的活好不好,这才是能否放心 AI 当助手的关键。

阿里此次的更新方向,既在意料之中,又有些意料之外的惊喜,这个惊喜的落脚点就在于 对需求的理解

在对千问用户数据观察中,用户主动询问商品推荐的月环比高达 300%,这引起了阿里的注意,利用好千问与淘宝的链接,让千问拥有更可用的商品推荐能力,这确实踩中了不少人的真实需求,也成为千问区别其他通用 Agent 的功能独特切入点。

image

这不仅发挥了阿里在电商上的传统优势,也让庞大的商品供给和相对成熟的推荐体系真正被用起来。用户只需一句话,就能完成从商品推荐到下单的完整流程。其背后,是 阿里各业务接口的打通和协同调用,用起来足够顺,也足够省事。

但更令人惊喜的是 对决策层面的关注,这也是 模型深入理解真实需求的表现,如何调用工具做更好的决策,体现了阿里强大的整合能力。

比如,现场展示了要给老人购买一款家庭扫地机,并且家里还养了一只猫,预算在 2000-4000 左右。千问在综合产品的价格与能力之上,还进一步老人的便捷需求与对猫毛的清洁效果,在综合这些复杂的条件后,给出推荐产品与相关理由,这正是大模型方便人类决策的一个虚拟需求感知。

image

在另一个徒步推荐的方案中,千问不仅推荐出行路线,结合天气情况给出建议,还将徒步需要的产品直接发送到了千问界面上,确实让人看到 AI 未来融入世界的真实摸样。

image

不是只做简单的一件事,而是将好多事做好,形成闭环,阿里已经迈出第一步。

笔者能想到的弊端,可能就是如何避免大模型被商家刷的假好评和广告垃圾数据污染,根据错误数据给出错误推荐。

在一个全家人考虑去三亚出行的案例中,千问综合了路线、预算、老人与孩子的需求等,给出了路线选择,并给出三套酒店方案。

image

不过,酒店的均价都在两三千左右,不少人吐槽这恐怕没人住得起,方案不适用,不接地气,这或许是笔者认为的阿里迈出的是“半步”,还需要进一步的地方。

现场还有一个小惊喜是,千问演示现场定饭店的时候,有一段与老板确定需求的打电话环节,从包间大小,价格,有小朋友等需求进行多方拉扯沟通,直到最后,电话结尾说,“我是千问 AI 助手在与你沟通”,大家才恍然大悟,原来是千问的语音功能在完成订酒店的“最后一公里”。

这正是各种多模态打通后,AI 能做到的程度,留给人更多想象空间。

这种好用,同时体现在在对办公需求上,在更专业的场景上,需要更好的交付结果,要求也更难。

千问可以集成各种复杂工具,完成做表格、整理数据、处理报表、汇报 PPT 等各种具体业务。从如何处理资料到最后成品展现,从效果来看,确实还不错。

image

此次,阿里找来了专业人士来验收干活效果,千万财经博主小 Lin 说,亲自下场演示了用千问生成一份《2026 毕业生就业报告》,从信息汇总,消化资料,角度分析,文章演示到 PPT 的生成,千问干了一个完整的活。

不过,如果把千问当做个工作三年内的大学生,来干这些活,效果还是不错的,如果要求更高,可能就是把控 PPT 的内容重点质量,PPT 的设计是否美观。

image

而在教育领域,千问也做出一些精心设计,令人印象深刻的是在各种题目中,除了思路的讲解,还会生成一段动态视频进行图示演说,能随时对话沟通,给出思路和解法,并且多模态展示,这让千问更像一个人一样解决问题。

image

笔者也亲自进行了一个上手测评,一个是用千问点奶茶,还有一个是用千问询问如何落户问题,千问都给出了较为实用的操作结果。

image

总体来看,千问并没有试图一下子把所有事都做好,而是在尝试把复杂的事做得更完整、更贴近人的真实需求。它距离“完全可靠的 AI 助手”还有距离,但已经明显走出了聊天框,开始进入决策和执行的真实环节。而对干活质量的进一步打磨,恐怕正是阿里下一步要发力的方向。

在几家最受关注的 AI 巨头中,字节跳动 选择从系统层切入,通过豆包手机助手借助操作系统能力,去调度第三方应用,与现实世界建立连接;阿里 的路线则更为直接,依托自身已高度成熟的电商、支付、物流、出行等业务体系,将这些能力整体接入千问,形成一个以自有生态为核心的闭环。腾讯 目前尚未对外展示完整方案,但从近期在 Agent 和多模态方向上的密集招聘来看,其下一步布局大概率仍将围绕微信这一超级入口展开。

image

表面上看,Agent 之争比拼的是模型能力,但更深层的竞争,实际上取决于谁能更稳定、更规模化地承接真实世界的复杂需求。

在开发者工具 Claude Code 推出之后,Anthropic 团队很快意识到一个出乎预料的现象:开发者并没有把它局限在“写代码”这件事上。相反,Claude Code 被迅速用于整理资料、撰写文档、生成报告、分析数据,甚至承担起类似“数字同事”的角色。

这种使用方式的外溢,最终促使 Anthropic 做出一个更激进的产品判断——如果大模型已经被当作工作伙伴使用,那么是否应该为“所有人”,而不仅仅是开发者,提供一种真正面向日常工作的智能协作形态?

于是今天,Anthropic 正式推出了 Cowork。

Anthropic 工程师、Claude Code 创建者 Boris Cherny 在 X 上发帖宣布了该消息。他写道:

自 Claude Code 发布以来,我们发现用户将其用于各种非编码工作:例如进行度假研究、制作幻灯片、清理电子邮件、取消订阅、从硬盘恢复婚礼照片、监测植物生长、控制烤箱等等。这些应用场景丰富多样,令人惊喜——原因在于底层 Claude Agent 是最佳代理,而 Opus 4.5 是最佳模型。

今天,我们非常激动地推出 Cowork,这是我们让 Claude Code 服务于所有非编码工作的第一步。该产品目前仍处于早期阶段,功能尚不完善,与 Claude Code 最初发布时的状态类似。Cowork 包含许多我们认为使其真正与众不同的创新用户体验和安全功能:内置虚拟机用于隔离、开箱即用的浏览器自动化支持、以及对所有非编码工作的支持。

据介绍,Cowork 是一款基于 Claude Code 底层架构构建的全新产品,目前以“研究预览版”的形式,率先面向 macOS 平台上的 Claude Max 订阅用户开放。与传统对话式 AI 不同,Cowork 的核心定位并非“聊天”,而是“协作”:它试图让 Claude 从一个被动响应指令的助手,转变为能够理解任务、制定计划、持续执行,并与用户保持协同关系的智能工作体。

从“对话助手”到“数字同事”

长期以来,大模型产品的主流交互形态仍然是对话。用户输入问题,模型生成回答;用户提出修改,模型再次响应。这种模式在信息查询、文本生成等场景下行之有效,但在真实工作流中却暴露出明显局限——上下文需要反复提供,文件需要人工整理,输出结果往往还要用户自行转换为可用格式。

Cowork 试图解决的,正是这一断裂问题。

在 Cowork 模式下,用户可以直接授予 Claude 对本地指定文件夹的访问权限。需要强调的是,这种访问并非“全盘授权”,而是由用户明确选择、逐一控制的结果。Claude 只能看到、读取、编辑或创建那些被允许的文件和目录,而无法触及任何未授权内容。

一旦获得权限,Claude 的能力边界就发生了质变。它不再只是基于文本上下文“想象”文件内容,而是可以直接操作真实存在的工作材料。例如,它可以扫描一个杂乱无章的下载文件夹,按照文件类型、时间或用途进行分类和重命名;可以从大量截图中提取关键信息,自动生成一份结构化的费用清单;也可以将零散的会议笔记、草稿和片段,整理成一份逻辑清晰的报告初稿。

这种能力的本质,并不是简单的“更聪明”,而是 Claude 被嵌入进了用户的实际工作环境之中。

Anthropic 在产品说明中多次强调,Cowork 的体验更接近“给同事布置任务”,而不是与机器人来回对话。一旦任务被下达,Claude 会自行拆解步骤、规划执行路径,并在执行过程中持续向用户同步进展。用户无需等待任务完成即可插入新的反馈或补充想法,这些指令会被自动排队、并行处理。

这也是 Cowork 与普通对话模式最根本的差异之一:它默认假设用户的工作是多线程的,而不是线性的。

当然,“更自主”的能力,意味着更高的风险。

让 AI 进入文件系统,甚至具备修改、创建和删除文件的能力,无疑是一种能力跃迁,同时也是风险跃迁。Anthropic 并未回避这一点,反而在产品介绍中反复提醒用户保持警惕。

首先是操作层面的风险。如果收到明确指令,Claude 确实可以执行具有破坏性的操作,例如删除本地文件或批量修改内容。一旦指令本身存在歧义,或者模型误解了用户意图,后果可能是不可逆的。

因此,在 Cowork 中,Claude 在执行任何“重要操作”之前,都会主动征求用户确认。这种设计并非形式上的“弹窗提示”,而是希望用户在关键节点重新审视任务目标,必要时进行纠正或细化指令。Anthropic 也明确建议,在涉及高风险操作时,用户应提供尽可能清晰、具体的指示,而不是依赖模糊的自然语言。

另一类更复杂、也更具行业共性的风险,是“提示注入”(Prompt Injection)。

在 Cowork 的工作过程中,Claude 可能会接触来自互联网的内容,例如网页、文档或第三方信息源。如果这些内容中被恶意嵌入了指令,试图诱导模型偏离原本的任务计划,就可能引发安全问题。Anthropic 表示,他们已经构建了针对提示注入的多层防御机制,但也坦言,“代理安全”——即确保 AI 在现实世界中执行操作时的可控性——仍然是整个行业正在积极探索的前沿问题。

从这个角度看,Cowork 并不是一个“已经完全成熟”的产品,而更像是一次对未来工作方式的现实实验。

Anthropic 也明确指出,这些风险并非 Cowork 独有,而是所有具备“行动能力”的 AI 工具都会面临的问题。只是对许多用户来说,Cowork 可能是第一次接触到一个超越简单对话、真正能够影响本地环境的 AI,因此更需要建立正确的使用习惯和风险意识。

研究预览版背后的产品逻辑

Cowork 目前被定义为“研究预览版”,这一定位本身就释放了明确信号:Anthropic 并不认为自己已经找到了最终形态,而是希望通过真实用户的使用反馈,加速产品迭代

根据官方披露,Anthropic 计划在后续版本中引入多项重要改进。其中包括跨设备同步能力,使 Cowork 不再局限于单一终端;以及将其移植到 Windows 平台,从而覆盖更广泛的办公人群。同时,安全机制也将持续强化,尤其是在代理行为可解释性和可控性方面。

从产品路径上看,Cowork 与 Claude Code 之间存在清晰的继承关系。两者共享相同的底层架构,这意味着 Cowork 在能力上,理论上可以完成 Claude Code 已经证明可行的许多复杂任务。不同之处在于,Cowork 将这些能力重新封装为更偏向非技术用户的交互方式,降低了使用门槛。

如果说 Claude Code 面向的是“愿意为效率付出学习成本”的开发者群体,那么 Cowork 的目标人群显然更加广泛:内容创作者、产品经理、运营人员、行政人员,乃至任何需要与文件、资料和信息打交道的知识工作者。

在掌握 Cowork 的基本使用方式后,用户还可以进一步扩展 Claude 的能力边界。

首先是连接器。Claude 可以通过用户已有的连接器,访问外部信息源,从而将本地任务与外部数据打通。这使得 Cowork 不再只是一个“本地整理工具”,而是可以承担跨系统的信息整合角色。

其次是新增的一系列技能。这些技能专门用于提升 Claude 在创建文档、演示文稿以及其他常见办公文件时的表现,使其输出更加贴近真实工作场景的格式和标准。

此外,如果用户在 Chrome 浏览器中将 Cowork 与 Claude 配对使用,Claude 还可以完成需要访问浏览器的任务。这一步,实际上进一步模糊了“对话 AI”“自动化工具”和“数字员工”之间的界限。

从整体设计来看,Cowork 试图减少用户在“提供上下文”和“整理结果”上的认知负担。用户无需手动拼接背景信息,也无需将 Claude 的输出再加工成可用成果。更重要的是,用户不必为了等待 AI 完成某个任务而中断自己的工作节奏——任务可以被连续布置、并行执行。

Anthropic 在描述这种体验时,用了一个耐人寻味的比喻:这更像是给同事留言,而不是来回沟通。

用户:没有 Linux 版本,差评!

在 Cowork 发布之后,迅速在开发者社区、AI 产品圈以及更广泛的知识工作者群体中引发讨论。与以往单纯围绕模型能力、跑分或价格的争论不同,这一次的焦点明显转向了一个更现实的问题:“AI 是否真的开始成为一个可以被信任、被授权的工作参与者?”

在 Reddit 上的最新讨论串里,有用户评论指出他们“很期待尝试这个功能”,认为 Anthropic 近来在产品和用户信任构建上做得不错。

**因为仅限 macOS 和订阅计划,部分用户感到遗憾。**在另一个 Reddit 讨论串中,有用户对 Cowork 的平台限制表达了不满或遗憾,评论集中在“只支持 macOS”这一点上。

此外,值得注意的是,有些评论虽然不是专门针对 Cowork,但有一些用户还是对 Anthropic 近期产品策略与沟通的不满,对 Cowork 的发布背景和用户关系具有间接关联语境。

在 Reddit 平台,有长期用户表示,自己已经从忠实支持者变成对 Anthropic 的信任下降甚至不满。该用户指出:

“作为很早一批用户,我原本极力推荐 Claude,但最近几个月感觉 Anthropic 的产品质量沟通都变差了。”

参考链接:

https://claude.com/blog/cowork-research-preview

https://x.com/bcherny/status/2010809450844831752

https://www.reddit.com/r/singularity/comments/1qb6qv1/introducing_cowork_claude_claude/?utm_source=chatgpt.com

在开发者工具 Claude Code 推出之后,Anthropic 团队很快意识到一个出乎预料的现象:开发者并没有把它局限在“写代码”这件事上。相反,Claude Code 被迅速用于整理资料、撰写文档、生成报告、分析数据,甚至承担起类似“数字同事”的角色。

这种使用方式的外溢,最终促使 Anthropic 做出一个更激进的产品判断——如果大模型已经被当作工作伙伴使用,那么是否应该为“所有人”,而不仅仅是开发者,提供一种真正面向日常工作的智能协作形态?

于是今天,Anthropic 正式推出了 Cowork。

Anthropic 工程师、Claude Code 创建者 Boris Cherny 在 X 上发帖宣布了该消息。他写道:

自 Claude Code 发布以来,我们发现用户将其用于各种非编码工作:例如进行度假研究、制作幻灯片、清理电子邮件、取消订阅、从硬盘恢复婚礼照片、监测植物生长、控制烤箱等等。这些应用场景丰富多样,令人惊喜——原因在于底层 Claude Agent 是最佳代理,而 Opus 4.5 是最佳模型。

今天,我们非常激动地推出 Cowork,这是我们让 Claude Code 服务于所有非编码工作的第一步。该产品目前仍处于早期阶段,功能尚不完善,与 Claude Code 最初发布时的状态类似。Cowork 包含许多我们认为使其真正与众不同的创新用户体验和安全功能:内置虚拟机用于隔离、开箱即用的浏览器自动化支持、以及对所有非编码工作的支持。

据介绍,Cowork 是一款基于 Claude Code 底层架构构建的全新产品,目前以“研究预览版”的形式,率先面向 macOS 平台上的 Claude Max 订阅用户开放。与传统对话式 AI 不同,Cowork 的核心定位并非“聊天”,而是“协作”:它试图让 Claude 从一个被动响应指令的助手,转变为能够理解任务、制定计划、持续执行,并与用户保持协同关系的智能工作体。

从“对话助手”到“数字同事”

长期以来,大模型产品的主流交互形态仍然是对话。用户输入问题,模型生成回答;用户提出修改,模型再次响应。这种模式在信息查询、文本生成等场景下行之有效,但在真实工作流中却暴露出明显局限——上下文需要反复提供,文件需要人工整理,输出结果往往还要用户自行转换为可用格式。

Cowork 试图解决的,正是这一断裂问题。

在 Cowork 模式下,用户可以直接授予 Claude 对本地指定文件夹的访问权限。需要强调的是,这种访问并非“全盘授权”,而是由用户明确选择、逐一控制的结果。Claude 只能看到、读取、编辑或创建那些被允许的文件和目录,而无法触及任何未授权内容。

一旦获得权限,Claude 的能力边界就发生了质变。它不再只是基于文本上下文“想象”文件内容,而是可以直接操作真实存在的工作材料。例如,它可以扫描一个杂乱无章的下载文件夹,按照文件类型、时间或用途进行分类和重命名;可以从大量截图中提取关键信息,自动生成一份结构化的费用清单;也可以将零散的会议笔记、草稿和片段,整理成一份逻辑清晰的报告初稿。

这种能力的本质,并不是简单的“更聪明”,而是 Claude 被嵌入进了用户的实际工作环境之中。

Anthropic 在产品说明中多次强调,Cowork 的体验更接近“给同事布置任务”,而不是与机器人来回对话。一旦任务被下达,Claude 会自行拆解步骤、规划执行路径,并在执行过程中持续向用户同步进展。用户无需等待任务完成即可插入新的反馈或补充想法,这些指令会被自动排队、并行处理。

这也是 Cowork 与普通对话模式最根本的差异之一:它默认假设用户的工作是多线程的,而不是线性的。

当然,“更自主”的能力,意味着更高的风险。

让 AI 进入文件系统,甚至具备修改、创建和删除文件的能力,无疑是一种能力跃迁,同时也是风险跃迁。Anthropic 并未回避这一点,反而在产品介绍中反复提醒用户保持警惕。

首先是操作层面的风险。如果收到明确指令,Claude 确实可以执行具有破坏性的操作,例如删除本地文件或批量修改内容。一旦指令本身存在歧义,或者模型误解了用户意图,后果可能是不可逆的。

因此,在 Cowork 中,Claude 在执行任何“重要操作”之前,都会主动征求用户确认。这种设计并非形式上的“弹窗提示”,而是希望用户在关键节点重新审视任务目标,必要时进行纠正或细化指令。Anthropic 也明确建议,在涉及高风险操作时,用户应提供尽可能清晰、具体的指示,而不是依赖模糊的自然语言。

另一类更复杂、也更具行业共性的风险,是“提示注入”(Prompt Injection)。

在 Cowork 的工作过程中,Claude 可能会接触来自互联网的内容,例如网页、文档或第三方信息源。如果这些内容中被恶意嵌入了指令,试图诱导模型偏离原本的任务计划,就可能引发安全问题。Anthropic 表示,他们已经构建了针对提示注入的多层防御机制,但也坦言,“代理安全”——即确保 AI 在现实世界中执行操作时的可控性——仍然是整个行业正在积极探索的前沿问题。

从这个角度看,Cowork 并不是一个“已经完全成熟”的产品,而更像是一次对未来工作方式的现实实验。

Anthropic 也明确指出,这些风险并非 Cowork 独有,而是所有具备“行动能力”的 AI 工具都会面临的问题。只是对许多用户来说,Cowork 可能是第一次接触到一个超越简单对话、真正能够影响本地环境的 AI,因此更需要建立正确的使用习惯和风险意识。

研究预览版背后的产品逻辑

Cowork 目前被定义为“研究预览版”,这一定位本身就释放了明确信号:Anthropic 并不认为自己已经找到了最终形态,而是希望通过真实用户的使用反馈,加速产品迭代

根据官方披露,Anthropic 计划在后续版本中引入多项重要改进。其中包括跨设备同步能力,使 Cowork 不再局限于单一终端;以及将其移植到 Windows 平台,从而覆盖更广泛的办公人群。同时,安全机制也将持续强化,尤其是在代理行为可解释性和可控性方面。

从产品路径上看,Cowork 与 Claude Code 之间存在清晰的继承关系。两者共享相同的底层架构,这意味着 Cowork 在能力上,理论上可以完成 Claude Code 已经证明可行的许多复杂任务。不同之处在于,Cowork 将这些能力重新封装为更偏向非技术用户的交互方式,降低了使用门槛。

如果说 Claude Code 面向的是“愿意为效率付出学习成本”的开发者群体,那么 Cowork 的目标人群显然更加广泛:内容创作者、产品经理、运营人员、行政人员,乃至任何需要与文件、资料和信息打交道的知识工作者。

在掌握 Cowork 的基本使用方式后,用户还可以进一步扩展 Claude 的能力边界。

首先是连接器。Claude 可以通过用户已有的连接器,访问外部信息源,从而将本地任务与外部数据打通。这使得 Cowork 不再只是一个“本地整理工具”,而是可以承担跨系统的信息整合角色。

其次是新增的一系列技能。这些技能专门用于提升 Claude 在创建文档、演示文稿以及其他常见办公文件时的表现,使其输出更加贴近真实工作场景的格式和标准。

此外,如果用户在 Chrome 浏览器中将 Cowork 与 Claude 配对使用,Claude 还可以完成需要访问浏览器的任务。这一步,实际上进一步模糊了“对话 AI”“自动化工具”和“数字员工”之间的界限。

从整体设计来看,Cowork 试图减少用户在“提供上下文”和“整理结果”上的认知负担。用户无需手动拼接背景信息,也无需将 Claude 的输出再加工成可用成果。更重要的是,用户不必为了等待 AI 完成某个任务而中断自己的工作节奏——任务可以被连续布置、并行执行。

Anthropic 在描述这种体验时,用了一个耐人寻味的比喻:这更像是给同事留言,而不是来回沟通。

用户:没有 Linux 版本,差评!

在 Cowork 发布之后,迅速在开发者社区、AI 产品圈以及更广泛的知识工作者群体中引发讨论。与以往单纯围绕模型能力、跑分或价格的争论不同,这一次的焦点明显转向了一个更现实的问题:“AI 是否真的开始成为一个可以被信任、被授权的工作参与者?”

在 Reddit 上的最新讨论串里,有用户评论指出他们“很期待尝试这个功能”,认为 Anthropic 近来在产品和用户信任构建上做得不错。

**因为仅限 macOS 和订阅计划,部分用户感到遗憾。**在另一个 Reddit 讨论串中,有用户对 Cowork 的平台限制表达了不满或遗憾,评论集中在“只支持 macOS”这一点上。

此外,值得注意的是,有些评论虽然不是专门针对 Cowork,但有一些用户还是对 Anthropic 近期产品策略与沟通的不满,对 Cowork 的发布背景和用户关系具有间接关联语境。

在 Reddit 平台,有长期用户表示,自己已经从忠实支持者变成对 Anthropic 的信任下降甚至不满。该用户指出:

“作为很早一批用户,我原本极力推荐 Claude,但最近几个月感觉 Anthropic 的产品质量沟通都变差了。”

参考链接:

https://claude.com/blog/cowork-research-preview

https://x.com/bcherny/status/2010809450844831752

https://www.reddit.com/r/singularity/comments/1qb6qv1/introducing_cowork_claude_claude/?utm_source=chatgpt.com

平时喜欢自己画一些信息图,感觉很好看,所以搓了个项目专门用来使用大香蕉生成信息图。我和 cc 联合,天下无敌!

内置 12 个模板。

网站内可以配置 api 直接用,也可以复制 prompt,粘贴到 gemini 或者 flow 之类的生成。

佬友们有新的模板也欢迎贡献!

在线地址:https://nano-info.aizhi.site/
github 地址: liujuntao123/Nano-Info


📌 转载信息
原作者:
chaoren
转载时间:
2026/1/6 18:49:31