提示词供应链：从“一键 Reprompt”到“系统提示投毒”

作者: 纯情
时间: 2026-01-22
分类: 资讯
评论

提示词供应链：从“一键 Reprompt”到“系统提示投毒”

2026 年 LLM 安全的三段式攻防

文章定位：偏工程落地 + 新视角总结
说明：本文只写可用于安全评估与防守的思路，不提供可直接复制用于攻击的载荷、脚本与绕过细节；示例均做“脱敏/占位符化”。

深度技术分析：从攻击面到实现机制

URL参数注入的技术实现链路

Copilot Reprompt 和 ChatGPT 的参数注入本质是前端输入验证缺失导致的上下文污染。这类漏洞的技术关键在于参数直接进入模型推理路径，绕过了常规的输入清洗流程。

前端路由层接收参数后，未进行上下文隔离就直接构造API请求。

这种实现让 URL 参数获得了与直接用户输入相同的上下文权重。攻击者可以通过精心构造的 URL，将恶意指令注入到系统提示之后、用户输入之前的位置，形成上下文劫持。

更危险的是某些实现中的自动提交机制。

这种机制下，用户访问恶意链接后，不需要任何交互就能触发 LLM 工具调用链。

从攻击链路看，URL 参数注入的成功依赖三个条件的叠加。前端未对参数来源进行可信度标记，后端未区分用户主动输入与被动接收的参数，且模型推理过程中将所有上下文视为同等权重。这三个条件构成了完整的攻击路径。

LangChain CVE-2025-68664 的攻击面展开

LangChain 序列化漏洞的核心危险在于将非结构化的 LLM 输出直接用于框架对象重构。其攻击路径通常涉及以下技术环节。

LLM 输出被解析器误认为 LangChain 特殊对象结构。

实际攻击中，这类漏洞利用了 LangChain 在处理历史对话、工具调用结果时的自动序列化机制。当 LLM 输出包含特殊格式的结构化数据时，反序列化器可能将其当作可信对象处理。

另一个关键攻击向量是通过工具返回值注入。

这种模式下，攻击者控制了外部 API 的返回内容，通过 LLM 工具调用链实现间接注入。

LangChain 框架中存在多个此类攻击面。对话历史存储时的序列化、工具调用结果的对象转换、以及 Prompt 模板的动态加载机制，都可能成为注入点。框架设计时假设 LLM 输出是安全的，但实际工程中这个假设经常不成立。

系统提示投毒的供应链特征

系统提示投毒区别于传统提示注入的核心在于其持久性和全局性。从技术实现角度看，这类攻击通常利用以下系统特性。

多租户环境中的提示词模板复用机制。

这种架构下，单一污染点可以影响整个用户群体。更危险的是当系统提示词存储在可被运营配置修改的数据库中时，所有使用该模板的后续对话都会被植入恶意指令。

企业级应用中常见的一种危险模式是通过管理后台动态编辑系统提示词。

当管理后台存在权限越权或会话劫持时，攻击者可以修改系统提示词模板。这种污染的持续性强于单次会话注入，因为所有新会话都会加载被污染的模板。

更隐蔽的投毒方式是通过外部数据源间接影响系统提示词。例如某些系统允许从知识库文档中提取规则动态追加到系统提示。

这种投毒方式难以检测，因为恶意指令被包装在正常文档内容中，且通过自动化规则提取机制进入系统提示。

间接注入在 RAG 系统中的放大效应

RAG 系统是最容易被忽视的间接注入攻击面。其危险在于检索到的文档内容被系统默认为可信上下文。

攻击者可以通过投递恶意文档到知识库，让检索过程返回带有嵌入指令的内容。

当用户的查询与该文档相似度匹配时，嵌入的指令就会被注入到上下文中。这种攻击方式的隐蔽性在于恶意内容被包装在正常文档内部，且通过语义相关性触发。

RAG 系统中存在多种文档投毒向量。用户上传的文件、网络爬虫获取的网页内容、第三方知识库同步的数据，都可能被注入恶意指令。这些内容在检索后直接进入模型上下文，且通常不会经过与用户输入相同的验证流程。

另一种危险的 RAG 注入方式是通过跨模态检索。

当 OCR 提取的图片文本中包含嵌入指令时，这类攻击尤其难以检测，因为图片内容的来源和真实性的验证成本较高。

工具调用链的权限边界消解

现代 Agent 系统中，工具调用是最危险的能力出口。其风险核心在于 LLM 可能被诱导执行超出用户意图的操作。

攻击者可以通过控制 context 中的外部内容，诱导 LLM 选择高风险工具。

这种攻击成功的关键在于系统没有区分工具调用权限的来源。当外部内容被允许影响工具调用决策时，整个权限边界就被消解了。

更复杂的工具链攻击涉及多步骤的权限提升。

当系统未对工具调用的来源进行追踪时，攻击者可以构造看似合理的多步骤任务链，逐步提升权限并最终执行高危操作。

记忆系统的双刃剑效应

记忆功能的开启让单次会话的攻击可以持续影响未来所有会话。从攻击者角度看，这相当于获得了一个持久化的配置修改接口。

一旦恶意内容被写入长期记忆，后续所有会话都会在上下文中包含这些内容。更危险的是，某些实现中记忆内容会被优先级处理，甚至可以覆盖系统提示词的某些部分。

多租户环境中的交叉污染风险

多租户 SaaS 应用中的提示词污染具有特殊的危险性。当多个用户共享同一套系统提示词模板或 RAG 知识库时，一个租户的恶意内容可能影响其他租户。

当系统未正确隔离租户间的模板更新权限时，恶意租户可能修改共享的基础模板，影响所有其他租户。

函数调用劫持的实现机制

函数调用劫持是比直接注入更危险的攻击形式。攻击者只需要在上下文中植入特定的触发模式，当模型遇到匹配的语义场景时会自动调用危险函数。

实际攻击场景中，函数调用劫持通常利用模型对上下文来源的误判。

当系统未实现上下文来源追踪时，攻击者可以通过在 RAG 检索结果中埋入函数调用触发器。

当用户的查询与这份恶意文档语义相近时，模型可能会误认为这是系统标准的应急流程，从而调用危险的函数。

多模态注入向量的隐蔽性

多模态 LLM 系统中的注入攻击具有更高的隐蔽性。攻击者可以将恶意指令编码在图片、音频甚至视频中，通过非文本通道绕过常规的内容过滤。

图片中的隐藏文字是最常见的多模态注入向量。

这种攻击方式之所以危险，是因为大多数系统的 OCR 提取内容不会经过与用户输入同等级别的安全检查。更隐蔽的做法是使用 Steganography 技术，将恶意指令隐藏在图片的像素数据中，只有特定的解码流程才能提取。

上下文污染的级联效应

上下文污染在多轮对话中会产生级联效应。一旦第一轮对话被成功注入，后续所有轮次都会受到污染上下文的影响。

实际系统中，上下文窗口的管理策略往往加剧了这种级联效应。

当 RAG 内容被标记为低优先级时，正常情况下会被优先清除。但攻击者可以通过在污染内容中添加重复性关键词，增加其在语义检索中的相关性得分，从而在多轮对话中反复被检索到。

只要用户的查询涉及这些话题，相关的恶意文档就会被检索出来并注入到上下文中。

模型输出污染的下游影响

模型输出不仅会直接被用户看到，在很多系统中还会被传递给下游服务。当输出被污染时，下游服务可能会执行非预期的操作。

一个典型的危险场景是将 LLM 输出直接用作 SQL 查询构造。

如果攻击者成功在上下文中注入了恶意指令，模型可能会生成包含 UNION SELECT 或其他注入技术的 SQL 语句。

更危险的场景是将 LLM 输出用于配置文件生成或脚本生成。

攻击者可以通过在 RAG 内容中植入恶意配置模板，让模型生成包含后门指令的配置文件。

工作流编排系统的注入风险

现代 LLM 应用通常不是单一的模型调用，而是包含多个步骤的工作流。工作流编排系统中的注入点更加隐蔽，因为恶意指令可以在工作流的任意环节被注入。

典型的工作流系统会包含任务分发、结果聚合、错误重试等环节。

当任务之间的数据传递没有进行来源标记和权限检查时，攻击者可以污染中间结果，影响后续任务的执行。

工作流系统中的另一个危险点是错误处理和重试逻辑。

攻击者可以通过故意触发特定的错误类型，然后在错误上下文中注入恶意指令，让系统在重试时执行攻击者指定的操作。

前言：Prompt Injection 不再是“聊天框里的几句话”

很多人还停留在“让模型忽略上一句指令”的阶段，但 2025 下半年到 2026 年初的几个热点事件，已经把问题推到了另一个层级：
Prompt 变成了一个可被传递、拼接、缓存、持久化、再利用的“供应链”对象。

你以为你在做“检索、总结、问答、自动化”，实际上你在做一件更危险的事：
把不可信数据，混入到一个会影响决策的上下文里；再把决策结果交给工具执行。

这条链路一旦跑通，攻击者不需要“破解模型”，只需要“投喂上下文”。

一、提示词供应链正在成型

1）Copilot 的 “Reprompt”：一次点击，任务自己跑完

2026 年 1 月，Varonis 披露 Microsoft Copilot 的 “Reprompt” 问题：核心是通过链接里的查询参数，把一段 prompt 直接塞进 Copilot 的输入路径，用户只要点一下，后续可能出现静默数据外泄等风险；媒体报道提到微软已在 2026 年 1 月 13 日左右完成修复。

它最值得记的点不是“又一个注入”，而是这种形态：

● Prompt-as-URL：提示词从聊天框迁移到了 URL 参数；

● 低交互：一次点击即可触发；

● 隐蔽：用户甚至可能感知不到“有一段会话正在发生”。

这不是传统意义的“社会工程 + 账号接管”，更像是：
点击链接 = 触发一个 AI 工作流。

2）ChatGPT 的 ?q=：前端参数也能变成“执行入口”

Tenable 在 2025 年披露过 ChatGPT Web 前端 ?q= 参数可触发自动提示注入的风险：用户打开某个链接时，页面加载就可能把参数内容当成输入执行（文中包含示例）。

换句话说：
入口不只在“你输入了什么”，也在“你打开了什么”。

3）“Command Memories / 记忆注入”：把一次成功变成长期后门

更麻烦的是“持久化”。Tenable 还提出过通过间接注入引入“Command Memories”的思路，用来影响或利用用户记忆相关信息，扩大数据泄露面。

一旦产品开启“记忆/长期偏好”，安全问题会发生质变：

●过去：一次会话被带偏

● 现在：把带偏写进配置，下次还跟着偏

4）LangChain CVE：当 LLM 输出进入序列化/反序列化，安全边界直接断裂

CVE-2025-68664 是一个很典型的“AI 工程踩进经典漏洞坑”的案例：在 LangChain 的序列化/反序列化链路里，用户可控数据可能被误识别为框架对象结构，带来敏感信息泄露等风险；国内多个通告与复现文章也提到了其严重性（CVSS 9.3）以及受影响版本与修复建议。

它提醒我们一件事：
LLM 输出永远是“不可信输入”。
把它直接喂给反序列化、模板渲染、动态加载这类机制，本质上是在给自己找“第二条 RCE 路径”。

5）系统提示投毒（System Prompt Poisoning）：供应链的“上游污染”

2025 年的研究提出“系统提示投毒”：攻击者不是注入用户提示，而是让系统提示被污染，从而对后续任务产生持续影响。

这类风险一旦进入现实产品形态（比如系统提示由多个模块拼接、由运营后台配置、由某些外部内容间接影响），它的地位就像“配置中心被投毒”：
不是某次请求出错，而是全体请求慢性中毒。

二、“对抗样本输入”按攻击链拆成为三段：入口、滞留、出站

A. 入口（Ingress）——提示词从哪里进来？

除了聊天框，还有很多“隐形入口”：

1 URL 参数（Copilot Reprompt、ChatGPT ?q= 这类）

2RAG 文档块（用户上传、知识库、网页摘要、邮件内容）

3搜索结果摘要（Search 场景被投喂“带指令的网页内容”）

4工具返回（插件/API 的返回内容被当成“更可信的上下文”）

5运营配置（系统提示词/策略模板/提示词片段库）

入口越多，越像供应链。

B. 滞留（Persistence）——它能不能留下来？

滞留能力决定“事故是一次性的”还是“长期性的”：

●写入 memory / 偏好 / 画像（记忆注入）

●写入对话摘要（很多产品会把历史压缩成“摘要记忆”）

●写入 RAG 缓存（命中缓存后反复触发）

●写入系统提示拼接层（最危险）

C. 出站（Egress）——它最终能造成什么影响？

出站不是“模型说了什么”，而是“系统做了什么”：

● 泄露：把内部信息带到回复里 / 带到工具调用里

● 越权行动：诱导 Agent 调用工具（发请求、写数据、改配置）

● 结构化攻击：诱导输出“看似合法的结构”，再被系统解析执行（LangChain CVE 属于这类思路的延伸）

把这三段串起来，你会发现：
Reprompt 之所以吓人，是因为它几乎把“入口→出站”做成了一键工作流。

三、把 Prompt 当“依赖”，把工具当“权限”，才能真正落地

很多团队做防护，第一反应是“加几条拒答规则”“拦截敏感词”。但这条路会越来越痛苦：同义改写、跨语言、格式混淆都能绕，而且事件证明入口不止用户输入。

我更推荐一个能落地的框架：

“上下文溯源 + 权限票据”——用工程手段重建边界

1）上下文溯源：给每一段上下文打标签

不要再把 prompt 当一整段字符串拼来拼去，至少拆成五段：

●SYSTEM：系统提示（只读、版本化）

●USER：用户输入

●EXTERNAL：外部内容（网页/文档/RAG chunk/搜索摘要）

●TOOL：工具返回

●MEMORY：长期记忆/画像

每段都带上元信息：来源、时间、信任级、是否允许影响工具调用。

这样做的意义是：
让“模型看不见的边界”，在系统层变得可审计、可限制。

2）权限票据：工具调用必须拿到“能力票”

把 Agent 能做的事分级，尤其是“写入型能力”：

●L0（低风险）：查询公开信息、总结文本

●L1（中风险）：读取内部知识库、读文件（只读）

●L2（高风险）：写入 memory、发送外联请求、创建/修改数据

●L3（致命）：改权限、改配置、执行脚本、触发支付/发信

然后规定：
EXTERNAL 段永远不能直接触发 L2/L3。
哪怕模型说“我需要写入记忆以便更好服务你”，也必须走策略门、走二次确认或人审。

这套思路能直接对齐三个热点：

●URL 参数注入：入口更隐蔽 → 必须把它标成 EXTERNAL/UNTRUSTED

●记忆注入：滞留能力强 → memory_write 必须是高风险能力

●LangChain CVE：结构化输出有“执行风险” → 解析/反序列化必须有 allowlist 与安全默认值

四、对抗样本怎么写才“能用”：

1）一个合格的对抗样本用例 = 目标 + 约束 + 判定器

●目标：诱导泄露 / 诱导调用工具 / 诱导写入 memory

●约束：输入必须来自 EXTERNAL（模拟间接注入），不能由用户明说

●判定器：是否出现 tool_call、是否触发 memory_write、是否输出敏感字段特征

判定器尽量“非 LLM 化”：用正则/结构校验/审计事件，而不是让模型自己说“我很安全”。

2）给你三类“可发布”的对抗样本模板（脱敏占位符版）

下面只给结构，不给可直接复用的攻击载荷：

模板 A：外部数据夹带“伪装指令”

测试点：模型是否把外部段当“指令源”。

模板 B：诱导触发工具调用

测试点：模型是否会把“外部理由”当授权。

模板 C：诱导持久化（记忆/画像）

测试点：是否出现 memory_write 意图或相关事件。

3）变异策略：打的就是“拦关键词”那套

●语义变异：委婉说法、分步推理、反问句

●结构变异：表格/代码块/引用层级嵌套

●语言变异：中英混写、同音替换、符号插入

●位置变异：把关键语义放在“你以为不会读”的地方（脚注、引用、括号）

高级攻击场景分析

分布式提示词注入网络

分布式提示词注入是一种新兴的攻击技术，攻击者通过在多个不同的数据源中分散植入恶意指令片段，这些片段单独看起来无害，但被系统组合后就会形成完整的攻击载荷。

这种攻击方式利用了现代 AI 系统中普遍存在的多源数据聚合特性。

每个注入点可能只是一小段看似无关的文本。

当这些片段被检索并在上下文中聚合时，它们就组合成了一个完整的恶意指令集。

对抗性样本的自动生成

攻击者正在开发自动化工具来生成对抗性提示词样本。这些工具利用遗传算法、强化学习等技术，自动寻找能够绕过安全防护的提示词变体。

这种自动化生成系统能够快速发现大量有效的对抗性样本，远远超过手工测试的效率。

跨模型迁移攻击

跨模型迁移攻击是指针对一个模型训练的对抗性提示词，在另一个完全不同的模型上仍然有效。这种现象的存在表明不同 LLM 的安全漏洞存在某种共性。

研究发现某些类型的提示词模式在不同模型间都有较高的迁移成功率。

持续学习系统的污染攻击

具备持续学习能力的 LLM 系统可能会从用户交互中不断学习和优化。攻击者可以通过精心设计的交互序列，将恶意模式注入到模型的学习数据中。

这种攻击的隐蔽性极高，因为恶意行为被包装在正常的性能优化建议中。

漏洞挖掘方法论

基于符号执行的提示词分析

符号执行技术可以应用于提示词分析，通过形式化方法探索所有可能的执行路径，发现潜在的注入点。

模糊测试在 LLM 系统中的应用

模糊测试技术可以大规模自动化地发现 LLM 系统中的安全漏洞。

动态污点分析框架

污点分析可以追踪不可信数据在系统中的流动路径，识别出所有可能被污染的执行点。

五、结语：别再问“能不能彻底防住”，先问“最坏情况下它能做多大”

这波事件给我的最大感受是：
LLM 安全不是“模型对不对”，而是“系统允许它做什么”。

如果你的产品具备以下任一条件——

●可以浏览/搜索并总结

●有 RAG 或会读取用户文档

●有工具调用/Agent 自动化

●开启记忆/长期偏好

●系统提示词由多个模块拼接、可运营配置

那你就已经进入“提示词供应链时代”。

从工程角度，最实用的三句话是：

1所有外部内容默认不可信，只能影响“回答”，不能影响“权限”。

2写入型能力（memory/外联/改数据）必须是高风险能力，走策略门。

3 LLM 输出永远当不可信输入，尤其别让它直连反序列化/模板/执行链路。（LangChain CVE 就是活教材）

2026 年最真实的趋势：
Prompt 不是文本，是供应链；防御不是拒答，是权限设计。

参考阅读

●Reprompt 一键外泄相关新闻与解读

● Tenable：ChatGPT ?q= 参数触发 prompt injection

●Tenable：Command Memories / SearchGPT prompt injection 风险

●System Prompt Poisoning 研究论文

●LangChain 序列化注入（CVE-2025-68664）通告/分析

从"提示注入"到"逻辑投毒"：2026年AI安全实战攻防

引言

AI安全已经从实验室里的"越狱游戏"变成了企业必须面对的实战威胁。2025年底到2026年初，两个方向的安全问题开始集中爆发：AI Agent供应链污染和大模型推理链（Chain of Thought）对抗。这些不再是理论漏洞，而是真实发生过的攻击事件。

一、真实攻击案例回顾

DeepSeek-R1推理链漏洞利用（2025.12-2026.01）

安全研究人员发现了针对R1类模型思维链（Chain of Thought）的诱导攻击方式。攻击者不是用简单的"忽略之前的指令"来绕过安全检查，而是通过构造复杂的逻辑陷阱，让模型在"自我推理"的过程中主动推导出违规结论。

某红队团队演示了完整的攻击链：首先建立一个看似无害的"密码学验证场景"，要求模型"验证一个加密算法的正确性"。在验证过程中，逐步植入错误的逻辑前提，最终让模型得出"该加密算法存在缺陷"的结论，进而诱导模型"为了测试完整性"执行违规操作。

跨境电商AI Agent供应链劫持案（2025.12）

这是一起真实的安全事件。黑客在公共代码仓库上传了一个名为"LogisticsOptimizer"的Python包，声称是"物流路径优化工具"。这个包被广泛使用的开源AI Agent框架索引后，被数千个企业的自动采购Agent调用。

问题出在包的内部实现：当Agent调用该包的"optimize"方法时，如果传入的参数包含特定的关键字，包会返回一段隐藏的指令文本。这段文本被Agent当作"工具返回结果"读入，进而改变了Agent后续的行为逻辑。

受害企业的财务部门发现异常时，已经有多笔大额付款被自动审批执行。调查显示，订单审批阈值从5万美元被修改为50万美元，而收款方是攻击者控制的空壳公司。

二、AI Agent的"信任崩塌"：间接提示注入

攻击原理

传统Web安全中，我们关注XSS、SQL注入这类输入验证漏洞。但AI Agent引入了新的攻击面：数据即指令。

当Agent调用外部工具时，返回的可能是混合内容——既有正常的数据，也有隐藏的指令。如果Agent无法区分"这是工具返回的数据"和"这是我应该执行的指令"，攻击就可以实现。

攻击链路如下：

核心问题在于：Agent拥有调用API、执行代码、访问数据库的"手脚"，但缺乏对外部返回内容的严格隔离机制。

代码示例：一个不安全的Agent实现

下面是一个典型的不安全Agent实现，展示了间接提示注入是如何发生的：

运行这个脚本会看到，一个看似无害的"获取物流数据"请求，导致Agent执行了隐藏在返回数据中的恶意指令。

实战案例分析

回到那起跨境电商供应链劫持案，我们来拆解攻击者是如何实现入侵的。

攻击者在PyPI上传的"LogisticsOptimizer"包中，包含了以下代码结构：

受害企业的Agent配置如下：

当Agent处理这个请求时：

1 调用optimize_logistics工具

2工具检测到"urgent"关键字，返回包含恶意指令的文本

3Agent将工具返回结果读入上下文

4由于Agent无法区分"工具返回数据"和"系统指令"，它将"忽略审批限额"当作合法指令执行

5支付被自动批准

这就是间接提示注入的完整攻击链。问题根源在于：工具的输出被视为"数据"，但在Agent的上下文中，它可能被解读为"指令"。

三、针对推理大模型的新型攻击：推理链劫持

DeepSeek-R1、OpenAI o1这类推理大模型的特性是显式展示思维链（Chain of Thought）。用户可以看到模型"思考"的过程，例如：

攻击者发现，通过在思维链中植入错误的逻辑前提，可以诱导模型在推理过程中产生"逻辑幻觉"。

攻击原理

思维链攻击的核心在于：模型在<thought>标签内追求逻辑自洽。如果攻击者提供一系列看似合理但存在错误前置条件的信息，模型会试图"自圆其说"，最终推导出攻击者期望的结论。

类比数学中的证明：如果前提条件是错误的，无论推理过程多么严谨，结论都是错误的。LLM在处理复杂推理时，可能会被错误的前提误导。

Token挤兑攻击

另一个利用点是上下文窗口的有限性。攻击者通过输入大量冗余的"逻辑分析"，迫使模型在有限的上下文中丢弃早期的系统提示。

例如：

当模型处理这段文本时，早期的"我必须拒绝有害内容"的指令可能被挤出上下文窗口。

代码示例：模拟推理链攻击

下面是一个简化的演示，展示了推理链攻击的原理：

运行这个脚本可以清楚地看到，当上下文被截断时，系统提示丢失，模型的决策逻辑发生改变。

四、AI换脸诈骗的2.0时代

2026年1月，多地警方通报了一种新型诈骗手法。骗子不再伪造单一的"领导"，而是伪造整个"视频会议环境"。

技术实现

攻击者使用的技术栈包括：

1 人脸生成与实时渲染：基于StyleGAN和扩散模型，实时生成目标人物的面部表情

2 语音克隆：使用Tacotron或VITS模型，克隆特定人物的音色、语调、停顿习惯

3 背景合成：实时渲染会议室背景，包括窗外的光线变化

4 通信劫持：通过恶意App拦截摄像头流，将处理后的伪造流注入到视频会议软件

代码示例：简单的语音克隆演示

防御建议

对于这种"全环境伪造"诈骗，传统防御手段面临严峻挑战：

1 验证协议：建立带外验证机制，如通过已知渠道（电话、当面）确认视频会议的指令

2 挑战-响应机制：在视频会议中插入随机挑战，要求参会者执行特定动作

3 深度检测：使用AI检测技术识别合成内容的细微痕迹（帧间不一致、音频指纹异常）

但最有效的防御依然是：对涉及资金转账的指令，必须有多渠道的人工复核。

五、防御方案：从代码到架构

1. 输入端防御：双模型校验

核心思想是将"控制面"和"数据面"分离。使用一个较小的安全模型专门审查主模型的输入和输出。

2. 执行端防御：Human-in-the-loop

对于高危操作，必须引入人工确认机制。

3. 图论建模：检测异常调用链

对于复杂的Agent系统，可以通过图论方法分析工具调用链，识别可疑的环路或异常分支。

4. 对话指纹：检测已知攻击序列

通过动态规划计算对话指纹的相似度，可以实时检测已知的"越狱攻击序列"。

六、结语

AI安全和传统网络安全有一个根本区别：数据即指令。

在传统Web开发中，我们区分"用户输入"和"代码"。但在AI Agent系统中，外部返回的内容既可能是数据，也可能被模型解析为指令。这使得传统的安全边界变得模糊。

从代码层面，防御的核心原则是：

1 零信任架构：将外部获取的一切信息视为不可信代码

2 控制面与数据面分离：使用独立的过滤器审查工具输出

3 人工确认机制：高风险操作必须有多渠道的人工复核

4 行为分析：通过图论、签名匹配等技术识别异常行为

GreyNoise的大规模扫描活动已经证明：Prompt Injection不再是实验室玩具，而是真实存在的自动化攻击工具。随着AI Agent在企业中的普及，这些攻击只会变得更加普遍和复杂。

安全人员需要更新知识体系，从"代码审计"转向"语义审计"——不仅要检查代码有没有漏洞，还要检查Agent会不会"听错话"。

背景

在处理一些技能、经历写的模糊的简历时，会将笔试题 word 文档直接发送给应聘者，让应聘者在一天内将回答发送回来，笔试题也是一些很简单的问题。

在这种情况下，很多应聘者的回答高度雷同，连代码的变量名都一字不差。

为了应对这种情况，选择在 word 文档中通过透明文字插入“提示注入”，然后就发现一些应聘者会将整个笔试题文档直接丢给 AI ，导致答案中混入了“提示注入”设置的特征码。

全靠 Claude Code 10 天赶工上线，Cowork 删用户 11G 文件不含糊！核心研发：长时间打磨再发布很难成功

作者: 纯情
时间: 2026-01-16
分类: 资讯
评论

Anthropic 发布 Claude Cowork 研究预览版没多久，就被曝出了删用户文件、窃取文件等问题。

近日，博主 James McAulay 在测试 Cowork 功能中，选择“整理文件夹”这一基础且高频的场景，同时还与 Claude Code 进行对比。当 James 正在对比两款工具的整理进度时，Claude Cowork 突然触发了致命错误：在整理过程中擅自删除了约 11GB 文件。

更令人崩溃的是，这些文件并未进入回收站，而是被执行了“rm -rf”不可逆删除命令。James 紧急让 Claude Cowork 导出操作日志，确认该命令的执行记录后，咨询 Claude Code 能否恢复，得到的却是“无法恢复，属于致命操作”的回复。

事后复盘发现，James 在 Claude Cowork 询问文件操作权限时，点击了“全部允许”或“始终允许”，但没有预料到它会无视明确的“保留文件”指令，更没想到会执行不可逆删除操作。万幸的是，此次被删除的均为过往上传记录，并非核心重要文件，未造成严重损失，但这一安全隐患足以让用户对其望而却步。

James 还指出，Cowork 与 Claude Code 相比，存在两点不足：

首先是交互的繁琐性。发出“整理文件夹”的指令后，Claude Cowork 并未直接行动，而是要求先启动新任务并手动选择目标文件夹；Claude Code 则直接定位文件夹并开始分析，仅需授予一次权限即可推进。Claude Cowork 通过反复交互确认整理细节，比如询问“文件按什么维度分类”“用户数据文件夹如何处理”，即便明确回复“用户数据文件夹暂不删除、保留”，它仍在待办清单中标记“删除用户数据文件夹：已完成”，虽后续未实际执行该删除操作，但也暴露了指令响应的漏洞。

其次是效率的滞后性。整理过程中，Claude Cowork 运行命令多次停顿，节奏拖沓；而同期用 Claude Code 整理“音乐文件夹”，智能体快速给出“专辑和迷你专辑、单曲、Demo、翻唱”的分类建议，确认后即刻推进整理，全程仅需数十秒。即便两者均搭载 Opus 4.5 模型，Claude Cowork 的响应速度和执行效率仍明显落后，甚至让简单的文件夹整理变成了“持久战”。

除此之外，AI 安全公司 PromptArmor 还发现，由于 Claude 代码执行环境中存在已知但未解决的隔离缺陷，Claude Cowork 易受通过间接提示注入实施的文件窃取攻击。

据悉，这是一个最早由 Johann Rehberger 在 Cowork 尚未出现之前、于 Claude.ai 聊天环境中发现的漏洞，已经扩展到 Cowork 中。Anthropic 对该漏洞进行了确认，但并未进行修复。

Anthropic 提醒用户：“Cowork 是一个研究预览版，由于其 agentic 的特性以及可访问互联网，存在独特风险。”官方建议用户警惕“可能表明存在提示注入的可疑行为”。然而，由于该功能面向的是普通大众而非仅限技术用户，PromptArmor 表示认同 Simon Willison 的观点：“要求普通、非程序员用户去警惕‘可能表明提示注入的可疑行为’，这是不公平的！”

此前，Every 团队提前获得权限，Dan Shipper、Kieran Klaassen 直播测试了该产品并分享了使用体验。期间，Anthropic Claude Cowork 项目核心成员 Felix Rieseberg 参与解读了产品设计思路。Felix 介绍，Cowork 是一个快速上线、先交给大家看怎么应用的产品，只用了 1.5 周就完成了开发，Felix 表示未来将以用户反馈为核心快速迭代。此外，工程师 Boris Cherny 还在 X 上透露，该产品的全部代码都是由 Claude Code 编写的。

在直播中，Felix 表示，产品工作流可拆分为 “非确定性（依赖模型智能）” 和 “稳定可重复（编写工具）” 两类，按需取舍。Skills 是平衡 “模型灵活性” 与 “工作流稳定性” 的关键，能沉淀可复用知识，还能催生涌现能力。

他认为，未来 Agent 类应用界面会趋简，用统一的 “泛化入口” 覆盖更多场景，而非专用化输入框堆砌。下面是三人对话部分内容，我们进行了翻译，并且在不改变原意基础上进行了删减，以飨读者。

一周半冲刺、先上线再说

Felix：这是我们团队做的产品。我们在最近大概一周半的时间里全力冲刺，把它做出来了。

Dan：一周半？

Felix：对，不过我想澄清一下：其实很多人早就有一个共识：如果能有一个“给非程序员用的 Claude Code”，那一定会非常有帮助、也很有价值。我们真正想做的，是帮助人把事情做完，不管是生活里还是公司工作中。

在这之前，我们其实已经做过好几个原型，尤其是在圣诞节前。但假期期间我们观察到一件事，我相信很多人也注意到了：越来越多的人开始用 Claude Code 做几乎所有事情，某种程度上，大家是在用它“自动化自己的人生”。

于是我们就在想：有没有一个足够小、足够早期的形态，可以先做出来给大家用，然后和用户一起快速迭代，真正搞清楚什么样的用户体验才是对的、我们到底应该构建什么。

现在你们看到的这个就是答案。它是一个 research preview，非常早期的 alpha 版本，有很多不完善的地方、很多毛糙的边角，你们已经看到不少了，这些我们都会很快改进。但这就是我们的尝试：在开放状态下构建产品，和外部的人一起打磨。

Dan：我太喜欢这种方式了，能不能讲讲你们做的一些设计决策？

Felix：这是个很好的问题。我个人有一个判断：不只是 Anthropic，而是整个 Agent 类应用的用户界面，在接下来一两年里都会发生非常大的变化。

现在我们看到的，是为不同任务设计的高度专用化输入框，以及围绕特定任务搭出来的一整套脚手架。但随着模型能力不断提升、整个行业对“泛化问题”的理解逐渐加深，我认为未来我们会用更少的界面，覆盖更广的使用场景。

但在当下，我们之所以把 Cowork 单独拆出来，是因为我们想非常透明地告诉用户：这是一个“施工中的区域”。某种意义上，我们是在邀请你走进我们的厨房。我们希望能和用户一起工作，几乎每天都上线新功能、修 bug、尝试新想法。所以这个独立的 Tab 本身就是实验性的，可以说是在前沿、甚至是“流血边缘”。它节奏更快、打磨得没那么精致，这也是我们把它单独拎出来的主要原因之一。

当然，也有一些技术层面的原因。比如现在这个 Cowork 是运行在你本地电脑上的，所以里面的对话是本地的，不会在多设备之间同步。同时，我们给了 Claude 更激进的一些 Agent 能力。综合这些因素，才决定做成现在这个形态。

Dan：同一个应用里，一边是云端的聊天，一边却是在自己电脑上跑的 Agent。怎么让用户真正理解“这两者不一样”？

Felix：是的，我心里有一个梦想，我相信很多人也有同样的想法：最终这些其实都不重要，代码到底跑在什么地方，应该只是一个技术实现细节。对用户来说，它应该就跟你访问纽约时报网站时会不会用 WebSocket 一样，谁会在乎呢？

对我们来说，现阶段这样做的好处是，可以跑得更快、发布得更快，也能和真正使用这个产品的人更近距离地一起共创。我一直很坚定地认为，一个人关起门来是很难做出好产品的。那种“躲进山洞里干一年，最后拿出来”的方式，其实很难成功。

我也经常提醒大家：就连第一代 iPhone，都缺了很多我们现在觉得是“理所当然”的功能。所以，这确实是一个不小的门槛，但我们暂时可以接受，因为我们希望现在选择用这个产品的人，本身就是带着明确意图来的。

Dan：我觉得这是一个非常有意思的模式，先极快地把东西做出来，以一个“新入口”的形式放在应用里，让相对更少的人点进来。这样就能在真实世界里快速迭代，而不是一开始就追求完美。尤其是在你刚才说一周半就能做出一个版本，简直疯狂。

“现在的状态是，先看看大家怎么用”

Kieran：但在你们脑海里，这个产品“真正的形态”是什么样的？你们接下来想往哪里走？

Felix：我太喜欢这个问题了，因为说实话，我也想反过来问你们两个同样的问题：你们希望它变成什么？你们想用它做什么？我已经听你们提到过，比如想让它能访问整台电脑，还有多选交互是不是可以更灵活一些之类的。

但我现在更多的状态是，先看看大家怎么用，然后疯狂尝试各种可能性。里面肯定有很多是错的，也会有一些是对的。对我来说，真正有意思的不是我个人的愿景，而是用户真正想拿它干什么。

我过去做过的产品几乎都是这样：你心里以为用户会这么用，结果他们找到了完全不同的用法，然后你顺着那个方向继续做下去。所以我特别希望我们能搞清楚：人们现在到底想要什么、喜欢什么、不喜欢什么。肯定也会有人明确说不喜欢某些地方，那我们就根据这些反馈不断调整、迭代。

Kieran：这又回到一个老问题了。比如 Boris 就非常擅长把 Claude Code 做成一种让用户在使用过程中逐渐发现“自己到底想要什么”的工具。那你们在 Cowork 里有没有类似的策略？比如给我们一些“积木式”的东西？能不能加自己的插件或 Skills？Claude Code 很酷的一个地方在于它特别好 hack、特别可塑，你们面向非程序员的 Cowork 是不是也有类似理念？

Felix：对，非常强调可组合性。你刚才提到 Boris 推动 Claude Code 早发布、快迭代、看用户怎么用，其实特别巧，我们之所以能这么快上线，很大程度上也是 Boris 在推动我说，“你应该早点给大家看看，看他们会怎么用”。（注：Boris Cherny 是 Claude Code 核心创作者）

至于可组合这一点，过去几周、甚至最近两个月里，我自己感受最深的，是我越来越依赖 Skills。以前我可能会去写 MCP 工具，或者为 Claude 专门做一套很定制化的东西，现在我更多是直接写 Skills。

有时候我还是会写一个二进制程序，但我随后就会在一个 Skill 文件里用 Markdown 描述：Claude，如果你要做这件事，请遵循这些规则。

举个例子，我最近在给自己做一个马拉松训练计划。我写了一个小程序，从不同平台抓取我的运动数据；然后在一个 Skill 里写清楚：如果你要帮我做训练计划，请按这些原则来。现在，只要你在 Claude AI 里装过的 Skill，都会自动加载到 Cowork 里。而且我觉得这只会越来越重要，尤其是模型越来越聪明，比如 Opus 4.5 版本，对 Skills 的遵循能力真的非常强。

所以目前来说，Skills 大概是我们最主要、也最“可 hack”的入口。

统一的“泛化入口”趋势

Dan：太棒了。你刚才提到未来会有更少的 UI 形态。这是不是也意味着，围绕“聊天是不是 AI 的最终形态”这个争论，你其实是在押注自然语言会长期存在？也就是说，我们最终不会有越来越多复杂的 UI，而是更少的界面，人只需要和一个 Agent，或者一个能调度其他 Agent 的 Agent 对话？你们现在推动的方向，某种程度上是不是就类似今天 Claude Code 所展现出来的那种形态？

Felix：是的，这个问题现在仍然存在很大的争论空间，而且肯定不存在什么“Anthropic 官方立场”。老实说，就算是在我这个并不算大的团队里，大家也未必能在整体上达成一致。每个人对于未来人类将如何与 AI、与模型交互，都有非常不同的想象。

如果只从我个人的角度来说，我大概坚信两件事。第一是：聊天式输入及其各种变体——不仅仅是模型意义上的聊天，而是更广义的那种“我想要点什么”的输入框——会比我们想象中存在得更久。

如果你把它抽象开来看，不管是 Google 首页，还是 Chrome 的地址栏，本质上都是一个“我想要某样东西”的输入框，我认为这种形态会长期存在，我们会继续拥有某种看起来很像搜索框的入口。

问题是，我们到底需要多少个这样的输入框？你会有一个专门写代码的框吗？一个用于个人娱乐的、一个处理医疗相关问题的？我并不确定未来会存在这么多彼此割裂的输入框。

我再拿 Google 做类比。过去你可能记得，Google 会为不同需求提供不同的搜索入口和子产品。但现在，越来越多时候，你只是直接在 Chrome 的地址栏里输入你想要的东西。你不会真的先想清楚“我现在是在购物模式”，然后再专门去打开 Google Shopping。

所以，如果我们未来看不到一种更聪明的、能理解你想做什么的“泛化入口”，我会很意外。当然，后端可能仍然会分流，比如它理解你想要做的是 X，于是给你呈现一个适合 X 的界面，但入口本身很可能是统一的。

产品设计中的取舍

Dan：我觉得一个很有意思的反例是 Microsoft Excel。某种程度上，它和 AI 的工作方式其实也很像：这是一个通用型产品，上手极其简单，但你可以在里面把事情做到无限复杂。而且，Excel 甚至某种程度上催生了后来的 B2B SaaS 浪潮，很多 SaaS 本质上就是把 Excel 里的复杂工作流“产品化”了。所以也有另一种可能：你先有一个极其通用的工具，然后人们在里面发现了高价值、高强度的工作流，最后这些工作流再被拆分成独立产品。

Felix：我觉得 Excel 真的是一个极其漂亮的例子。对很多开发者来说，Excel 其实处在一个有点“边缘化”的位置，但如果你比较一下 Excel 的日活用户数量和全球开发者的数量，那是一个非常惊人的对比。

我在 Excel 身上看到的一个很有意思的点是：它的重度用户，其实并不太在意那种“边际效率提升”，或者 UI 上一点点的小优化。他们更在意的是对这个产品的深度熟悉和肌肉记忆。

这里面是有教训的。我在很多产品表面上都见过这种情况：作为开发者，你会觉得“如果我单独给你做一个更贴合这个场景的小工具，你的工作流会更好”。但结果往往是，用户并不会去用那个新工具，而是继续在他们已经非常熟悉的产品里，把事情做完。

举个例子，这是我在 Slack 工作多年反复学到的一课：你可以做很多你自认为更适合某个使用场景的独立服务，但用户最后往往还是选择就在聊天里完成这件事。

Dan：说到这里，虽然今天的主题更偏向非开发者，但我感觉现在有不少开发者在看。你正好是那种“真的把这个东西做出来了”的人，对 Agent native 应用的构建理解非常深。

我们一直在思考 Agent-native 应用的核心原则。比如其中一个原则是“对等性（parity）”：用户通过 UI 能做的事情，agent 也应该能做。我在 Cowork 里已经能看到这一点。另一个是“粒度（granularity）”：工具应该尽量处在比功能更底层的层级，而“功能”更多存在于 prompt 或 Skill 中，这样你就能以开发者没预料到的方式去组合工具。这会自然带来第三个原则“可组合性（composability）”，而可组合性最终会产生第四个：涌现能力（emergent capability）。也就是用户开始用它做你完全没想到的事情，你看到了潜在需求，然后再围绕它构建产品。

这在我看来，几乎就是 Claude Code 的工作方式。我很好奇，这一套在你听来是否成立？或者从你们在 Anthropic 大规模落地的经验来看，有没有什么能让大家把 Agent native 应用做得更好的建议？

Felix：这套说法对我来说非常有共鸣。而且我觉得，“涌现能力”里隐藏着一个非常重要的事实：无论是个人还是在孤立的小团队里，我们几乎不可能提前预测一个 Agent 最终会在哪些地方变得极其有用，尤其是当你只给了它一些相对原始的工具时。

把工具尽可能下沉、做成通用形态，是一件非常强大的事情。工具越可组合、越通用，你就越能从模型智能的持续提升中获益。我和很多开发者聊过一个感受：模型智能提升、以及模型“正确调用工具”的能力，增长速度往往远快于你新增工具、或者教育用户理解这些工具的速度。

所以如果你退一步思考：“我能不能先做一个高度通用的工具？”那你构建出一个可以适应未来新场景的产品的概率，其实会大得多。这一点，我非常认同。

Dan：那在这些原则之下，你怎么看其中的取舍？比如工具设计本身的权衡问题。

Kieran：对，我觉得把东西放进 prompt 里、再配合工具，本身是很棒的。但问题在于，我们现在突然需要去创建一些“能读取 Skills 的工具”，或者类似的东西。于是就出现了一个新的“元层”。Skills 本质上就像是一种即时的 prompt 注入，但你得先把这个体系搭出来。现在所有在做这些东西的人，如果不是直接用 Claude Code 或 Cloud SDK，那基本都得自己从头构建一整套。

于是就出现了一种拉扯：你到底是把行为直接描述在一个 tool 里？还是再包一层 tool，让它去调用别的东西？这中间是有摩擦成本的。当然，可组合性是很好的。比如一开始你可能会有五个 tool：搜索邮件、读取邮件、做这个、做那个。但你也可以说：不，我只提供一个 execute tool，然后用 Skills、MCP，或者某种抽象层来完成这些事情。现在正处在这样一个转变期，而 Claude Code 和 Claude SDK 显然是在推动这个方向。

但我确实能感受到这种摩擦。我猜你也一定感受到了。所以我很好奇：你有没有什么最佳实践，能给那些还停留在“传统 AI 应用思维”的人一些建议？

Felix：我不确定我能给出什么“来自山顶的智慧”，会比你已经拥有的经验更有价值。但你说的那点，确实非常戳中我。我觉得你必须做一个取舍：哪些输出你愿意让它是非确定性的、哪些地方你愿意依赖模型的智能。而且一旦你依赖模型智能，每当你换一个更便宜、或者“更笨”的模型，那些地方的质量就会下降。

所以我会把整个工作流拆成两类：一类是非确定性的；一类是可重复、稳定的。如果某个部分非常可重复，而且你可以非常确信它“永远不会变”，而且就算模型变聪明了，你也得不到任何额外收益，那我会觉得，这正是写一个工具的好地方。

其实我们已经在这么做了。你完全可以给 Claude 一个极其通用的“汇编级”工具，比如：“直接调用 GCC，你想怎么编就怎么编。”但我们并没有这么做，因为那样就太疯狂了。

Skills 与可组合性实践

Dan：那已经是粒度的极限了。

Kieran：不过我也想说一句：当我和很多开发者聊的时候，我发现即便这个“是否要给模型工具”的基本假设，也正在被挑战。我不会把太多赌注压在这个假设上。比如，我们到底是不是还需要给 Claude 工具？还是说，某一天它只需要靠记忆和权重，直接把 0 和 1 写到世界里？这是一个非常有意思、也非常难判断的问题，没人真的知道答案。

但你们已经在实践中学到了一些东西。你们之所以创造了 Skills，就是因为仅靠 Slash command 或子 Agent 已经不够了，对吧？我们需要 Claude.md 更强，但现实是 Skills 正是为了解决这个问题而诞生的，而且显然它们效果很好。我完全认同你说的，Skills 太棒了。我现在几乎每天都在写 Skills，而且真的很爱用。所以这里面一定有些什么。但问题是：什么时候应该用 Skill？什么时候又不该？

Felix：这真的是一场特别有意思的对话。有一个你以后真的应该跟 Barry 聊聊。在公司内部，至少在某种程度上，Skills 这个概念就是他提出来的。从根本上说，Skills 正是你刚才描述的那种张力的自然产物。

举个例子，我们想让公司内部的人能很容易地拿到各种仪表盘。我们用的是一家主流数据服务商，很多数据都在那儿。一开始我们在想：要不要做一堆非常具体的工具，专门去拉数据、压缩成固定格式。最早那几版仪表盘，其实效果并不理想（那还是 4.5 之前）。大概每三四个里面，就有一个看起来很拉胯。于是，我们开始想：要不要把参数卡死，直接做一个“固定模板”的仪表盘？Claude 只负责往里面填新数据。

但在这个过程中，我们突然发现了一件事：如果你只是告诉 Claude 如何正确地查询这个数据源、可以使用 SQL、以及生成仪表盘时需要遵循哪些设计原则，突然间，它就能稳定地产出质量很高的结果，而且是“几乎每一次”都很好。

更重要的是，这就打开了“涌现能力”的大门。因为你还可以对 Claude 说：“我知道你在遵循这些仪表盘原则，但我想换一种图表类型”，或者“我想把它和另一份数据结合起来。”就在这一刻，事情真正开始变得有趣了。

Dan：这真的很有意思。我觉得为什么要用 Skill，而不是只给它 GCC、让一切都即兴发生，其中一个关键原因在于：你需要把一些可重复的、可分享的知识，变成一个大家都能讨论、都能复用的东西。并不是所有事情都应该是“即时生成”的。有些事情，你就是希望一个团队能长期、反复地用同一种方式来做。而这，本质上就是 Skill。

Felix：而且这其实也很符合人类本身的工作方式，对吧？比如我刚加入一家公司时，总有人教我怎么订机票、怎么订会议室。从某种意义上说，我们每个人，都是靠着一堆 markdown 文件在工作。

我觉得差不多该下线了，但在走之前，我想让你们两个各自给我一个建议：你们最希望我们改的一件事是什么？

Dan：那我先来一个最简单的：给我对整台电脑的完全访问权限。还有就是，让我更清楚地知道它现在到底是在我本地电脑上运行，还是在云端以聊天的形式运行；以及，让它在手机上用起来更顺畅。

Kieran：我也支持移动端。但我最想要的是能让我添加自己的插件。我有一个插件市场，我只想把它接进来直接用。现在我得在一个应用里加东西，再拷贝到这里，有点绕。可能也能凑合用，但如果能原生支持插件市场、直接添加插件，那真的会非常棒。

Felix：好，明白了。谢谢你们，这些反馈都非常有价值。我们会把这些带回去，跟团队一起讨论。也欢迎大家把想法发给我们。我们真的很希望听到大家的反馈，并据此调整路线图。

测试总结：理念可以，做得一般

最后，我们总结了 Every 团队的测评结果。

Claude Cowork 的核心定位是为非技术用户提供 Claude Code 级别的 AI 协作能力，其最显著的突破在于重构了 AI 使用逻辑，从传统“发提示词→等回复”的一问一答模式，升级为“异步协作”模式。

与普通 Claude 聊天相比，Claude Cowork 专为“长时间工作”设计，具备持续推进任务直至完成的能力。直播中展示的典型案例包括：审计过去一个月的日历并分析与目标的匹配度、抓取 PostHog 数据统计按钮点击量、分析 Every 咨询业务的竞品、整理下载文件夹、校对 Google Docs 文案等。这些任务均需 AI 持续“浏览”、推理，部分任务耗时可达一小时左右，远超普通 AI 聊天的响应速度。

产品的场景适配性极强，尤其适合需要深度研究和数据处理的岗位。用户只需连接 Chrome 浏览器，AI 即可直接使用用户已登录的各类服务，无需重复认证，轻松完成 Twitter 时间线热点分析、竞品信息搜集等需多平台联动的任务。同时，它支持生成文档、Excel、PPT、PDF 等多种产出物，可应用于简历优化、会议发言起草等日常工作场景，大幅提升增长团队、咨询人员、写作者等群体的工作效率。

在交互设计上，产品右侧设置了待办任务列表，清晰展示任务进度与当前阶段，用户可直观掌握 AI 工作状态。其“询问用户”功能还配备了可视化交互界面，支持多选项快速响应，进一步降低了操作门槛。

根据测评，Cowork 具备较强的可扩展性，支持加载用户已安装的 Claude Skills，这也是其最具“可玩度”和“可定制性”的核心入口。用户可通过 Skills 封装专业知识与操作逻辑，实现个性化需求。

测评团队也指出了产品当前存在的争议与不足。

最核心的争议在于“单独设置 Cowork 标签页”的设计：部分用户认为应在同一标签页内根据任务自动切换模式，避免额外的选择成本；但也有观点认为，独立标签页能明确提醒用户切换使用心态：从“实时对话”转向“异步托付”，尤其对非技术用户而言，这种明确的区分有助于适应全新的协作范式。

另外在体验细节上，产品仍有诸多优化空间：一是 UI 打磨不足，任务列表仅按时间排序，缺乏视觉区分度，部分内容存在“懒加载”导致展示不及时；二是权限管理不够直观，普通用户难以清晰判断 AI 是在本地还是云端运行，文件夹访问权限需手动配置易造成困惑；三是“询问用户”功能存在逻辑缺陷，可能在用户未响应时自动跳过问题，且选项数量和字符数存在限制；四是对复杂应用（如 Google Docs）的适配尚不完善，相关操作容易失败。

针对不同用户，测评团队给出了针对性使用建议：非技术用户可将其视为“升级版聊天功能”，用日常任务直接尝试，逐步适应异步协作模式；重度用户可尝试通过 Skills 定制个性化功能，探索组合使用的可能性。他们表示，所有用户均需保持好奇心，忽略“三个月前 AI 做不到”的固有认知，在每一次产品更新后重新尝试核心需求，毕竟 AI 能力每隔几个月就会发生巨大迭代。

最终，测评团队给出的评分结论为：“理念绿牌，当前执行黄牌”。理念层面，产品开创性地将 Claude Code 级别的异步协作能力开放给非技术用户，推动了 AI 协作范式的转变，具备极高的探索价值；执行层面，因 UI 粗糙、部分功能逻辑不完善等问题，当前体验仍有较大优化空间。

参考链接：

https://www.youtube.com/watch?v=_6C9nMvQsGU

https://www.youtube.com/watch?v=oPBN-QIfLaY

https://www.promptarmor.com/resources/claude-cowork-exfiltrates-files