风险源(核心触发点)
| 风险传播路径
| 可能影响范围
| 对应防御措施
|
1. 恶意用户:主动发起攻击,诱导LLM或滥用Skill
| 路径1(恶意用户主导):恶意用户 → 诱导LLM生成恶意指令 → 调用Skill → 执行恶意操作
| 1. 用户敏感数据泄露;2. 系统资源被篡改/占用;3. 第三方服务被滥用
| 1. 指令解析层防御:结构化指令校验、危险参数黑名单过滤、LLM辅助安全评估;2. 运行环境隔离:Docker容器沙箱、系统调用限制
|
2. 恶意Skill植入:第三方Skill含恶意代码或漏洞Skill
| 路径2(恶意Skill主导):恶意Skill被接入系统 → 被LLM或用户调用 → 执行隐藏恶意逻辑
| 1. 用户敏感数据泄露;2. 系统资源被篡改;3. AI Agent平台瘫痪
| 1. Skill安全审计:代码静态扫描、动态行为审计、第三方Skill白名单;2. 运行环境隔离:网络隔离、最小依赖部署
|
3. LLM漏洞/诱导:LLM对恶意需求识别不足,生成危险指令
| 路径3(LLM漏洞主导):LLM解析异常 → 指令解析错误/生成危险指令 → Skill误执行危险操作
| 1. 用户敏感数据泄露;2. 系统资源被占用;3. 第三方服务被滥用
| 指令解析层防御:结构化指令强制校验、LLM辅助安全评估、危险参数过滤
|
4. 权限配置错误:权限粒度过粗、配置过宽或隔离不足
| 路径4(权限配置主导):权限配置过宽 → Skill调用时权限校验失效 → 执行越界操作
| 1. 用户敏感数据泄露;2. 系统资源被篡改;3. AI Agent平台瘫痪
| 权限管理层防御:三级权限模型设计、动态权限校验、权限审计日志
|
通用补充说明
| 所有风险路径均可能导致AI Agent平台核心功能失效,影响业务正常运行
| 异常监控与应急响应:关键指标监控、异常行为检测、快速应急处置(暂停调用、隔离环境、日志回溯)
|