DolphinScheduler Agent 开源上线｜从告警到自愈一键闭环，运维终于可以“躺着把活干了”

在 2026 Apache DolphinScheduler Meetup 技术分享中，由刘小东带来的 DolphinScheduler Agent 解决方案一经亮相，便成为社区焦点。这套打通「群聊告警→智能诊断→自动恢复→报告闭环」的全链路系统，可以很好地解决传统运维碎片化、高耗时、反复跨系统跳转的痛点，让大数据任务故障处理从“人肉奔波”迈入“智能自治”时代。

目前，项目核心支撑工具 dolphinscheduler-cli（dsctl） 已正式在 GitHub 开源，面向所有开发者免费使用！

https://www.bilibili.com/video/BV1e5opBhEvS/?vd_source=e59b22...

传统运维之痛：故障恢复慢，不是命令难，是跳转太碎

日常使用 DolphinScheduler 时，任务失败处理一直给运维带来不小的压力。

你一定熟悉这样的流程：飞书群弹出告警 → 打开 DS UI 查实例状态 → 翻日志定位失败原因 → 对照 Runbook 判断风险 → 人工决策操作 → 再回到群里回复结果……

幻灯片2

真正拖慢效率的，从来不是执行某条命令，而是上下文在多个系统间反复断裂。事实、证据、风险分散在不同工具里，运维人员把大量时间浪费在“找信息、拼逻辑、补上下文”上，协作断点多、排查成本高、故障恢复周期被无限拉长。

而这一切，在 DolphinScheduler Agent 面前，将成为历史。

全新升级：从碎片化人肉协作，到全链路智能闭环

针对上述断点，DolphinScheduler Agent 方案的目标非常清晰：把一次失败告警，变成一条连续、可追踪、可沉淀的处理链路。旧方式是告警、UI、日志、群聊、复盘各自独立，全程依赖人肉协作；新方式则以飞书告警为起点，经由 Channel 会话、智能编排、执行控制、验证回复，最终沉淀为报告，让故障从触发到闭环一气呵成，不再需要人工在多系统间反复跳转。

幻灯片3

简单来说，就是告警发出来，Agent 自动接手；处理完成，自动在群内回复结果，并输出完整事故报告。运维人员只需要看结论，不再需要“跑断腿”。

五层硬核架构：不是简单脚本，是安全可控的智能控制链

很多人会误以为，自动化运维就是“机器人+脚本”。

但 DolphinScheduler Agent 走了一条更稳健、更工程化的路——五层解耦控制链，每一层各司其职，层层递进，既保证执行能力，又牢牢守住安全边界。

幻灯片4

L1 事件与协作
告警直接进入飞书线程，支持人工随时介入与追问，以 workflowInstanceId 作为唯一事故锚点，信息不丢失、不分散。
L2 会话接入
飞书事件同步至本地会话，全程保持上下文连贯，彻底消除跨系统切换带来的断点问题。
L3 智能编排
由 Claude Code 负责信息组织与调用顺序编排，Skill 承载 DS 领域专业规则，让决策更精准。
L4 执行控制
由 dsctl 统一承担读证据、修故障、验结果的核心动作，标准化命令，稳定可复用。
L5 沉淀治理
自动完成飞书群快捷回帖、事故报告生成、审计日志留存，兼顾实时协作与后续复盘。

这样的设计切中运维人员的需求，架构解耦，能力才能稳定扩展；边界清晰，自动化才敢上线生产。

四大核心模块：端到端支撑，故障自愈真正落地

在五层架构之上，四大模块紧密配合，让整套系统“能用、好用、敢用”。

📌 Channel：飞书原生入口，一站式协同

飞书群既是告警入口、协作界面，也是结果回执页。Agent、人工、值班流程在同一线程内协同，群内只展示精简结论，详细证据沉淀至报告，沟通高效、证据可查。

幻灯片5

📌 Runtime：智能编排引擎，规则与执行分离

Claude Code 负责会话逻辑编排，Skill 承载故障响应、工作流设计、数据质量等专业规则。
编排、规则、执行三层解耦，系统可稳定扩展，持续迭代升级。

幻灯片6

📌 Control Plane：dsctl 统一控制面，自动化的“执行底座”

dsctl 是整个 Agent 的能力核心，提供标准化、可被自动化调用的 CLI 能力：

读证据：doctor / digest / log 快速定位故障现场
修实例：recover-failed / edit --dry-run 安全修复，支持预演
验结果：watch 实时监控状态，digest 输出总结
统一输出：所有动作标准化返回，可观测、可追溯、可审计

幻灯片7

正是有了 dsctl，手动命令才能变成稳定的自动化能力。

7 步标准闭环：双路径保障，生产环境更放心

从告警触发到复盘沉淀，Agent 严格遵循 7 步标准状态机：告警解析 → 诊断 → 决策 → 执行 → 验证 → 回复 → 沉淀

幻灯片8

面对低风险、证据充足的场景，自动走顺利路径：读证据→生成执行计划→恢复失败任务→验证→群内短回帖 + 输出报告
遇到证据不足、高风险或验证失败，则走升级路径：转交人工，保留完整上下文，不虚假上报成功

全程可追溯、可审计、可复盘，真正做到放心上线、稳定运行。

📌 Safety：四级风险管控，安全是第一前提

生产环境的自动化，安全永远比速度更重要。
系统按风险等级设置边界，将操作分为四类：

自动（默认允许）：只读查询、查看日志等无风险操作
自动+防护：recover-failed 等低风险恢复操作
人工审批：实例修改等高风险动作，必须人工确认
禁止：数据强制成功等高危操作直接拦截

幻灯片9

这样就明确了系统的核心安全主张：Agent 的强大，不在于“敢跑”，而在于知道“什么时候不跑”。

稳健路线图：逐步放权，走向自治运维

幻灯片11

为了保证在生产环境安全落地，Agent 采用分步放权、小步迭代的路线，以确保生产稳定：

MVP 阶段：先实现只读诊断，跑通短回帖闭环；
V1 阶段：开放 recover-failed 低风险自动恢复；
V2 阶段：接入审批机制，扩展更多可控操作；
V3 阶段：沉淀 Runbook / Skill，面向社区共建。

这套方案最有价值的，不是某个提示词，而是 Channel + Skill + CLI + Report + Safety 一整套可复制、可迁移的工程化边界。

Demo演示

为了大家能对 DolphinScheduler Agent 的能力有直观的理解，刘小东还在现场进行了 Demo 演示，详见文首视频 57:10 及以后内容。⬆️

71777447094_.pic

🎉 正式开源：dsctl 已上线 GitHub，欢迎体验共建

好消息是，支撑 DolphinScheduler Agent 实现全能力的核心项目 dolphinscheduler-cli（dsctl）已正式开源！

🔗 GitHub 地址：https://github.com/sketchmind/dolphinscheduler-cli

项目提供完整命令行工具，支持：

DolphinScheduler 配置与环境管理
工作流编写、Lint 检查、DryRun 预演
运行时监控、实例查看、日志拉取
故障恢复、失败重跑、批量运维
标准化输出，完美适配自动化与 Agent 调用

项目采用 Apache-2.0 开源协议，支持 pip 一键安装，兼容 DolphinScheduler 3.3.2 / 3.4.0 / 3.4.1 等主流版本，开箱即用。

写在最后

DolphinScheduler Agent 的出现，重新定义了大数据任务运维范式：把人从重复、琐碎、跨系统跳转中解放出来，让系统负责处理故障，让人专注决策与治理。

从告警弹出，到自动恢复、自动回帖、自动沉淀报告，一键闭环，全程无忧。如果运行顺利，运维真的可以说是 “躺着把活干了”。

欢迎所有 DolphinScheduler 用户、运维开发者、大数据工程师前往 GitHub 体验 dsctl，一起参与社区共建，让运维更简单、更智能、更高效！