DolphinScheduler Agent 开源上线|从告警到自愈一键闭环,运维终于可以“躺着把活干了”
在 2026 Apache DolphinScheduler Meetup 技术分享中,由刘小东带来的 DolphinScheduler Agent 解决方案一经亮相,便成为社区焦点。这套打通「群聊告警→智能诊断→自动恢复→报告闭环」的全链路系统,可以很好地解决传统运维碎片化、高耗时、反复跨系统跳转的痛点,让大数据任务故障处理从“人肉奔波”迈入“智能自治”时代。 目前,项目核心支撑工具 dolphinscheduler-cli(dsctl) 已正式在 GitHub 开源,面向所有开发者免费使用! https://www.bilibili.com/video/BV1e5opBhEvS/?vd_source=e59b22... 日常使用 DolphinScheduler 时,任务失败处理一直给运维带来不小的压力。 你一定熟悉这样的流程:飞书群弹出告警 → 打开 DS UI 查实例状态 → 翻日志定位失败原因 → 对照 Runbook 判断风险 → 人工决策操作 → 再回到群里回复结果…… 真正拖慢效率的,从来不是执行某条命令,而是上下文在多个系统间反复断裂。事实、证据、风险分散在不同工具里,运维人员把大量时间浪费在“找信息、拼逻辑、补上下文”上,协作断点多、排查成本高、故障恢复周期被无限拉长。 而这一切,在 DolphinScheduler Agent 面前,将成为历史。 针对上述断点,DolphinScheduler Agent 方案的目标非常清晰:把一次失败告警,变成一条连续、可追踪、可沉淀的处理链路。旧方式是告警、UI、日志、群聊、复盘各自独立,全程依赖人肉协作;新方式则以飞书告警为起点,经由 Channel 会话、智能编排、执行控制、验证回复,最终沉淀为报告,让故障从触发到闭环一气呵成,不再需要人工在多系统间反复跳转。 简单来说,就是告警发出来,Agent 自动接手;处理完成,自动在群内回复结果,并输出完整事故报告。运维人员只需要看结论,不再需要“跑断腿”。 很多人会误以为,自动化运维就是“机器人+脚本”。 但 DolphinScheduler Agent 走了一条更稳健、更工程化的路——五层解耦控制链,每一层各司其职,层层递进,既保证执行能力,又牢牢守住安全边界。 这样的设计切中运维人员的需求,架构解耦,能力才能稳定扩展;边界清晰,自动化才敢上线生产。 在五层架构之上,四大模块紧密配合,让整套系统“能用、好用、敢用”。 飞书群既是告警入口、协作界面,也是结果回执页。Agent、人工、值班流程在同一线程内协同,群内只展示精简结论,详细证据沉淀至报告,沟通高效、证据可查。 Claude Code 负责会话逻辑编排,Skill 承载故障响应、工作流设计、数据质量等专业规则。 dsctl 是整个 Agent 的能力核心,提供标准化、可被自动化调用的 CLI 能力: 正是有了 dsctl,手动命令才能变成稳定的自动化能力。 从告警触发到复盘沉淀,Agent 严格遵循 7 步标准状态机:告警解析 → 诊断 → 决策 → 执行 → 验证 → 回复 → 沉淀 全程可追溯、可审计、可复盘,真正做到放心上线、稳定运行。 生产环境的自动化,安全永远比速度更重要。 这样就明确了系统的核心安全主张:Agent 的强大,不在于“敢跑”,而在于知道“什么时候不跑”。 为了保证在生产环境安全落地,Agent 采用分步放权、小步迭代的路线,以确保生产稳定: 这套方案最有价值的,不是某个提示词,而是 Channel + Skill + CLI + Report + Safety 一整套可复制、可迁移的工程化边界。 为了大家能对 DolphinScheduler Agent 的能力有直观的理解,刘小东还在现场进行了 Demo 演示,详见文首视频 57:10 及以后内容。⬆️ 好消息是,支撑 DolphinScheduler Agent 实现全能力的核心项目 dolphinscheduler-cli(dsctl)已正式开源! 🔗 GitHub 地址:https://github.com/sketchmind/dolphinscheduler-cli 项目提供完整命令行工具,支持: 项目采用 Apache-2.0 开源协议,支持 pip 一键安装,兼容 DolphinScheduler 3.3.2 / 3.4.0 / 3.4.1 等主流版本,开箱即用。 DolphinScheduler Agent 的出现,重新定义了大数据任务运维范式:把人从重复、琐碎、跨系统跳转中解放出来,让系统负责处理故障,让人专注决策与治理。 从告警弹出,到自动恢复、自动回帖、自动沉淀报告,一键闭环,全程无忧。如果运行顺利,运维真的可以说是 “躺着把活干了”。 欢迎所有 DolphinScheduler 用户、运维开发者、大数据工程师前往 GitHub 体验 dsctl,一起参与社区共建,让运维更简单、更智能、更高效!传统运维之痛:故障恢复慢,不是命令难,是跳转太碎

全新升级:从碎片化人肉协作,到全链路智能闭环

五层硬核架构:不是简单脚本,是安全可控的智能控制链

告警直接进入飞书线程,支持人工随时介入与追问,以 workflowInstanceId 作为唯一事故锚点,信息不丢失、不分散。
飞书事件同步至本地会话,全程保持上下文连贯,彻底消除跨系统切换带来的断点问题。
由 Claude Code 负责信息组织与调用顺序编排,Skill 承载 DS 领域专业规则,让决策更精准。
由 dsctl 统一承担读证据、修故障、验结果的核心动作,标准化命令,稳定可复用。
自动完成飞书群快捷回帖、事故报告生成、审计日志留存,兼顾实时协作与后续复盘。四大核心模块:端到端支撑,故障自愈真正落地
📌 Channel:飞书原生入口,一站式协同

📌 Runtime:智能编排引擎,规则与执行分离
编排、规则、执行三层解耦,系统可稳定扩展,持续迭代升级。
📌 Control Plane:dsctl 统一控制面,自动化的“执行底座”

7 步标准闭环:双路径保障,生产环境更放心

📌 Safety:四级风险管控,安全是第一前提
系统按风险等级设置边界,将操作分为四类:
稳健路线图:逐步放权,走向自治运维

Demo演示

🎉 正式开源:dsctl 已上线 GitHub,欢迎体验共建
写在最后