在 2026 Apache DolphinScheduler Meetup 技术分享中,由刘小东带来的 DolphinScheduler Agent 解决方案一经亮相,便成为社区焦点。这套打通「群聊告警→智能诊断→自动恢复→报告闭环」的全链路系统,可以很好地解决传统运维碎片化、高耗时、反复跨系统跳转的痛点,让大数据任务故障处理从“人肉奔波”迈入“智能自治”时代。

目前,项目核心支撑工具 dolphinscheduler-cli(dsctl) 已正式在 GitHub 开源,面向所有开发者免费使用!

https://www.bilibili.com/video/BV1e5opBhEvS/?vd_source=e59b22...

传统运维之痛:故障恢复慢,不是命令难,是跳转太碎

日常使用 DolphinScheduler 时,任务失败处理一直给运维带来不小的压力。

你一定熟悉这样的流程:飞书群弹出告警 → 打开 DS UI 查实例状态 → 翻日志定位失败原因 → 对照 Runbook 判断风险 → 人工决策操作 → 再回到群里回复结果……

幻灯片2

真正拖慢效率的,从来不是执行某条命令,而是上下文在多个系统间反复断裂。事实、证据、风险分散在不同工具里,运维人员把大量时间浪费在“找信息、拼逻辑、补上下文”上,协作断点多、排查成本高、故障恢复周期被无限拉长。

而这一切,在 DolphinScheduler Agent 面前,将成为历史。

全新升级:从碎片化人肉协作,到全链路智能闭环

针对上述断点,DolphinScheduler Agent 方案的目标非常清晰:把一次失败告警,变成一条连续、可追踪、可沉淀的处理链路。旧方式是告警、UI、日志、群聊、复盘各自独立,全程依赖人肉协作;新方式则以飞书告警为起点,经由 Channel 会话、智能编排、执行控制、验证回复,最终沉淀为报告,让故障从触发到闭环一气呵成,不再需要人工在多系统间反复跳转。

幻灯片3

简单来说,就是告警发出来,Agent 自动接手;处理完成,自动在群内回复结果,并输出完整事故报告。运维人员只需要看结论,不再需要“跑断腿”。

五层硬核架构:不是简单脚本,是安全可控的智能控制链

很多人会误以为,自动化运维就是“机器人+脚本”。

但 DolphinScheduler Agent 走了一条更稳健、更工程化的路——五层解耦控制链,每一层各司其职,层层递进,既保证执行能力,又牢牢守住安全边界。

幻灯片4

  1. L1 事件与协作
    告警直接进入飞书线程,支持人工随时介入与追问,以 workflowInstanceId 作为唯一事故锚点,信息不丢失、不分散。
  2. L2 会话接入
    飞书事件同步至本地会话,全程保持上下文连贯,彻底消除跨系统切换带来的断点问题。
  3. L3 智能编排
    由 Claude Code 负责信息组织与调用顺序编排,Skill 承载 DS 领域专业规则,让决策更精准。
  4. L4 执行控制
    由 dsctl 统一承担读证据、修故障、验结果的核心动作,标准化命令,稳定可复用。
  5. L5 沉淀治理
    自动完成飞书群快捷回帖、事故报告生成、审计日志留存,兼顾实时协作与后续复盘。

这样的设计切中运维人员的需求,架构解耦,能力才能稳定扩展;边界清晰,自动化才敢上线生产。

四大核心模块:端到端支撑,故障自愈真正落地

在五层架构之上,四大模块紧密配合,让整套系统“能用、好用、敢用”。

📌 Channel:飞书原生入口,一站式协同

飞书群既是告警入口、协作界面,也是结果回执页。Agent、人工、值班流程在同一线程内协同,群内只展示精简结论,详细证据沉淀至报告,沟通高效、证据可查。

幻灯片5

📌 Runtime:智能编排引擎,规则与执行分离

Claude Code 负责会话逻辑编排,Skill 承载故障响应、工作流设计、数据质量等专业规则。
编排、规则、执行三层解耦,系统可稳定扩展,持续迭代升级。

幻灯片6

📌 Control Plane:dsctl 统一控制面,自动化的“执行底座”

dsctl 是整个 Agent 的能力核心,提供标准化、可被自动化调用的 CLI 能力:

  • 读证据:doctor / digest / log 快速定位故障现场
  • 修实例:recover-failed / edit --dry-run 安全修复,支持预演
  • 验结果:watch 实时监控状态,digest 输出总结
  • 统一输出:所有动作标准化返回,可观测、可追溯、可审计

幻灯片7

正是有了 dsctl,手动命令才能变成稳定的自动化能力。

7 步标准闭环:双路径保障,生产环境更放心

从告警触发到复盘沉淀,Agent 严格遵循 7 步标准状态机:告警解析 → 诊断 → 决策 → 执行 → 验证 → 回复 → 沉淀

幻灯片8

  • 面对低风险、证据充足的场景,自动走顺利路径:读证据→生成执行计划→恢复失败任务→验证→群内短回帖 + 输出报告
  • 遇到证据不足、高风险或验证失败,则走升级路径:转交人工,保留完整上下文,不虚假上报成功

全程可追溯、可审计、可复盘,真正做到放心上线、稳定运行。

📌 Safety:四级风险管控,安全是第一前提

生产环境的自动化,安全永远比速度更重要
系统按风险等级设置边界,将操作分为四类:

  • 自动(默认允许):只读查询、查看日志等无风险操作
  • 自动+防护:recover-failed 等低风险恢复操作
  • 人工审批:实例修改等高风险动作,必须人工确认
  • 禁止:数据强制成功等高危操作直接拦截

幻灯片9

这样就明确了系统的核心安全主张:Agent 的强大,不在于“敢跑”,而在于知道“什么时候不跑”。

稳健路线图:逐步放权,走向自治运维

幻灯片11

为了保证在生产环境安全落地,Agent 采用分步放权、小步迭代的路线,以确保生产稳定:

  • MVP 阶段:先实现只读诊断,跑通短回帖闭环;
  • V1 阶段:开放 recover-failed 低风险自动恢复;
  • V2 阶段:接入审批机制,扩展更多可控操作;
  • V3 阶段:沉淀 Runbook / Skill,面向社区共建。

这套方案最有价值的,不是某个提示词,而是 Channel + Skill + CLI + Report + Safety 一整套可复制、可迁移的工程化边界。

Demo演示

为了大家能对 DolphinScheduler Agent 的能力有直观的理解,刘小东还在现场进行了 Demo 演示,详见文首视频 57:10 及以后内容。⬆️

71777447094_.pic

🎉 正式开源:dsctl 已上线 GitHub,欢迎体验共建

好消息是,支撑 DolphinScheduler Agent 实现全能力的核心项目 dolphinscheduler-cli(dsctl)已正式开源!

🔗 GitHub 地址:https://github.com/sketchmind/dolphinscheduler-cli

项目提供完整命令行工具,支持:

  • DolphinScheduler 配置与环境管理
  • 工作流编写、Lint 检查、DryRun 预演
  • 运行时监控、实例查看、日志拉取
  • 故障恢复、失败重跑、批量运维
  • 标准化输出,完美适配自动化与 Agent 调用

项目采用 Apache-2.0 开源协议,支持 pip 一键安装,兼容 DolphinScheduler 3.3.2 / 3.4.0 / 3.4.1 等主流版本,开箱即用。

写在最后

DolphinScheduler Agent 的出现,重新定义了大数据任务运维范式:把人从重复、琐碎、跨系统跳转中解放出来,让系统负责处理故障,让人专注决策与治理。

从告警弹出,到自动恢复、自动回帖、自动沉淀报告,一键闭环,全程无忧。如果运行顺利,运维真的可以说是 “躺着把活干了”

欢迎所有 DolphinScheduler 用户、运维开发者、大数据工程师前往 GitHub 体验 dsctl,一起参与社区共建,让运维更简单、更智能、更高效!

标签: none

添加新评论