你以为自己漏消息了?其实是 GitHub “卡了下”
2月9日 GitHub 确实出现了一波 通知延迟,并且伴随 多个核心服务的性能降级:包括 Actions、Git Operations、Issues、Pull Requests、Webhooks、Packages、Pages、Codespaces,甚至还波及到 Copilot、Dependabot 等相关能力。最后官方宣布恢复正常,并表示后续会发布更详细的 RCA(根因分析)。官方事件报告如下: 好,信息面上就这些,但小D作为每天在 GitHub 上“搬砖”的工程师,真正关心的通常是三件事: 1)到底发生了什么,会影响我哪些流程? GitHub 官方描述很直白:通知出现积压,平均延迟从 约 50 分钟一路飙到 约 1 小时 20 分钟,随后逐步回落到 约 1 小时 → 30 分钟 → 15 分钟,最终宣布完全恢复。 人话:你的通知确实可能“晚到”,但不是不到。更扎心的是——通知这种东西晚到就等于失效。 另一条线更“硬核”:一堆核心服务出现 degraded performance / degraded availability。官方过程里提到的影响包括: 一句人话总结:不只是“通知慢”,而是“系统整体有点喘不过气”。[惊恐] 你以为是流程问题,其实是平台波动 这类事故最烦人的地方在于:它不会把你电脑蓝屏,也不会直接报一个“GitHub 崩了”。 于是,程序猿最经典的场景也是最擅长的事情出现了: 当你发现 GitHub “不太对劲”,建议按这个顺序来——能省命: 先打开: 如果状态页正在 Investigating / Identified / Monitoring,恭喜:你可以先把“自责模式”关掉。 这一步很关键: 事故期间最怕的不是失败,而是“你和平台一起抽风式重试”,把积压越堆越大: 当自动化链路不稳定时,短期最有效的是“降级”: 官方说会出 RCA,但团队内部也建议做两件事: 把“平台波动”纳入你的工程弹性设计: GitHub 抖动不是罕见事件,罕见的是你没准备 平台级服务再稳,也会有“咳嗽”的时候。真正决定你今晚能不能准点下班的,不是平台有没有事故,而是你的系统有没有“抗事故的姿势”: 这些看起来像“架构洁癖”,但事故来时,它就是救命稻草。 下次再遇到“PR 没人回、CI 卡住、通知消失”,先别慌,先看状态页,再决定要不要开干——工程师的体力要用在刀刃上,不要用在跟平台对线🤝 喜欢就奖励一个“👍”和“在看”呗~
2)我现在遇到的问题,是 GitHub 的锅还是我的锅?
3)怎么快速自救,避免今晚继续加班?1)这次异常的两条主线:通知慢 + 服务抖成筛子
A. 通知延迟(Notifications are delayed)

B. 多服务降级(Issues / Actions / Git 操作等)
后续官方声明服务恢复正常。2)最容易踩的坑
平台抖 1 小时,你排查 3 小时。(加班就是这么来的😭)3)一份“自救排查清单”
✅ Step 1:先看 Status Page(别自虐)
✅ Step 2:判断影响面(通知 vs 业务链路)
通知慢 → 别急着改系统
链路慢/失败 → 先保交付,别做大手术✅ Step 3:把“重试”变聪明
✅ Step 4:关键业务兜底(临时“人工模式”)
✅ Step 5:事故恢复后做一次“事后清算”
4)结语
