观测云2月产品升级报告 | 故障中心+错误中心双擎发布,隐私保护加固与用户体验全面优化
2026 年 2 月,我们收到不少用户反馈。我们把这些声音,一条条变成了产品更新,以下是本月最值得关注的 9 大升级亮点,每一个都为了让你的观测体验更顺滑、更贴合实际业务场景。 需求背景 "支付服务不可用"的 P0 告警短信发到了"技术值班"群,却无人响应。老板介入时,黄金排查时间已流逝。更混乱的是紧急排障过程中,4 个 Tab(监控指标、错误日志、链路追踪、基础设施)来回切换拼凑故障全貌,却没人知道当前谁在主导处理、处理到哪一步。历史操作散落在群聊天记录里,无法追溯。 更新说明 原「异常追踪」现已全面升级为「故障中心」,提供一体化故障处理工作台,让每一次异常都有明确的责任人和清晰的处理轨迹: 自动升级策略:若故障超时未认领,自动扩大通知范围,避免遗漏: 如何体验? 进入「故障中心」,当监控器触发异常时将自动生成故障事件。在故障详情页内即可完成从发现、指派、处理到复盘的闭环操作。 需求背景 同样的 NullPointerException 在 APM、RUM 和日志里反复出现,开发团队难以判断这是新问题还是已处理问题的残余;错误分散在各处,缺乏统一跟踪手段,排查时需要在不同数据源间来回比对,处理进度难以掌握。 更新说明 「错误中心」全新上线,实现跨数据源错误智能聚合: 如何体验? 进入 错误中心,先配置投递规则设定监控范围,即可在列表查看错误趋势与概况,点击具体错误进入详情进行深度分析。 需求背景 有客户反馈,排查故障回溯一个月数据时,使用未加过滤的查询经常遇到曲线中段无数据的情况,看上去像指标中断,实则是因为命中对象过多导致前端无法完整渲染。虽然可以通过添加聚合函数规避,但难以要求所有用户都掌握此技巧,长周期排查体验受阻。 更新说明 指标分析模块新增 Top N 序列及最大返回点数选项: 如何体验? 进入「指标」-「指标分析」,在查询配置中选择「Top N 序列」,系统将在大数据量场景下智能采样展示。 需求背景 有客户反馈,在公共场合或共享屏幕演示时,输入邮箱进行 SSO 登录后,无需认证即可直接看到该邮箱能访问的所有工作空间列表。这在企业场景中存在信息泄露风险,可能被恶意利用进行针对性攻击或社会工程学渗透。 更新说明 SSO 登录流程已优化为"先认证、后展示"的更安全模式: 如何体验? 在登录页面点击「单点登录」,按新流程输入邮箱并完成 IdP 认证,通过后即可安全查看并选择目标工作空间。 需求背景 有客户反馈,当采集的 Profile 文件解析后超过 20MB,浏览器无法在线加载,只能下载后自行分析,但用户往往不清楚该使用什么专业工具处理,体验断裂。 更新说明 Profiling 功能现已增强大文件处理引导: 如何体验? 在「APM」-「Profiling」中上传或查看超过 20MB 的 Profile 文件,页面将自动展示下载提示与工具引导。 需求背景 有客户反馈,服务器进入维护模式(Mute)后,在主机列表中无法直观识别哪些机器处于维护状态,难以快速区分正常下线与异常失联的主机。 更新说明 基础设施主机管理增强可视化能力: 如何体验? 进入「基础设施」-「主机」,查看列表中的「静默」标识列,或使用 df_mute 字段进行列表筛选。 需求背景 分析仪表板数据异常时,用户需要快速确认关联的告警规则配置情况。以往需要手动查找哪个监控器引用了该仪表板指标,操作繁琐且容易遗漏,无法实现从可视化分析到告警管理的无缝衔接。 更新说明 仪表板新增关联监控器快捷入口: 如何体验? 打开任意仪表板,点击右上角关联监控器按钮,即可查看并管理相关监控配置;在图表配置中悬停别名即可查看对应查询行关系。 需求背景 有客户反馈,通过 Logstreaming 接入的业务日志通常只包含自定义结构化字段(如 order_id、api_latency、status_code),本身无需 message 字段。但此前在日志查看器点击"重置为默认字段"后,系统总会自动加回 message 列,即使已在全局设置中配置了关键字段列表也无法避免,导致纯结构化数据查看时始终存在空白列干扰,浪费横向视野。 更新说明 日志查看器的字段重置逻辑现已优化,更尊重你的自定义配置: 如何体验? 进入「日志」-「查看器」,点击「显示项」-「重置为默认字段」: 更多更新详见观测云二月更新日志:https://docs.guance.com/release-notes/01|重磅更新!故障处理不再手忙脚乱:全新「故障中心」实现一站式响应

02|重磅更新!全新「错误中心」让根因定位快人一步

03|长周期指标查询更流畅:大数据量场景下曲线不再"中断"



04|企业级安全再升级:SSO 登录流程加固,工作空间隐私保护更完善
05|大文件 Profile 分析不再迷茫:20MB+ 文件提供友好引导与工具推荐


06|维护状态一目了然:主机列表新增「静默」标识与筛选

07|监控器与仪表板一键关联:排查效率再提升


08|Logstreaming 结构化日志查看更清爽:自定义字段列表不再被 message 强制填充



09|更多体验优化与问题修复
LLM 监测更精准

资源目录管理更便捷

部署版全局公告
多项稳定性提升