标签系统设计下的文章

艾体宝方案 | API 已经快了，系统为什么还是慢？

作者: 纯情

时间: 2026-01-21

分类: 资讯

在不少后端团队里，都发生过类似的场景：
Redis 上线后，监控显示 API 核心查询耗时下降了 80%，但用户依旧抱怨接口“卡”“慢”“不稳定”。

于是问题开始在群里反复出现：

是 Redis 集群不够大？
是云厂商网络抖动？
是流量高峰超出预期？
直到真正拆开一次请求的完整生命周期，才会意识到一个事实：Redis 可能已经做到极致了，只是你把它用在了最不应当的位置。

一个被反复误解的事实
必须先说清楚一句话：
Redis 并不能让一个设计本身就臃肿的 API 变快，它只会让问题暴露得更明显。

在微服务架构下，Redis 几乎成了“性能优化”的默认答案。只要接口慢，第一反应往往是：“加一层缓存”。
但在真实生产环境中，API 的执行路径通常远比你想象得复杂。

客户端
  ↓
API 网关
  ↓
鉴权 / 鉴权扩展
  ↓
参数校验 / 特性开关
  ↓
缓存查询
    ↓（未命中）
数据库查询 → 关联查询 → ORM 映射
  ↓
DTO 转换 / 序列化
  ↓
日志 / 监控 / Trace
  ↓
响应返回

在这条链路里，Redis 只是其中极短的一段。如果你把注意力全部放在“Redis 查得够不够快”，那基本已经跑偏了。
Redis 并不是瓶颈，但常常被用来背锅
我们曾协助排查过一个典型系统：
一个对外提供实时报表查询的金融 API，客户团队坚信性能问题出在 Redis。
他们的监控面板显示：

API 平均响应时间：380–450 ms
高峰期 P95 甚至逼近 700 ms

但在引入分段 Trace 后，结果令人意外：

Redis GET 操作：稳定在 2–4 ms
超过 85% 的耗时，发生在：
- 鉴权拦截器
- 参数反序列化
- ORM 对象构建
- JSON 序列化与日志写入
  结论很直接：
  缓存很快，API 还是慢。
  这也是许多团队真正“顿悟”的时刻——
  Redis 没有失效，只是你让它介入得太晚了。

为什么“加了 Redis”却几乎没加速？
归纳下来，问题通常集中在三个方面。

缓存命中发生得太晚
很多系统在设计时，把缓存当作“数据库前的一层挡板”，而不是请求生命周期的一部分。
结果是：
请求已经完成了鉴权、校验、上下文构建
日志、Trace 组件已经初始化
各种中间对象已经创建
此时即便 Redis 命中，绝大部分 CPU 和延迟成本已经付出。
缓存键设计服务于“数据模型”，而非“访问模式”
另一个常见错误，是缓存整个领域对象，甚至直接缓存 ORM 实体。
后果通常是：
键粒度过粗
访问模式稍有变化就无法复用
命中率长期徘徊在 50% 以下
在这种情况下，Redis 更像是一个昂贵的、不稳定的旁路系统。
冷启动与高峰期未命中被严重低估
很多团队只关注“平均命中率”，却忽略了两个危险时刻：
应用刚启动
流量突然放大
在这些时刻，大量并发请求同时穿透缓存，数据库和后端逻辑被瞬间放大执行，抖动也由此产生。

让 Redis 真正“拉开差距”的设计方式
当你接受 Redis 不是万能解药之后，优化路径反而变得清晰了。

第一原则：缓存要尽可能早
如果某个请求的数据已经在缓存中，就不应该再经历完整的业务管道。
理想状态是：

命中缓存
直接返回最终响应
绕过数据库、对象映射、序列化等步骤
第二原则：缓存的是“可直接返回的结果”
与其缓存领域对象，不如缓存“已经准备好返回给客户端的内容”。

String key = "user:profile:resp:" + userId;
String cached = redis.get(key);if (cached != null) {return cached;}// 未命中，走完整流程
User user = userRepository.findById(userId);
String responseJson = responseMapper.toJson(user);// 合理 TTL，例如 5 分钟
redis.setex(key, 300, responseJson);return responseJson;

这里 Redis 的角色已经发生变化：
它不再是“数据缓存”，而是响应加速。

第三原则：预热比你想象得重要
在优化后，我们为以下场景引入了缓存预热：

服务启动
核心用户或高频接口
已知的高峰前时间段
这一步往往可以显著降低首批请求的抖动风险。

数据不会说谎
在重构缓存策略后，性能变化非常直观：

API 平均响应时间
从约 410 ms 降至 70–90 ms
数据库查询量
下降超过 65%
缓存命中率
稳定在 90% 以上
更重要的是：延迟开始变得可预测，而不是偶发性飙升。

值得记住的几条经验

缓存优化首先是架构问题，而不是参数问题：Redis 再快，也无法拯救臃肿的请求链路。
一次缓存未命中的代价，远高于多数人的直觉：它带来的不是一次查询，而是一整条后端路径的放大执行。
不要只盯着 Redis 的指标：真正的瓶颈，往往藏在 Redis 之前或之后。

结语：Redis 从来不是问题
Redis 很少是系统变慢的原因，但它经常成为暴露问题的那面镜子。
如果你的 API 在“加了 Redis 之后”依然迟缓，不妨换个角度思考：
也许不是 Redis 没有加速系统，
而是系统本就不该让 Redis 来兜底。

测量全链路、设计有缓存意识的架构，让 Redis 只做它最擅长的事。
这，才是真正的性能提升来源。

是微服务架构不香还是云不香？

作者: 纯情

时间: 2026-01-09

分类: 资讯

这两天技术圈里热议的一件事就是Amazon的流媒体平台Prime Video在2023年3月22日发布了一篇技术博客《规模化Prime Video的音视频监控服务，成本降低90%》，副标题：“从分布式微服务架构到单体应用程序的转变有助于实现更高的规模、弹性和降低成本”，有人把这篇文章在五一期间转到了reddit 和 hacker news 上，在Reddit上热议。这种话题与业内推崇的微服务架构形成了鲜明的对比。从“微服务架构”转“单体架构”，还是Amazon干的，这个话题足够劲爆。然后DHH在刚喷完Typescript后继续发文《即便是亚马逊也无法理解Servless或微服务》，继续抨击微服务架构，于是，瞬间引爆技术圈，登上技术圈热搜。

今天上午有好几个朋友在微信里转了三篇文章给我，如下所示：

看看这些标题就知道这些文章要的是流量而不是好好写篇文章。看到第二篇，你还真当 Prime Video 就是 Amazon 的全部么？然后，再看看这些文章后面的跟风评论，我觉得有 80%的人只看标题，而且是连原文都不看的。所以，我想我得写篇文章了……

原文解读

要认清这个问题首先是要认认真真读一读原文，Amazon Prime Video 技术团队的这篇文章并不难读，也没有太多的技术细节，但核心意思如下：

1）这个系统是一个监控系统，用于监控数据千条用户的点播视频流。主要是监控整个视频流运作的质量和效果（比如：视频损坏或是音频不同步等问题），这个监控主要是处理视频帧，所以，他们有一个微服务主要是用来把视频拆分成帧，并临时存在 S3 上，就是下图中的 Media Conversion 服务。

2）为了快速搭建系统，Prime Video团队使用了Serverless 架构，也就是著名的 AWS Lambda 和 AWS Step Functions。前置 Lambda 用来做用户请求的网关，Step Function 用来做监控（探测器），有问题后，就发 SNS 上，Step Function 从 S3 获取 Media Conversion 的数据，然后把运行结果再汇总给一个后置的 Lambda ，并存在 S3 上。

整个架构看上去非常简单，一点也不复杂，而且使用了 Serverless 的架构，一点服务器的影子都看不见。实话实说，这样的开发不香吗？我觉得很香啊，方便快捷，完全不理那些无聊的基础设施，直接把代码转成服务，然后用 AWS 的 Lamda + Step Function + SNS + S3 分分钟就搭出一个有模有样的监控系统了，哪里不好了？！

但是他们遇到了一个比较大的问题，就是 AWS Step Function 的伸缩问题，从文章中我看到了两个问题（注意前方高能）：

需要很多很多的并发的 AWS Step Function ，于是达到了帐户的 hard limit。
AWS Step Function 按状态转换收费，所以，贵得受不了了。

注意，这里有两个关键点：1）帐户对 Step Function 有限制，2）Step Function 太贵了用不起。

然后，Prime Video 的团队开始解决问题，下面是解决的手段：

1）把 Media Conversion 和 Step Function 全部写在一个程序里，Media Conversion 跟 Step Function 里的东西通过内存通信，不再走S3了。结果汇总到一个线程中，然后写到 S3.

2）把上面这个单体架构进行分布式部署，还是用之前的 AWS Lambda 来做入门调度。

EC2 的水平扩展没有限制，而且你想买多少 CPU/MEM 的机器由你说了算，而这些视频转码，监控分析的功能感觉就不复杂，本来就应该写在一起，这么做不更香吗？当然更香，比前面的 Serverless 的确更香，因为如下的几个原因：

不再受 Step Function 的限制了，技术在自己手里，有更大的自由度。
没有昂贵的 Step Function 云成本的确变得更低了，如果你把 Lambda 换成 Nginx 或 Spring Gateway 或是我司的 Easegress，你把 S3 换成 MinIO，你把 SNS 换成 Kafka，你的成本还能再低。

独立思考

好了，原文解读完了，你有自己的独立思考了吗？下面是我的独立思考，供你参考：

1）AWS 的 Serverless 也好，微服务也好，单体也好，在合适的场景也都很香。这就跟汽车一样，跑车，货车，越野车各有各的场景，你用跑车拉货，还是用货车泡妞都不是一个很好的决定。

2）这篇文章中的这个例子中的业务太过简单了，本来就是一两个服务就可以干完的事。就是一个转码加分析的事，要分开的话，就两个微服务就好了（一个转码一个分析），做成流式的。如果不想分，合在一起也没问题了，这个粒度是微服务没毛病。微服务的划分有好些原则，我这里只罗列几个比较重要的原则：

边界上下文。微服务的粒度不能大于领域驱动里的 Bounded Context（具体是什么大家自行 Google），也就是一个业务域。
单一职责，高内聚，低耦合。把因为相同原因变化的合在一起（内聚），把不同原因变化的分开（解耦）
事务和一致性。对于两个重度依赖的功能，需要完成一个事务和要保证强一致性的，最好不要拆开，要放在一起。
跟组织架构匹配。把同一个团队的东西放在一起，不同团队的分开。

3）Prime Video 遇到的问题不是技术问题，而是 AWS Step Function 处理能力不足，而且收费还很贵的问题。这个是 AWS 的产品问题，不是技术问题。或者说，这个是Prime Video滥用了Step Function的问题（本来这种大量的数据分析处理就不适合Step Function）。所以，大家不要用一个产品问题来得到微服务架构有问题的结论，这个没有因果关系。试问，如果 Step Funciton 可以无限扩展，性能也很好，而且白菜价，那么 Prime Video 团队还会有动力改成单体吗？他们不会反过来吹爆 Serverless 吗？

4）Prime Video 跟 AWS 是两个独立核算的公司，就像 Amazon 的电商和 AWS 一样，也是两个公司。Amazon 的电商和 AWS 对服务化或是微服务架构的理解和运维，我个人认为这个世界上再也找不到另外一家公司了，包括 Google 或 Microsoft。你有空可以看看本站以前的这篇文章《Steve Yegg对Amazon和Google平台的吐槽》你会了解的更多。

5）Prime Video 这个案例本质上是“下云”，下了 AWS Serverless 的云。云上的成本就是高，一个是费用问题，另一个是被锁定的问题。Prime Video 团队应该很庆幸这个监控系统并不复杂，重写起来也很快，所以，可以很快使用一个更传统的“服务化”+“云计算”的分布式架构，不然，就得像 DHH 那样咬牙下云——《Why We’re Leaving the Cloud》（他们的 SRE 的这篇博文 Our Cloud Spend in 2022说明了下云的困难和节约了多少成本）

后记

最后让我做个我自己的广告。我在过去几年的创业中，帮助了很多公司解决了这些分布式，微服务，云原生以及云计算成本的问题，如果你也有类似问题。欢迎，跟我联系：[email protected]

另外，我们今年发布了一个平台 MegaEase Cloud，就是想让用户在不失去云计算体验的同时，通过自建高可用基础架构的方式来获得更低的成本（至少降 50%的云计算成本）。目前可以降低成本的方式：

基础软件：通过开源软件自建，
内容分发：MinIO + Cloudflare 的免费 CDN，
马上准备发布的直接与底层IDC合作的廉价GPU计算资源…

欢迎大家试用。

如何访问

中国区: https://cloud.megaease.cn
国际区：https://cloud.megaease.com

注：这两个区完全独立，帐号不互通。因为网络的不可抗力，千万不要跨区使用。

产品演示

https://www.bilibili.com/video/BV17v4y1R7mA/

介绍文章