阿里云 EMR Serverless Spark TPC-DS 100T 榜首背后的内核技术
演讲者:一锤(周克勇)| EMR Serverless Spark 技术负责人 2025年9月,阿里云EMR Serverless Spark 以QphDS超6568万分的性能结果成功登顶TPC-DS 100T榜单,这是全球大数据领域最具权威性和挑战性的性能测试基准。 阿里云 EMR Serverless Spark实现了 性能提升100%、性价比提升500% 的突破,证明了EMR Serverless Spark 在 OpenLake湖仓底座架构下,超大规模、超高复杂度的数据分析、数据更新、数据处理的市场领先能力。 本文将深入剖析支撑这一成绩背后的技术内核,从产品定位、架构设计到核心优化策略,全面解读 EMR Serverless Spark 如何实现“高性能、低成本、高弹性、强兼容”的统一。 EMR Serverless Spark 定位为新一代 Lakehouse(湖仓一体)平台,旨在融合传统数据仓库的极致查询性能与数据湖的低成本、开放性优势。 其核心聚焦三大场景: EMR Serverless Spark 采用标准 Lakehouse 架构: 极致弹性 是其关键竞争力: 此外,系统默认提供 跨可用区高可用 能力,Spark 控制面与 Celeborn 服务均多 AZ 部署,作业自动故障迁移,SLA 达 99.9%,且无额外费用。 EMR Serverless Spark 坚持 开放生态优先 的设计理念: 这种广泛的兼容性极大降低了用户迁移和集成成本,真正实现“开箱即用”。 官方TPC-DS 100T 测试包含数据生成、导入、Power Test(单并发99查询)、Throughput Test(4并发396查询)、Maintenance Test(Upsert 操作)等环节,最终通过 QphDS 分数衡量综合性能。 阿里云的突破源于以下四大技术创新: 自2019年起研发,Fusion 将 Spark 从行式计算升级为 列式向量化执行: 在 TPC-DS 场景中,Fusion 还引入 Subplan Reuse、Broadcast Join Reuse、Semi Join 哈希表去重等优化,大幅减少重复计算与内存占用。 Fusion 与阿里自研湖表格式 Paimon 深度整合: 作为 Apache 顶级项目,Celeborn 采用 推送式 Shuffle 架构: 基于 Paimon 的 DLF 3.0 提供高性能 ACID 能力,满足 TPC-DS Maintenance 测试要求;同时优化器在 Join 顺序选择、代价模型等方面持续迭代,提升复杂查询效率。 最终成果:在仅使用一半内存的情况下,QphDS 性能翻倍,性价比提升5倍,所有结果均通过 TPC 官方严格审计。 面对 AI 浪潮,EMR Serverless Spark 推出多项创新功能: Spark on GPU:提供弹性 GPU 实例,按需配置 CPU/GPU 混合机型,避免固定集群成本。支持: 即将上线功能: EMR Serverless Spark 已在多家金融、互联网、智能硬件及零售企业的生产环境中稳定运行,广泛应用于数据仓库加速、实时风控、向量检索、机器学习等核心场景。 同时,Celeborn 社区也在多个头部互联网平台和科技企业中落地,支撑高并发、大规模的数据计算需求。 阿里云 EMR Serverless Spark 的 TPC-DS 登顶,不仅体现了优异性能,更体现了架构理念、工程能力和生态战略。在 Data + AI 融合的新时代,它正成为企业构建下一代智能数据基础设施的核心引擎。
阿里云EMR Serverless Spark TPC-DS 100T 性能测试结果TPC-DS Benchmark是数据仓库领域最新和最复杂的权威测试标准,被工业界和学术界广泛认可,也是数据仓库选型的重要参考指标。TPC-DS包含99个查询,从简单的全局聚合到复杂的20以上多表连接,体现了真实分析场景日益增长的复杂度。其中,100T是TPC-DS提供的最大测试数据集,最大表有288,017,344,252(2880亿)条数据,迄今为止只有阿里云EMR和Databricks成功通过了该榜单的官方评审。

产品定位与核心场景

产品架构与极致弹性

EMR Serverless Spark 产品架构全方位生态兼容

TPC-DS 100T 背后的四大核心技术
1. Fusion 向量化执行引擎

2. 与 Paimon 深度协同
3. Celeborn Remote Shuffle Service
4. DLF 3.0 与优化器增强

AI 时代的新功能:让 Spark 成为 AI 基础设施
ai_query、ai_sentiment、ai_classify、ai_embedding 等函数,用户可在 SQL 中直接调用大模型,如同使用内置 UDF。支持接入百炼、OpenAI、PAI EAS 或本地 GPU 模型。
携手客户共同成长