可显著提升吞吐效率与响应性能

2025 年 12 月 13 日，VeloxCon China 2025 在北京成功举办。作为 Velox 项目首次在中国举办的线下技术大会，汇聚了来自Meta、IBM、蚂蚁集团、阿里云、腾讯、小米、小红书等企业的数十位核心贡献者与一线工程师。

大会通过 18 场演讲将 Velox 置于真实业务场景之中，系统展示了其在架构演进、AI 数据处理、湖仓加速、流批融合等方向的最新实践。这些分享不仅直面性能、稳定性与兼容性等落地挑战，也反应了开发者社区对构建可靠、可扩展、可协同的数据基础设施的共同探索，彰显了中国开发者在全球高性能分析生态中的工程深度与协作广度。

夯实底座，突破能力边界
会议伊始，Velox 项目联合发起人 Pedro 发表开幕致辞。他回顾了 Velox 开源项目的发展历程，从项目启动、开源发布到建立技术治理结构，展示了 Axiom 架构、GPU 支持、PyVelox 等关键进展，强调了社区协作与工程严谨性是项目持续演进的核心动力。他特别提到，Velox 已建立了正式的技术治理机制，并迎来来自 IBM、Intel、NVIDIA、Microsoft 等多家企业的新增维护者，标志着项目正迈向更加开放和可持续的阶段。

在明确了社区与架构演进的总体方向后，大会议题迅速深入到如何利用 Velox 构建高性能计算引擎的具体实践中。阿里云 EMR Serverless Spark 技术负责人周克勇系统阐述了“可组合性”在数据计算领域的实践。他详细解析了阿里云如何深度集成并贡献于 Apache Celeborn、Paimon、Velox 及 Gluten 等开源组件，通过模块化组装构建出高性能湖仓一体引擎。他指出，基于该架构，阿里云 EMR Serverless Spark 成功创造了 TPC-DS 100TB 规模性能测试的世界新纪录，实现性能翻倍与性价比大幅提升。

接着，Meta 软件工程师 Masha Basmanova 阐述了现有查询引擎在跨语言通信、优化器能力与开发体验上面临的挑战，并介绍了基于 C++ 的统一前端框架 Axiom。该框架将 SQL 解析、逻辑优化与物理执行融为一体，通过内置的强大优化器与 Velox 运行时无缝对接，能够实现更高效、可扩展的查询处理。演讲最后，她积极展示了 Axiom 的开源路线图，并欢迎全球开发者加入，共同推动该项目的演进。

强大的执行框架，最终需要服务于极具挑战性的数据场景，特别是爆发式增长的 AI 数据。Meta 软件工程师孟晓烜则在之后的演讲中，深入阐述了应对AI训练数据规模激增与成本挑战的解决方案。他重点介绍了 Meta 如何通过数据归一化技术剥离重复特征，并构建可索引的序列存储系统。依托 Velox 技术栈，团队在训练数据的加载、生成与探索三大环节实现了端到端优化，显著提升了处理效率与资源利用率。

在 Meta 多位工程师从框架演进、可组合架构、数据标准化等角度深入分享后，蚂蚁集团高级技术专家黄叶伟也从企业落地实践层面分享了基于 Velox 的 Spark 加速实践。他重点介绍了基于 Gluten 与 Velox 构建的向量化引擎如何通过任务级 Fallback、Spill 优化、Shuffle 优化等关键技术，在混合部署场景下显著提升 Spark 性能与稳定性。他表示，该方案目前已实现日均数十万任务覆盖，平均节省资源超30%，并将在算子优化与架构扩展方面持续演进。

作为连接 Spark 生态与原生加速的关键中间层，Apache Gluten 的进展同样备受关注。来自 IBM 的莫芮与周渊聚焦 Apache Gluten与 Velox 的深度集成，阐述了其如何在大数据分析中驱动创新。他们介绍，Gluten 在保持对 Spark/Flink 作业透明加速能力的同时，正逐步增强对多后端引擎和复杂业务场景的适配能力。目前，该方案已在 Pinterest、顺丰科技及多个内部集群完成规模化验证，有效支撑了从日志分析到物流调度等多样化负载的性能提升与成本优化。

随着向量化加速在通用场景日趋成熟，针对特定存储格式的深度优化成为新的效能突破口。腾讯大数据开发工程师陈锦海分享了微信基于 Velox 加速 lceberg 湖仓分析的优化与实践，重点介绍了原生分桶方案。据他介绍，该方案通过动态识别表元信息自动设置分区数，能有效缓解 AQE 引发的写入倾斜，结合空闲资源灰度发布策略，可保障大规模作业的稳定上线。

扎根场景，释放协同效能
午餐后的议程更加聚焦 Velox 在真实业务中的集成深度与生产韧性，回应了开发者们对兼容性、稳定性与端到端效能等规模化落地的核心关切。
小米计算平台计算引擎负责人王胜杰分享了公司在 Spark 向量化升级中的规模化落地经验。面对业务迁移中的兼容性与稳定性挑战，他表示，小米通过自动兼容校验、双跑结果比对及内存异常感知的三级资源升级机制，已成功推动向量化改造在数十万作业中平稳落地。

面对海量数据挑战，全球科技公司也在探索相似的演进路径。Meta 软件工程经理 Stanley Yao 在演讲中分享了公司基于 Velox 推进 Spark 向量化改造的整体策略。他表示，团队通过从定制化方案到开源架构的持续演进，已实现关键业务管线向 Gluten（Flare）的平稳迁移，并获得显著的效率提升。未来，Meta 计划进一步扩大该架构的应用规模。

在 CPU 向量化趋于普及的同时，利用异构硬件挖掘更高性能成为新的前沿。IBM 研究院资深软件工程师 Zoltán Arnold Nagy 展示了基于 Velox 与 Presto 的 GPU 加速数据处理方案。他介绍道，Velox 通过与 cuDF 集成，可在 GPU 上高效执行算⼦，并针对多 GPU 分布式场景优化通信与数据交换。此外，为突破 I/O 瓶颈，团队正在探索结合 GPUDirect 存储与缓存层的加速策略。

对性能与稳定性的追求，也驱动着查询引擎架构本身的融合与创新。Meta 软件工程师谭家梁与大家分享了 Native Presto-on-Spark 的规模化应用。该架构以 Presto 查询优化、Spark 资源调度与容错机制以及 Velox 原生向量化执行为核心，实现了性能与可靠性的显著提升。他表示，目前该方案已在生产环境中取得成效，并将在未来持续推进全栈原生化演进。

对于国内庞大的云上业务，Velox 同样在支撑着关键数据服务平台。阿里云高级工程师王彬与范阿冬系统介绍了Velox在阿里云日志服务中的深度集成与应用。他们指出，基于 Velox 构建的高性能查询引擎，通过混合执行、表达式下推、自动增量物化视图及免 Schema 分析等核心技术，可显著提升平台在处理海量实时数据时的查询效率与资源利用率。他们还强调，该架构不仅为日志分析、智能运维等场景提供了稳定支撑，也为面向 AI 的云原生数据平台演进奠定了坚实基础。

除了通用的日志与湖仓分析，Velox 也在向更垂直的时序数据场景渗透。腾讯高级工程师李兆龙分享了基于 Velox 构建云原生时序数据库的落地经验。他表示，通过在 Velox 中实现时序数据去重优化与存储写入增强，系统在应对高频写入与实时查询场景时，可显著提升吞吐效率与响应性能。目前该方案已有效支持物联网、实时监控等业务场景，未来还将进一步完善缓存与压缩机制，持续优化时序数据处理的整体效能。

IBM 软件工程师刘平接着分享了 Velox 在 Iceberg 数据写入能力上的突破性进展。他表示，目前 Velox 对 Iceberg 的支持以读取为主，其写入功能的完善将填补该方向的关键能力空白，为基于 Presto 与 Spark 的数据湖架构提供更统一、高效的数据摄入层。这一进展也标志着 Velox 正从查询加速向数据全链路处理拓展。

接着，来自阿里云的毕岩与周滔分享了 Velox 与 Apache Paimon 深度集成的解决方案，为提升引擎与存储的协同效率提供了另一种集成思路。在他们看来，现有方案存在表类型支持受限、缺乏可移植性等瓶颈，但可以建立 C++ 原生 Paimon 库，通过其统一的数据协议与插件化设计，使 Paimon 能够被 Velox、StarRocks 等多种计算引擎直接高效调用，从而提升数据读写性能，并为湖仓格式的跨引擎协同提供新的基础支撑。

在批处理场景之外，流计算框架的向量化也正成为新的热点。蚂蚁集团技术专家刘勇介绍了基于 Velox 为 Flink 构建的统一向量化执行引擎 Flex。他表示，Flink 作为流批一体架构的核心，其原生向量化能力的补足至关重要。Flex 通过将 Velox 的高性能算子能力引入 Flink，同时结合自动化验证、可视化计划与精细化回退机制，现已实现了作业性能的显著提升，并支撑多条核心业务链路平稳运行。

随着 Velox 赋能的应用场景日益广泛和复杂，确保其在不同引擎和版本间的整体质量与可靠性变得至关重要。Meta 软件工程师 Eric Liu 阐述了在 AI 数据基础架构下，保障 Velox 多引擎版本可靠性的系统化方法。他指出，面对不同引擎与存储格式交织带来的复杂性，关键在于建立跨引擎测试框架与合成数据工厂。这一实践能有效提前发现全栈潜在问题，从而确保底层变更在大规模生产环境中的稳定与高效。

针对向量化引擎中窗口运算符内存溢出的典型难题，来自英特尔的贾柯分享了她的见解。她认为，通过为 Velox 引入流式窗口处理机制，可使计算随数据到达逐步执行并即时释放内存，从而从架构层面化解多数场景下的内存风险，显著提升复杂查询的稳定性。

最后，小红书 Native Engine 团队技术负责人魏秀利也分享了向量化引擎在公司业务中规模化落地的经验。据他介绍，通过将写入异步化并构建原生 Avro 读取能力，小红书在不增加业务复杂度的前提下，成功缓解了端到端延迟，印证了“执行与存储协同优化”在湖仓场景中的关键价值。

可显著提升吞吐效率与响应性能

添加新评论

最新文章

最近回复

分类

归档

其它