标签 数据仓库 下的文章

境外电商企业纷纷布局多平台运营,从亚马逊、Shopify独立站到社交媒体营销,业务边界持续拓宽。但随之而来的是数据分散、时效滞后、分析单一等痛点,成为制约业务增长的瓶颈。数据中台作为数字化转型的核心基础设施,正帮助境外电商企业打破数据壁垒,实现从经验决策到数据驱动的跨越。本文结合实战方案,全方位拆解境外电商数据中台的建设逻辑、核心技术与落地价值。一、境外电商数据管理的核心挑战与建设目标(一)四大核心痛点,制约业务增长境外电商的多平台运营模式,导致数据管理面临多重挑战:多平台数据孤岛:亚马逊、Shopify、独立站、广告平台等系统数据独立存储,缺乏统一标准,数据一致性差,重复工作冗余,决策依据碎片化;数据时效性不足:传统ETL工具采用批量同步,数据延迟达数小时甚至数天,广告优化、库存调整等实时业务需求无法得到满足,错失市场机会;分析维度单一:各平台报表孤立,缺乏跨平台综合分析能力,无法构建完整用户画像,精细化运营和个性化营销难以落地;决策响应滞后:数据获取依赖人工导出与Excel处理,周期长、易出错,管理层无法及时获取准确数据,影响战略决策质量。
图片
(二)数据中台建设目标与核心价值针对上述痛点,数据中台建设聚焦三大核心目标,并形成可量化的业务价值:多平台数据统一整合:通过200+预置连接器,零代码配置打通亚马逊SP-API、Shopify、广告平台、ERP等所有数据源,实现数据统一接入、标准化处理与集中存储;构建实时数据管道:基于Flink CDC技术实现毫秒级数据同步,端到端延迟低至3ms,支撑从订单生成到报表呈现的全链路实时决策;提供标准化数据服务:通过维度建模构建企业级数据仓库,建立统一数据标准与业务口径,以API服务为各业务系统提供高质量数据支撑。落地后可实现显著业务提升:订单处理效率提升89%,数据同步时效提升40倍,数据准确率达99%,决策响应时间缩短75%,实施成本节约60%。
图片
二、数据中台架构设计:全链路数据能力支撑境外电商数据中台采用四层架构设计,覆盖数据从采集、处理到服务的全链路流程,确保数据高效流转与价值释放。(一)架构整体概览数据中台以"数据源层-数据集成层-数据服务层-数据应用层"为核心,形成闭环数据流转:数据源层对接境外主流电商生态;数据集成层实现多源数据清洗与实时同步;数据服务层构建标准化数据仓库与API服务;数据应用层支撑销售、广告、供应链等核心业务场景。(二)各层级核心能力解析数据源层:全域数据接入对接亚马逊SP-API、Shopify独立站、Google Analytics、Facebook Ads、海外仓系统及ERP系统等境外主流平台,通过200+预置连接器实现快速接入,覆盖订单、库存、广告、财务、用户行为等全量数据类型。针对不同平台特性采用差异化对接方案,如亚马逊的OAuth认证与多站点适配、Shopify的Webhook实时推送与GraphQL查询优化。
图片
数据集成层:实时数据处理基于轻易云数据集成平台,实现数据采集、清洗、转换与质量监控的全流程自动化,支持实时与批量双模式。核心技术采用Flink CDC,通过日志监听捕获数据变更,实现毫秒级增量同步,单节点处理能力达60MB/s,峰值吞吐量6.8万条/秒。同时内置AI驱动的数据清洗引擎,数据清洗准确率达99.97%,并通过全链路质量监控确保数据完整性与一致性。数据服务层:标准化数据供给构建ODS-DWD-DWS-ADS分层数据仓库:ODS层存储原始数据,DWD层进行明细数据清洗整合,DWS层按业务主题汇总,ADS层面向应用提供指标服务。基于统一数据标准与维度建模,通过API服务向各业务系统输出销售、广告、库存等标准化数据,支持灵活调用与个性化分析需求,同时建立数据血缘分析与质量监控机制,保障数据可靠性。
图片
数据应用层:业务价值落地面向销售、广告、供应链、财务等核心业务场景,提供BI报表、实时监控、智能分析等数据应用。通过可视化仪表盘集中展示关键指标,支持筛选、下钻、联动分析,适配桌面端、平板、手机、大屏等多终端,让业务人员与管理层快速获取数据洞察。三、核心支撑:数据集成平台数据中台的高效运转,离不开强大的数据集成能力。轻易云数据集成平台以"零代码、高绩效、企业级安全"为核心优势,成为打破数据孤岛的关键支撑。(一)三大核心能力智能可视化设计:采用拖拽式操作界面,无需编写代码即可完成数据集成流程配置,支持条件分支、循环处理等复杂逻辑。实时监控数据流状态,直观展示数据源关系与数据流向,非技术人员也能轻松完成系统对接。高效数据处理:基于微服务架构与容器化部署,支持水平扩展,单节点处理能力60MB/s,端到端传输延迟低至3ms。采用流批一体的Flink引擎与Kafka消息队列,实现高吞吐、低延迟的数据处理,满足大规模业务场景需求。企业级安全保障:全链路SSL/TLS加密传输,支持细粒度RBAC权限控制,精准管控数据访问权限。完整记录操作日志,满足合规审计要求,为数据安全提供军工级保障。(二)关键优势与效率提升500+预置连接器覆盖电商、ERP、广告、数据库、云服务等主流系统,开箱即用,30分钟即可完成系统对接;零代码开发降低技术门槛,让业务人员自主操作,集成效率提升5倍以上;相比传统定制开发,实施成本节约60%,人力成本节约45%,已服务5000+企业客户,获得IDC认证92分高分。四、数据应用实践:三大核心BI报表模块数据的价值最终通过业务应用落地。以下三大BI报表模块,分别从销售、广告、供应链维度,为境外电商提供全场景数据洞察。(一)销售分析模块:全方位业绩监控
图片
销售分析仪表盘以"核心指标+趋势分析+多维拆解"为核心,集中展示总销售额、订单数量、客单价、转化率、退货率等关键KPI,近30天/90天销售趋势、Top SKU销量排行、销售地区分布等核心维度一目了然。同时提供完整的用户转化漏斗分析,从广告点击(100,000)→产品页面浏览(75,000,转化率75%)→加入购物车(32,000,转化率43%)→发起结账(18,500,转化率58%)→支付成功(15,200,转化率82%),清晰呈现各环节流失情况。结合新老客占比(新客68%、老客32%)、复购率(90天达48%)、客户生命周期价值(老客LTV $425)等数据,为优化转化流程、激活老客户提供精准支撑。(二)广告分析模块:精准优化ROI
图片
广告分析仪表盘聚焦广告投入与效果转化,核心展示广告花费、销售额、曝光量、点击量、CPC、ACoS、ROAS、CTR等关键指标,当前ROAS达4.45,远超2.5的健康基准线。创新采用ACoS气泡图与关键词四象限矩阵实现精准分析:ACoS气泡图以X轴为ACoS、Y轴为销售额、气泡大小为花费,快速识别"高效明星""烧钱黑洞"等不同表现的广告活动;关键词四象限矩阵按花费与转化率分类,为"宝藏词扩大投放""问题词暂停投放"提供明确策略。同时支持智能优化建议,包括关键词竞价调整、预算分配优化、否定关键词推荐,并通过自动化监控预警(ACoS超30%、ROAS低于2.0等)及时规避风险,推动广告ROI提升35%。(三)供应链分析模块:精细化库存管理
图片
供应链分析模块以库存健康度与IPI监控为核心,IPI分数当前达642,远超550的优秀目标线,避免仓储限制风险。通过库存周转率(8.5次/年)、周转天数(43天)、库龄分布(90天+仅1.8%)等数据,全面掌握库存健康状态。智能补货功能根据日均销量、供货周期、安全系数精准计算安全库存,自动识别紧急补货(Wireless Earbuds Pro仅3.8天可售)、建议补货(Smart Watch Series 5可售9-15天)与库存正常的SKU,结合供应商绩效(交付准时率94.5%、质量合格率99.2%)与采购成本分析,优化采购策略,降低库存资金占用30%。五、实施路径与价值收益:从规划到落地(一)10周快速实施路线图数据中台建设遵循"循序渐进、快速落地"原则,分五阶段推进:第1-2周:需求调研与数据源梳理,完成业务需求收集、数据源识别与系统现状评估;第3-4周:轻易云平台部署与对接,完成平台配置、连接器部署与数据管道搭建;第5-6周:数据仓库建模与清洗,实现维度建模、数据清洗、口径统一与质量校验;第7-8周:BI报表开发与测试,完成仪表盘开发、可视化设计、功能测试与性能优化;第9-10周:系统上线与培训,实现正式上线、用户培训、运维交接与持续优化。(二)量化价值收益运营效率显著提升:订单处理效率提升89%,数据同步时效从数天缩短至毫秒级(提升40倍),决策响应时间缩短75%;成本大幅节约:实施成本较传统定制开发降低60%,人力成本节约45%,库存资金占用降低30%;决策质量升级:数据准确率从85%提升至99%,广告ROI提升35%,客户LTV增长28%;长期价值沉淀:投资回报周期仅6-8个月,系统可用性达99.9%,客户满意度超95%,为企业数字化转型奠定坚实基础。
图片
六、总结:让数据成为增长引擎境外电商数据中台的核心价值,在于打破数据孤岛,构建统一、实时、标准化的数据能力,让数据贯穿销售、广告、供应链全业务流程。通过轻易云数据集成平台的零代码优势、四层架构的全链路支撑、三大BI模块的精准赋能,企业不仅能解决当前数据管理痛点,更能建立数据驱动的精细化运营体系。数据中台不仅是一套技术系统,更是境外电商在全球化竞争中保持优势的核心基础设施。当数据能够实时流转、精准分析、有效赋能,企业就能快速响应市场变化、优化资源配置、提升客户价值,让数据真正成为业务增长的强大引擎。5000+企业客户的信赖、200+平台连接器的覆盖、3ms的极致延迟,印证了这套方案的实战价值。在数字化转型的浪潮中,数据中台将成为境外电商突破增长瓶颈、实现持续发展的关键抓手。

公司收购 Langfuse,正式进军 LLM 可观测性 (LLM observability) 领域,并推出原生 Postgres 服务,以统一事务型与分析型工作负载。

旧金山 — 2026 年 1 月 16 日 — 实时分析、数据仓库、可观测性 (observability) 以及 AI/ML 领域的领导者 ClickHouse 今日宣布完成 D 轮融资,融资金额达 4 亿美元。本轮由 Dragoneer Investment Group 领投,Bessemer Venture Partners、GIC、Index Ventures、Khosla Ventures、Lightspeed Venture Partners、T. Rowe Price Associates, Inc. 管理的账户,以及 WCM Investment Management 共同参与。

此次融资正值 ClickHouse 持续且加速增长之际。目前,公司通过全托管服务 ClickHouse Cloud 已服务超过 3,000 家客户,年度经常性收入 (ARR) 同比增长超过 250%。在过去三个月中,Capital One、Lovable、Decagon、Polymarket 和 Airwallex 等客户开始采用该平台或扩大了现有部署。这些新客户加入了 ClickHouse 已建立的客户群体,其中包括 Meta、Cursor、Sony 和 Tesla 等 AI 创新者及全球知名品牌。

“ClickHouse 的初衷就是为最严苛的数据工作负载提供卓越的性能和成本效率,而今天的增长势头正是这一战略的最好证明,”ClickHouse 首席执行官 Aaron Katz 表示。“面向未来,我们正在支持统一的事务型与分析型工作负载,让开发者能够在坚实的技术基础之上构建各种由 AI 驱动的应用。同时,我们也在拓展产品能力,引入 LLM 可观测性,帮助 AI 应用构建者在进入生产阶段时,更好地评估 AI 输出的质量和行为。新的资金支持,加上持续的产品执行力,使我们有能力在 AI 时代打造领先的数据与 LLM 可观测性平台。”

图片

对大规模数据基础设施与 AI 的高度确信投资

Dragoneer 成立于 2012 年,由 Marc Stad 创立,采用高度精选、以研究为核心的方法,专注于与少数具有品类定义意义的公司建立长期合作关系。过去十年中,该公司投资了多家领先的数据平台以及多家基础性的 AI 公司。

随着 AI 系统逐步从实验走向生产,对底层数据基础设施提出了更高要求。AI 驱动的应用会产生远高于以往的查询量,对延迟更加敏感,同时还需要持续的评估能力和可观测性。在这样的背景下,真正的价值正越来越集中到那些能够支撑大规模、数据密集型生产工作负载的基础设施平台之上。

“每一次重大的平台变革,最终都会回馈那些最贴近生产环境的基础设施公司,”Dragoneer Investment Group 合伙人 Christian Jensen 表示。“当模型能力不断提升,真正的瓶颈就转移到了数据基础设施上。ClickHouse 的突出之处在于,它能够在大规模 AI 系统运行时,提供所必需的性能、效率和可靠性。”

在严谨的评估过程中,Dragoneer 认为 ClickHouse 已成为现代数据技术栈中具有品类定义意义的领导者。该平台广泛支持关键任务级的实时工作负载,深度嵌入于始终在线、面向客户以及 AI 驱动的系统之中。

ClickHouse 的增长不仅来自对现有系统的替代,更来自对全新工作负载的支持。通过在大规模场景下实现高性价比的实时分析,ClickHouse 让许多过去因延迟或成本受限而无法落地的应用场景成为可能。与主要服务内部分析团队的许多数据基础设施平台不同,ClickHouse 经常直接嵌入到面向终端用户的产品中,在这些场景下,性能和可靠性会直接影响用户体验。

“我们寻找的是在系统绝不能停机时依然值得客户信赖的平台,而 ClickHouse 一直展现出这样的能力,”Jensen 补充道。

LLM 可观测性:ClickHouse 通过收购 Langfuse 进入该市场

ClickHouse 正式宣布收购开源 LLM 可观测性平台 Langfuse。与关注系统健康和性能指标的传统可观测性不同,LLM 可观测性关注的是如何确保非确定性、日益复杂的 AI 系统能够输出准确、安全且符合用户意图的结果。随着 AI 系统不断深入生产工作流,LLM 可观测性已成为构建和运营 AI 应用团队不可或缺的一环。

Langfuse 开源项目增长迅速,截至 2025 年底,已获得超过 2 万个 GitHub Star,每月 SDK 安装量超过 2,600 万次。

“我们之所以在 ClickHouse 之上构建 Langfuse,是因为 LLM 可观测性和评估本质上就是一个数据问题,”Langfuse 首席执行官 Marc Klingen 表示。“如今作为一个团队,我们能够提供更加紧密的一体化体验:更快的数据摄取、更深入的评估能力,以及从生产问题到可量化改进之间更短的闭环。”

图片

Langfuse 联合创始人 Clemens Rawert、Marc Klingen、Max Deichmann

原生 Postgres 服务:ClickHouse 面向 AI 构建者推出统一数据技术栈

ClickHouse 同时宣布推出一个与自身平台深度集成的企业级 Postgres 服务。为了支撑既需要事务处理又需要分析能力的现代实时 AI 应用,ClickHouse 打造了一套统一的数据技术栈,其中包括由 NVMe 存储支撑、具备原生 CDC 能力的高性能可扩展 Postgres。用户只需几次点击,就能将事务数据同步至 ClickHouse,从而解锁最高可达 100 倍的分析性能提升。借助由原生 Postgres 扩展提供支持的统一查询层,开发者可以构建横跨事务与分析的应用,而无需维护多个独立系统。该服务由 ClickHouse 与开源云公司 Ubicloud 联合打造,Ubicloud 团队在 Citus Data、Heroku 和 Microsoft 拥有丰富的产品与工程经验。

“Postgres 与 ClickHouse 在架构上天然互补,是 AI 应用不可或缺的组成部分。通过合作,我们为团队交付了一套真正的一体化技术栈,让生产级 Postgres 负责事务处理,让 ClickHouse 专注分析,并作为一个整体协同运行,”Ubicloud 联合首席执行官兼联合创始人 Umur Cubukcu 表示。“我们非常高兴能在 Ubicloud 与 ClickHouse 携手合作,这正是开源生态系统成功的方式:由值得信赖的团队打造一流产品,并共同成长。”

图片

Ubicloud 联合创始人 Umur、Ozgun 和 Daniel

持续的全球扩张与产品动能

在完成融资并收购 Langfuse 的同时,ClickHouse 也在持续扩展其全球布局和生态体系。过去一年中,公司通过与 Japan Cloud 的合作进入日本市场,并宣布与 Microsoft Azure 围绕 OneLake 建立合作关系。ClickHouse 还在旧金山、纽约、阿姆斯特丹、悉尼和班加罗尔举办了多场用户活动,吸引了超过 1,000 名参与者,演讲嘉宾来自 OpenAI、Tesla、Capital One、Ramp 和 Canva 等公司,并连续第二年举办了 AWS re:Invent Chainsmokers 客户活动。

一系列近期产品进展进一步强化了 ClickHouse 在分析、AI 与可观测性交汇领域的地位。公司在数据湖支持方面持续投入,新增了对 Apache Iceberg、Delta Lake 以及主流数据目录的兼容性。同时,平台扩展了全文搜索能力,这对于包括 AI 可观测性在内的各类可观测性场景正变得愈发关键。此外,ClickHouse 还引入了轻量级更新机制,以支持需求更高、负载更复杂的 AI 驱动型应用。根据近期基准测试结果,ClickHouse 持续提供行业领先的性价比,在性能与成本比上超越主流云数据仓库。

借助 D 轮融资、对 Langfuse 的收购以及原生 Postgres 服务的推出,ClickHouse 已做好加速增长的准备,并将进一步巩固其作为统一数据平台与 AI 可观测性平台的战略地位。

了解更多:

关于 ClickHouse:

 

ClickHouse 是一个快速的开源列式数据库管理系统,专为大规模实时数据处理与分析而设计。ClickHouse Cloud 以高性能为核心,提供卓越的查询速度与并发能力,非常适合需要从海量数据中即时获取洞察的应用。随着 AI 智能体 (AI Agent) 越来越多地嵌入软件系统,并生成频率更高、复杂度更大的查询请求,ClickHouse 提供了一个高吞吐、低延迟的引擎,专门用于应对这一挑战。ClickHouse 受到 Sony、Tesla、Memorial Sloan Kettering、Lyft 和 Instacart 等领先企业的信任,帮助团队通过一个可扩展、高效且现代化的数据平台释放数据价值并做出更明智的决策。欲了解更多信息,请访问 clickhouse.com。

关于 Dragoneer Investment Group:

Dragoneer 是一家以增长为导向的投资机构,资产管理规模超过 300 亿美元。该机构与在公有和私有市场中打造品类定义型公司的创始人及管理团队长期合作。迄今为止,已有 50 多家 Dragoneer 投资的公司成功上市。其投资组合包括 Airbnb、Amwins、Atlassian、Databricks、Datadog、Meta、Nubank、OpenAI、Revolut、ServiceNow、Snowflake、Spotify 和 Uber。

关于 Langfuse:

Langfuse 是一个用于构建、测试和监控 LLM 应用及 AI 智能体的开源平台。团队使用 Langfuse 来追踪和调试智能体工作流、运行评估,并持续衡量和改进生产环境中 AI 输出的质量。Langfuse 既提供托管云服务,也支持在生产规模下自托管。作为增长最快的 LLM 工程平台之一,Langfuse 拥有 20,470 个 GitHub Star、每月超过 2,600 万次 SDK 安装量以及 600 多万次 Docker 拉取,并受到《财富》50 强中 19 家公司和《财富》500 强中 63 家公司的信任。欲了解更多信息,请访问 langfuse.com。

关于 Ubicloud:

Ubicloud 正在打造开源版的 AWS,在裸金属和公有云之上交付核心云服务。Ubicloud 由打造分布式 PostgreSQL 的 Citus Data 团队创立 (该公司已被 Microsoft 收购)。其旗舰数据库产品 Ubicloud PostgreSQL 提供企业级托管 Postgres 体验,并具备行业领先的性价比。Ubicloud 在 AI、计算、PostgreSQL 和 Kubernetes 等领域提供的服务每周支撑超过 100 万台虚拟机运行,可帮助客户将云成本降低多达 70%。Ubicloud 获得了 Y Combinator 及其他知名硅谷投资机构的支持。欲了解更多信息,请在 X 上关注 Ubicloud @ubicloudHQ,或访问 ubicloud.com。

/END/

征稿启示

面向社区长期正文,文章内容包括但不限于关于 ClickHouse 的技术研究、项目实践和创新做法等。建议行文风格干货输出 &图文并茂。质量合格的文章将会发布在本公众号,优秀者也有机会推荐到 ClickHouse 官网。请将文章稿件的 WORD 版本发邮件至:Tracy.Wang@clickhouse.com。

度小满引入 Apache Doris 替换原有 Greenplum,实现整体查询效率提升 82%,与此同时,集群缩减 2/3、年省数百万的巨大效益。本文将分享度小满如何基于 Doris 从 0 到 1 构建超大规模数据分析平台,并围绕平滑迁移、异地多活容灾等方面,分享实践经验。

本文整理自度小满 Doris 数据库负责人汤斯在 Doris Summit 2025 中的演讲,并以演讲者第一视角进行叙述。

度小满金融(原百度金融)作为一家覆盖现代财富管理、支付、金融科技等多板块的科技公司,数据的分析处理对其极为重要,已经深度融入业务生命周期的每个环节,是进行风险控制、商业决策、用户体验优化及运营提效的基石。

随着业务高速发展,度小满原有基于 Greenplum 搭建的 OLAP 平台,逐渐暴露出三大痛点:

  • 规模与稳定性瓶颈:存储已接近饱和,扩容至百余台已接近硬件规模的承载上限,如果继续扩容,将面临更严重的稳定性挑战。

  • 性能与体验不佳:Greenplum SQL 查询执行速度慢,且经常出现 “计算时间远小于排队时间” 的情况,严重影响业务分析效率。

  • 缺失技术支持:当前使用的 Greenplum 6 版本技术架构已显得陈旧,并且 2024 年 Greenplum 宣布将停止开源,后续的技术支持与迭代升级将无法保障。

为了应对这些痛点,度小满金融迫切寻找更为高效、稳定且具备现代化技术架构的数据处理解决方案,以支持其未来的业务发展。

Apache Doris:高吞吐、快查询

面对日益增长的业务体量与复杂多变的分析需求,选用一个高效、可靠的数据库系统,已成为支撑业务稳健发展与快速创新的关键。Apache Doris 以其出色的性能表现与高度灵活的架构,成为众多场景下的优选方案。为深入验证其在海量数据与复杂分析场景中的能力,我们展开了一系列性能测试,关键结果如下:

  • 查询性能:在 1TB TPC-DS 标准测试集中, Apache Doris的查询速度约是 Greenplum 6 的 20-30 倍

  • 导入性能:在基于 Flink 写入的 TPS 测试中,基于单分片导入,压测最大 TPS 为:5000W/s

  • JSON 数据处理:针对新推出的 Variant JSON 数据类型,测试显示:存储 2-3 万 Key 时,其空间占用仅为普通 JSON 的 1/10 甚至更低,查询效率则提升至 10 倍以上

综上可知,Apache Doris 在写入吞吐、响应速度及存储效率上表现卓越,有力证明了其应对大规模、实时化、半结构化数据分析挑战的坚实技术基础。

基于 Apache Doris 的大规模数据分析平台

在上述详实的选型调研之后,我们决定采用 Apache Doris 替代原有 Greenplum 集群,构建超大规模数据分析平台。

为验证 Apache Doris 在真实业务场景中的表现,我们先进行了小范围试点,部署了少量 Doris 集群,并先行接入几个关键业务方。试点期间,系统在性能、稳定性和易用性方面获得高度评价。基于这一积极反馈,我们稳步扩展 Doris 集群规模,最终在效率与成本上实现大幅提升:

  • 整体效率:端到端分析任务耗时从 274 秒降至 47 秒,效率提升 82%,任务超时查杀比例从 1.3%骤降至 0.11%,降幅达 91%,彻底解决高峰期排队问题实现 0 排队,使分析师的工作不再因拥堵而中断,体验和生产力均有极大提升。

  • 集群成本:在同等资源成本下, Doris 仅以 1/3 的集群数量即可提供与 Greenplum 同等的服务能力,存储性能提升 200%。截至目前,已完成 百余台原 Greenplum 服务器的清退工作,以更少的硬件资源支撑了更高的计算与存储需求,实现年度硬件成本节约数百万元

从 0-1 数据平台建设经验

我们基于 Apache Doris 成功替换了 Greenplum,完成了从 0-1 的数据平台重构,覆盖架构设计、数据流转与业务协同的系统性工程。以下将围绕快速平滑迁移、异地多活容灾与全链路生态集成三个核心环节,展开具体实践。

01 快速迁移

为保障业务连续性与数据安全,我们开发了自动化迁移工具 SqlGlot,将大规模数据从原有 GP 集群迁移至 Doris 集群。整个过程历经半年,累计迁移 PB 级规模数据,全程业务无感知。

  • 表结构迁移:在表结构迁移阶段,团队从 GP 系统中导出表结构及相关元数据,借助 SqlGlot 工具实现字段映射与语法适配,并在此基础上完成分区构建与分桶策略设计,确保每个分桶数据量控制在 1G~3G 的合理范围内。该流程最终成功转换超过 20,000 张表,并保障了所有表的分区与分桶结构符合业务与性能要求。

  • 表数据迁移:我们通过分布式导出将 GP 数据并行迁移至 Doris 机器,并基于 Doris 官方推荐的 Stream Load 进行并发控制,以文件流式加载的方式高效导入数据至 Doris 集群。整个过程累计完成 PB 级规模数据迁移,稳定支持了 5000+ 次数据同步任务。

  • SQL 迁移:为解决因业务规模庞大、场景复杂而导致的官方工具语法支持不全的问题,我们基于 SqlGlot 并结合正则匹配能力,将 PostgreSQL SQL 高效转换为 Doris SQL。整个迁移流程包括“转换成功 → 执行成功 → 数据一致” ,累计完成约 47 万个 SQL 的转换,实现 95% 的执行成功率 与 92% 的数据一致率

02 异地双机房灾备

为保障数据安全并实现集群高可用,我们基于 Apache Doris 构建了异地双机房灾备架构,确保数据与服务具备跨机房容灾与双活能力。核心设计如下:

我们将所有 Doris 集群节点均匀部署于 A 与 B 两个异地机房,通过设置 tag.location 属性明确节点所属机房。用户账号按机房绑定,访问请求通过轮询机制自动分配,实现负载均衡(例如首次请求路由至 A 机房,第二次则路由至 B 机房)。建表时通过配置 location 参数,确保每张表在双机房各保留 2 个副本,从而达成数据异地双活与故障自动切换。

关键配置示例

  1. 设置节点机房标签

alter system modify backend ”BE1:9050" set ("tag.location" = "group_a");alter system modify backend ”BE2:9050" set ("tag.location" = "group_b");
复制代码

  1. 建表时指定双机房副本分布

CREATE TABLE ubevent (ts DATETIME, uid INT, ...) DUPLICATE KEY(ts) DISTRIBUTED BY HASH(uid) BUCKETS 10PROPERTIES ("replication_allocation" = "tag.location.group_b: 2, tag.location.group_a: 2");
复制代码

03 生态整合

为构建高效、稳定、易用的数据平台,我们还围绕 Apache Doris 进行系统性生态整合:

  • 计算引擎无缝集成:通过 Doris 官方提供的 Spark Connector 与 Flink Connector,实现了与现有 Spark、Flink 计算引擎的高效对接,保障了数据流水线稳定运行。

  • 运维体系化与自动化:集成 Prometheus、Grafana 及 Doris Manager,构建了覆盖监控、告警、管理与调优的自动化运维体系,全面提升集群稳定性与运维效率。

优化经验

为进一步提升数据平台的效率及资源利用率,在实际落地过程中,围绕集群、负载、存储等多维度总结了以下优化经验:

01 集群隔离

当前我们有多个 Doris 集群,为合理承接不同业务方的接入需求,我们主要依据业务成本与稳定性要求两大维度进行评估与路由。通常而言,稳定性越高,对应成本也越高。

新建集群时,稳定性最优,但相应成本也最高。为在成本与稳定性之间取得平衡,我们大多场景是基于 Workload Group 资源硬隔离方案,对 CPU 与内存进行资源组级别的隔离,有效减少不同业务负载间的资源竞争。若业务对稳定性的要求超出共享集群所能提供的范围,则仍需要通过新建独立集群来满足。

02 存储压力

在 Apache Doris 的落地与运维过程中,我们曾面临因业务快速增长带来的高达 80%-90% 的磁盘存储压力。针对这一问题,进行了一系列优化:

  • 控制表生命周期:部分业务或因对动态分区相关语法不熟悉,未主动采用该策略。为此,集成动态分区的参数配置,简化了开发难度,并提供统一注册入口,业务开发人员仅需选择是否开启、保留天数即可。

  • 修改压缩格式:将默认压缩算法从 LZ4 切换为 ZSTD。实测表明,存储空间平均节省约 50%,虽带来约 20%~30% 的 CPU 与内存负载上升,但整体 ROI 仍然较高。

  • 存储指标监控告警:为预防因误操作或异常行为导致的存储激增,建立了针对“人员”与“表”双维度的监控体系。环比分析业务人员数据占用趋势及单表每日增长量,可自动识别异常(如单日增长飙升至日常 10 倍),并及时触发告警及通知。

  • Hive 与 Doris 打通:在基于 Kerberos 认证的 Hive 环境中,对 Doris Hive Catalog 功能进行了二次开发,实现跨系统的直接数据访问,无需依赖 Flink 等同步工具,简化了架构并提升了数据使用效率。

03 负载均衡

为确保系统在负载高峰期的稳定运行,特别是应对异常 SQL 与大查询带来的资源压力,应对措施如下:

  • 双机房负载均衡:基于已有的异地双机房架构,通过轮询机制实现业务流量在 A 与 B 机房之间的自动分发:首个 SQL 请求路由至 A,次个请求则导向 B,以此循环,确保双机房负载均衡,避免单点资源过载。

  • SQL 参数限制:通过 enable_query_memory_overcommit = falseexec_mem_limit = 256 * 1024 * 1024 * 1024 等参数将最大占用内存限制为 256G,避免集群被打满,后续计划降至 60G。

  • Workload 资源队列动态调整:基于任务类型划分资源队列,配置 CPU 的软隔离和内存的硬隔离,并支持错峰调度。比如:例行任务通常在夜间执行,为其创建专门资源队列,数据分析等公共任务大多在白天执行,将配置更大的资源队列,随着白天/夜间需求的变化动态调整资源。此外,依据各队列负载设定并行度与并发数,控制任务排队时长。

  • 异常 SQL 拦截:实时识别与拦截异常 SQL,避免其影响 BE 节点稳定性。初期使用 Doris 内置正则规则进行拦截,但规则复杂导致 CPU 开销上升。为此,我们将拦截逻辑外移至平台层执行,以避免正则匹配及超大 JOIN 导致的 CPU 负载过高。

04 集群稳定性

随着集群规模不断扩大,保障 FE、BE 节点稳定性成为运维工作的核心挑战,为此,我们构建了以下保障体系:

  • 分层触达+全维度覆盖:根据不同指标优先级设置通知电话、短信、飞书提醒,P0 监控准确率 ≥80%;

  • 自动异常处理:为 FE 和 BE 的宕机重启设置了自动化处理方案,在识别到服务卡住时,系统会自动重启进程。此外,对于磁盘掉线,将自动下线故障盘并触发副本补齐。

我们同时采用对战分析、火焰图和日志查看等方法进行详细记录,以便后续调优。此外,编写了 SOP 手册,涵盖不同场景的应对措施,并进行了异常处理演练。

结束语

截至目前,我们已搭建 3 个基于 Doris 2.1.10 版本的线上集群,其中最大规模的集群达万 core 级别、上百 TB 内存和 PB 级磁盘。目前仍在扩容中,计划在年底前新增百余台 CN 节点和数十台 Mix 节点。未来,我们将重点关注并探索以下能力:

  • 存算分离:重点关注 Doris 3.X 版本的存储分离架构,推动落地实践。

  • 湖仓一体:全面打通数据湖与数据仓库,目前已小规模试点 Paimon;此外,针对数据外置场景,计划通过异步物化视图提升查询性能。

  • 智能物化视图探索:引入语义建模与 AI 智能分析,降低研发与业务沟通门槛,并对智能推荐与模板化方案进行探索与实践。