2026年2月

不少正在使用 DataX 的团队,都面临任务维护成本高、扩展能力受限的问题,却又担心迁移代价过大。本文从 DataX 用户的实际需求 出发,介绍如何快速上手 Apache SeaTunnel,并通过原理解析、配置对比和自动化迁移工具,帮助你 低成本、快速完成 DataX 任务向 SeaTunnel 的迁移

参考源码:

1. 自动化迁移利器:X2SeaTunnel

为了简化迁移过程,SeaTunnel 社区提供了一个强大的自动化配置转换工具 —— X2SeaTunnel。它可以一键将 DataX 的 JSON 配置文件转换为 SeaTunnel 的 Config 配置文件。

1.1 工具简介

X2SeaTunnel 是 seatunnel-tools 项目的一部分,专门用于帮助用户从其他数据集成平台快速迁移到 SeaTunnel。

标准配置转换: 支持 DataX JSON -> SeaTunnel Config 的一键转换。
自定义模板: 支持用户自定义转换模板,满足特殊需求。
批量转换: 支持目录级批量转换,自动生成迁移报告。
详细报告: 生成 Markdown 格式的转换报告,包含字段映射统计、潜在问题提示等。

1.2 快速开始

1.2.1 下载与安装
你可以从 GitHub Releases 下载最新版,或通过源码编译:

# 源码编译
git clone https://github.com/apache/seatunnel-tools.git
cd seatunnel-tools
mvn clean package -pl x2seatunnel -DskipTests
# 编译完成后,包位于 x2seatunnel/target/x2seatunnel-*.zip

1.2.2 转换命令示例

# 基本用法:将 datax.json 转换为 seatunnel.conf
./bin/x2seatunnel.sh \
    -s examples/source/datax-mysql2hdfs.json \
    -t examples/target/mysql2hdfs-result.conf \
    -r examples/report/mysql2hdfs-report.md

1.2.3 查看报告
转换完成后,你可以查看生成的 Markdown 报告,了解具体的字段映射关系和潜在的警告信息。

2. 工具原理深度对比

2.1 DataX 原理

DataX 是阿里云开源的离线数据同步工具,采用 Framework + Plugin 架构。

  • 运行模式: 单机多线程 (Standalone)。所有的任务都在一个 JVM 进程中完成,受限于单机内存和 CPU。
  • 核心模型: Reader (读) -> Channel (内存通道) -> Writer (写)。
  • 优缺点:

    • ✅ 简单易用,生态插件丰富,适合小规模离线同步。
    • 单机瓶颈: 无法横向扩展,难以应对海量数据。
    • 缺乏容错: 任务失败通常需要全量重跑,不支持 Checkpoint。
    • 实时性弱: 设计之初主要针对离线批处理。

2.2 SeaTunnel 原理

Apache SeaTunnel 是下一代高性能、分布式、海量数据集成框架。

  • 运行模式: 分布式集群。支持 Zeta (自带引擎), Flink, Spark 三种执行引擎。
  • 核心模型: Source (读) -> Transform (转换) -> Sink (写)。
  • 优缺点:

    • 分布式执行: 任务可以拆分为多个 SubTask 在集群中并行执行,吞吐量随节点数线性增长。
    • CDC 支持: 原生支持 MySQL, PostgreSQL, MongoDB 等数据库的 CDC (Change Data Capture) 实时同步。
    • 断点续传: 基于 Chandy-Lamport 算法的 Checkpoint 机制,确保数据不丢不重 (Exactly-Once)。
    • 多引擎支持: 一套代码可无缝切换 Zeta/Flink/Spark,适应不同技术栈。
特性DataXSeaTunnel
架构单机 (Standalone)分布式 (Distributed)
配置格式JSONHOCON (兼容 JSON,支持注释)
实时/CDC支持较弱原生支持 (CDC, 实时流)
容错机制任务失败需重跑支持 Checkpoint 断点续传
转换能力较弱 (Transformer)强 (SQL, Filter, Split, Replace 等)

3. 典型案例:MySQL 同步任务迁移

下面演示如何将一个典型的 DataX 任务(MySQL -> MySQL)迁移到 SeaTunnel,并对配置文件进行了详细注释。

3.1 DataX 任务配置 (job.json)

这是 DataX 的经典 JSON 配置,包含 Reader, Writer 和 Setting。

{
    "job": {
        "setting": {
            "speed": {
                // [DataX] 全局并发通道数,控制同步速度
                "channel": 1
            }
        },
        "content": [
            {
                "reader": {
                    // [DataX] 读取插件名称
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "root",
                        "password": "root",
                        // [DataX] 需要同步的列名
                        "column": ["id", "name", "age"],
                        "connection": [{
                            // [DataX] 源表名
                            "table": ["source_table"],
                            // [DataX] JDBC 连接串
                            "jdbcUrl": ["jdbc:mysql://localhost:3306/source_db"]
                        }]
                    }
                },
                "writer": {
                    // [DataX] 写入插件名称
                    "name": "mysqlwriter",
                    "parameter": {
                        // [DataX] 写入模式,支持 insert/replace/update
                        "writeMode": "insert",
                        "username": "root",
                        "password": "root",
                        "column": ["id", "name", "age"],
                        "connection": [{
                            // [DataX] 目标表名
                            "table": ["target_table"],
                            "jdbcUrl": ["jdbc:mysql://localhost:3306/target_db"]
                        }]
                    }
                }
            }
        ]
    }
}

3.2 SeaTunnel 任务配置 (mysql_to_mysql.conf)

SeaTunnel 使用 HOCON 格式,结构更加清晰,且原生支持注释。

# 1. 环境配置 (对应 DataX 的 setting)
env {
  # [SeaTunnel] 任务并行度,对应 DataX 的 channel
  execution.parallelism = 1
  # [SeaTunnel] 任务模式:BATCH (离线批处理) 或 STREAMING (实时流处理)
  job.mode = "BATCH"
}

# 2. Source 配置 (对应 DataX 的 reader)
source {
  Jdbc {
    # [SeaTunnel] 驱动类名
    driver = "com.mysql.cj.jdbc.Driver"
    # [SeaTunnel] JDBC 连接串
    url = "jdbc:mysql://localhost:3306/source_db"
    user = "root"
    password = "root"
    # [SeaTunnel] 查询语句,支持灵活的 SQL 定义,替代 DataX 的 column + table 配置
    query = "select id, name, age from source_table"
    # [SeaTunnel] 关键配置:将读取到的数据注册为一个临时表,供后续 Sink 使用
    result_table_name = "mysql_source"
  }
}

# 3. Transform 配置 (可选,DataX 通常没有这一层)
# transform {
#   ...
# }

# 4. Sink 配置 (对应 DataX 的 writer)
sink {
  Jdbc {
    driver = "com.mysql.cj.jdbc.Driver"
    url = "jdbc:mysql://localhost:3306/target_db"
    user = "root"
    password = "root"
    # [SeaTunnel] 关键配置:指定数据来源表,这里引用 Source 中定义的 result_table_name
    source_table_name = "mysql_source"
    # [SeaTunnel] 写入 SQL 模板
    query = "insert into target_table (id, name, age) values (?, ?, ?)"
  }
}

3.3 关键映射说明

下表详细列出了 DataX 与 SeaTunnel 核心配置项的映射关系:

模块DataX 配置项SeaTunnel 配置项说明
全局job.setting.speed.channelenv.execution.parallelism控制任务的并发度。
Reader/Sourcereader.name ("mysqlreader")source.plugin_name ("Jdbc")插件名称映射,SeaTunnel 统一为 Jdbc。
parameter.jdbcUrlurl数据库连接地址。
parameter.usernameuser数据库用户名。
parameter.column + tablequeryDataX 分开配置列和表,SeaTunnel 推荐直接写 SQL,更灵活。
(无)result_table_nameSeaTunnel 核心概念:Source 输出的虚拟表名。
Writer/Sinkwriter.name ("mysqlwriter")sink.plugin_name ("Jdbc")插件名称映射。
parameter.writeMode(通过 SQL 控制)SeaTunnel JDBC Sink 直接通过 SQL 语句 (INSERT, UPSERT) 控制写入行为。
parameter.preSql / postSqlpre_sql / post_sql执行前/后的 SQL 钩子,两者都支持。
(无)source_table_nameSeaTunnel 核心概念:Sink 输入的虚拟表名,必须与 Source 对应。

4. 实战运行:执行 MySQL 迁移任务

本节将演示如何运行第 3 节中配置好的 SeaTunnel 迁移任务。请将 3.2 节中的配置内容保存为 config/mysql_to_mysql.conf 文件。

4.1 准备工作

在运行任务前,请确保满足以下条件:

  1. 安装 SeaTunnel: 已解压并配置好 SeaTunnel 环境。
  2. 安装 JDBC 插件: 确保 plugins 目录下有 connector-jdbc 插件,或 lib 目录下有对应的 MySQL 驱动 jar 包(例如 mysql-connector-j-8.0.x.jar)。

4.2 启动任务

SeaTunnel 支持多种运行模式,推荐使用以下两种:

# 方式一:本地开发模式 (Local)
# 适用于开发调试,直接在本地启动进程执行任务
./bin/seatunnel.sh --config ./config/mysql_to_mysql.conf -e local

# 方式二:集群生产模式 (Cluster - Zeta Engine)
# 适用于生产环境,将任务提交到已经启动的 SeaTunnel Zeta 集群
./bin/seatunnel.sh --config ./config/mysql_to_mysql.conf -e cluster

4.3 验证结果

  1. 查看日志: 任务运行过程中,控制台会输出详细日志。当看到 Job finished with status FINISHED 时,表示任务执行成功。
  2. 数据核对: 登录目标 MySQL 数据库,查询 target_table 表,确认数据条数和内容与源端一致。

5. 进阶功能补充

SeaTunnel 不仅仅是 DataX 的替代品,更提供了 DataX 不具备的高级功能。这里重点介绍如何实现 MySQL CDC (Change Data Capture) 实时同步。

5.1 为什么选择 SeaTunnel CDC?

DataX 主要用于离线全量同步,无法捕捉数据的实时变化(增删改)。而 SeaTunnel 的 CDC 连接器支持:

  • 断点续传: 自动记录读取位点,重启不丢数据。
  • 动态加表: 运行过程中无需重启即可添加新表。
  • 无锁读取: 使用快照读算法,极大降低对源库的影响。

5.2 MySQL CDC 配置示例 (mysql_cdc.conf)

要启用 CDC,只需修改 envsource 配置,并确保 sink 支持更新操作。

env {
  # [CDC 必选] 开启实时流模式
  job.mode = "STREAMING"
  # [CDC 必选] 开启 Checkpoint (单位毫秒),用于故障恢复和数据一致性保障
  checkpoint.interval = 5000
}

source {
  MySQL-CDC {
    result_table_name = "mysql_cdc_source"
    
    # 数据库连接配置
    base-url = "jdbc:mysql://localhost:3306/source_db"
    username = "root"
    password = "root"
    
    # [CDC] 指定需要监听的表,格式:database.table
    table-names = ["source_db.source_table"]
    
    # [CDC] 启动模式:
    # initial: 先全量同步,再自动切换到增量 Binlog (最常用)
    # latest: 只同步任务启动后的增量数据
    startup.mode = "initial"
  }
}

sink {
  Jdbc {
    source_table_name = "mysql_cdc_source"
    driver = "com.mysql.cj.jdbc.Driver"
    url = "jdbc:mysql://localhost:3306/target_db"
    user = "root"
    password = "root"
    
    # [CDC 关键] 自动生成 SQL 以支持 INSERT/UPDATE/DELETE
    generate_sink_sql = true
    
    # [CDC 关键] 指定目标表的主键,用于确定更新/删除的行
    primary_keys = ["id"]
    
    # 目标库表名称
    database = "target_db"
    table = "target_table"
  }
}

5.3 注意事项

  1. Binlog 开启: 源端 MySQL 必须开启 Binlog (log_bin=ON) 且格式为 ROW (binlog_format=ROW)。
  2. 权限要求: 同步账号需要 SELECT, REPLICATION SLAVE, REPLICATION CLIENT 等权限。
  3. 多表同步: table-names 支持正则匹配,例如 ["source_db.*"] 可同步整个数据库。

通过本文的介绍可以看到,从 DataX 迁移到 Apache SeaTunnel 并非想象中复杂。借助清晰的配置体系和自动化迁移工具,原有任务可以快速平滑过渡。

同时,SeaTunnel 在性能、扩展性和生态上的优势,也为后续数据集成和平台化建设提供了更大的空间,帮助团队更从容地应对不断增长的数据需求。

导读

淘宝闪购从25年春天的横空出世,到秋天“第一杯奶茶”的火爆,再到今天成为广大消费者即时生活服务的日常,业务团队取得了巨大的突破,背后自然少不了技术团队的支撑。经过一年多的探索实践,闪购大数据团队沉淀了以Paimon为底座,流、批、分析多引擎协作的Lakehouse架构。本文介绍阿里云 Serverless Spark + Paimon在淘宝闪购大数据湖仓场景的应用。

一、业务介绍

淘宝闪购是阿里巴巴旗下的即时零售业务,也是目前电商领域非常热门的“风口”之一。淘宝闪购零售业务是淘宝闪购重要的生态体系之一,业务覆盖了餐饮外商品的外卖业务,包括超市便利、看病买药、水果买菜、鲜花潮玩、酒水饮料、食品百货、手机数码等众多品类和消费场景。
973557f77c8a48c283a73383e564892b.png

淘宝闪购零售数据团队是淘宝闪购DIC(数据智能中心)下负责零售业务的数据团队。在2025年5月闪购业务快速发展的背景下,零售数据团队也面临着业务快速增长带来的数据体量和业务诉求对实时数据更强烈的压力,零售业务特殊场景,基础商品量级大,观测维度多,在大盘观测、多端流量调配及权益补充等场景下业务对多维分析和实验效果回收有更高时效的要求。在淘宝闪购数据团队长时间探索ALake积累的湖仓一体背景下,闪购初期零售数据的整体实时架构便融合了湖仓一体架构,快速支撑了业务在闪购上线初期快速看数和策略调整的诉求,经过多轮的技术探索,逐步形成了Flink+Paimon+Spark+StarRocks的技术架构,Spark在其中扮演了非常关键的角色,在应用端使用Spark在营销特征生产、零售流量多维分析、AB实验效果回收等场景上均得到了效率和稳定性的提升。

本文将主要分享零售数据团队在实时湖仓探索中在Spark应用落地的一些实践总结。

二、淘宝闪购零售数据实时架构演进之路

2.1 烟囱式开发的实时链路


主要应用场景:零售商家数据看板、实时分析。在此阶段遇到的问题主要是烟囱式开发,开发和维护成本较高。我们在实时中间层的沉淀上基本满足诉求,但是在应对业务多维分析需求时,原先架构的开发成本和数据核对的成本比较高,无法支撑快速迭代的业务诉求。

2.2 引入湖仓Paimon + StarRocks,实时分析提效初见成效


在引入了湖仓之后,实时主要技术架构升级到TT+Flink+Paimon+StarRocks,主要应用场景:商家端应用、实时分析。

在湖仓一体的背景下,闪购初期我们选择了StarRocks查询引擎搭建FBI看板,快速响应了业务快速迭代的看数需求。在此场景下遇到的问题如下:

  • 维表引入效率低

    由于湖仓在零售数据团队的引入处于初期,比较多的底层依赖公共层表都在ODPS中,在FBI引入StarRocks直查分析的情况下没有办法直接关联,所以StarRocks的物化没有办法实现比较多的维度聚合场景。

  • 需求迭代快,时效容忍度高

闪购上线初期,市场竞争激烈,业务需求的变化也快,对数据产出的时间要求也高,但是对于实时性的要求不是很高,所以对开发效率提了比较大的挑战。

  • 流量数据量级大,分析维度多,Cube计算数据膨胀大,数据产出延迟大

与餐饮外卖场景不同,零售场景下业务需要关注到商家行业、城市、品牌、业态等多维度的流量和交易转化分析,应用场景主要是在快速增长的流量下做大盘观测、分行业运营、流量策略调整、权益补充等场景上,初期的技术方案是Flink+Paimon+StarRocks,但是在基础流量量级上,Cube膨胀倍数达到万倍,在对比之下,StarRocks更适合在中等规模的数据聚合,在大Cube的规模下StarRocks的多维表物化视图无法稳定产出,导致数据时效性受到极大的影响,零售流量分析在淘宝闪购上线初期StarRocks物化视图的成功率约40%~60%,在高峰期的数据延迟能达到3h以上。

2.3 引入批处理引擎Spark,实现流批一体,提升稳定性和效率,应用场景更丰富

为了解决以上的一些难题,我们联合了阿里云EMR Serverless Spark团队和爱橙ALake Spark团队合作,引入Spark引擎通过批处理实现准实时物理物化,补充当前在湖仓的技术栈上的缺口,经过近半年的应用实践,达成了在数据稳定产出上的目标,同时在产出时效性得到了大大提升。

闪购的批处理场景选择了ALake Spark,主要考虑因素是ALake Spark跟Paimon的集成非常成熟。与其他具有私有格式的引擎不同,DLF Paimon表是ALake Spark的“内表”,支持Paimon的全部特性,包括读写全类型表(Append表,PK表,Object表,Format表),支持ACID、Schema Evolution、Time Travel、Call Procedure等湖表特性,支持列裁剪、谓词下推、基于统计信息的Plan调整、z-order等查询优化,以及支持DV和Variant类型等高级特性。此外,ALake通过跟阿里云EMR团队合作,引入FusionCeleborn等重要组件,大幅提升Spark的性能、稳定性和弹性,成为湖上批处理的首选引擎。主要概况以下几点:

(1)数据湖的无缝集成。ALake Spark跟Paimon的集成非常成熟,尤其是对DV表的支持更佳,开启 Paimon 表的 Deletion-Vectors 属性后,Spark的读写性能能提升约3-5倍;同时支持ACID、Schema Evolution、Time Travel、Call Procedure等湖表特性。

(2)Variant高效JSON数据存储和读写支持,让复杂文本的读取和计算效率得到大大的提升。在测试场景中,读取性能在关闭和开启Shredding配置下分别提升1.7倍和12倍。

(3)稳定性强,解释性高。ALake通过跟阿里云EMR团队合作,引入Fusion和Celeborn等重要组件,大幅提升Spark的性能、稳定性,这也是在闪购初期我们对实时/批处理引擎比较大的考量。并且可解释性强,数据核验的效率非常高,有助于提升效率。

(4)调优空间大,效率高。支持列裁剪、谓词下推、基于统计信息的Plan调整、z-order等查询优化方案,我们在Spark测试过程中发现对任务的调优可以获得指数级的效率提升收益,对数据的产出时效有极大的提升,最大能提升90%以上的任务运行效率。

(5)开发和运维的成本低。技术栈比较成熟,无需手动管理和复杂的基础设施搭建,即可快速启动任务开发,大大减少在闪购势如破竹的背景下快速迭代的学习成本,真正实现了流批一体,提升了整个团队的开发效率。

最终Spark在淘宝闪购零售数据多个场景中应用:AB实验回收分析、实时流量分析、营销批信号和特征生产等。整个开发成本平均提升30%~40%的效率,数据产出稳定性提升90%以上;同时,通过Spark调优带来的效率提升最高达到了92%。

三、Spark + Paimon重要特性详解

3.1 Delete Vector

在Delete Vector(DV)之前,Paimon支持两种数据合并方式:Copy on Write(COW)和Merge on Read(MOR)。COW模式在更新时需重写整个数据文件,导致写放大和高延迟,难以支持高频流式写入;而MOR虽写入高效,但读取时需做文件合并,带来显著的读开销,且对计算引擎集成不友好。DV引入了新的机制:写入时记录被删除的数据,读取时过滤。DV既保留了MOR写入高效性,又减少了COW的合并开销,从而更好地支持流批一体场景。下面以PK介绍DV的整体设计。

在delete和update时,生成delete file并记录被删除record:

DV file具体编码如下,逻辑上记录每个文件被删除的record的rowid,物理上以bitmap存储在index file meta和index file中,读表时过滤掉delete file记录的record。

对比5亿条数据(20%重复率)的主键表入湖后查询,开启DV比关闭DV性能提升3-5倍

3.2 Variant

Json数据在闪购业务中使用非常广泛,但Json解析的性能经常成为瓶颈。针对这个问题,ALake Spark结合Paimon推出了Variant类型,通过牺牲一次写性能,大大加速高频的读性能。

Variant的整体思路是写时解析Json的Schema并以自描述可索引的方式存储Schema和数据,只需在写入时做一次完整解析和编码,换取读取时媲美结构化数据的性能。Variant的编码格式如下:

Variant的Metadata字段存储的是去重之后的key,Value的filed id部分存储的是按照key字典排序之后的id,每个id指向其对应的key,从而支持快速二分查找所需要的key。Value的field offset和field value部分存储value的偏移和具体的值。针对嵌套结构,field value递归存储上述结构(Metadata + Value字段)。

针对结构相对固定的Variant数据,ALake Spark + Paimon还支持了Shredding,即采样出固定的字段,并以struct的方式存储,从而进一步加速解析过程。

在测试场景中,读取性能在关闭和开启Shredding配置下分别提升1.7倍和12倍:

3.3 Fusion + Celeborn

Fusion是ALake Spark跟阿里云EMR Serverless Spark团队合作引入的向量化SQL执行引擎,使用C++ 向量化技术重写了Spark SQL Engine。除了语言层面,Fusion的主要特点是把原有的行式计算转变成列式计算,从而更易于SIMD加速,更加CPU Cache友好,结合异步&合并IO等优化,在CPU密集型作业上相比Java Engine有数倍性能提升。

Apache Celeborn是阿里云EMR Serverless Spark团队捐赠给ASF的顶级项目,目前已经是Spark Remote Shuffle Service的事实标准。Celeborn主要解决的问题是大Shuffle作业的稳定性、弹性和性能问题,主要技术手段是远程存储和Shuffle数据重组,彻底解决重Shuffle作业经常出现的FetchFailure异常,生产作业极端情况有数量级的性能提升。

Fusion + Celeborn 的架构如下:

4、Spark + Paimon在闪购的应用

4.1 流批一体,营销实时特征生产提效

随着闪购市场的竞争日益激烈,对用户的精细化运营变得越来越关键,同时也对营销算法提出了新的挑战,以前的离线特征已经无法满足业务策略快速迭代的诉求,算法团队也对特征的时效性提出了更高的要求。

之前的实时特征生产流程如下所示,在算法侧离线特征重要性评估之后,向数据团队提特征生产需求,在数据和算法开始梳理和对齐口径开始,针对某一批实时特征的开发和上线,结合数据验证,理论上需要2个星期以上的时间,而且还不包含全链路的质量保障工作,如果遇到比较极端的序列型特征,Flink SQL还没有办法支持,需采用DataStreaming的方案实现,开发时长甚至会达到1个月以上,主要的时间是花在了特征开发阶段。
5bdbe45d2c1945dfb49fa8d3a1127a3c.png

在接入湖仓之后,我们采用了新的实时特征生产模式,新的生产模式核心思想是逐步提升特征的时效性,优先生产分钟级时效的特征,根据分钟级特征的重要性表现,决定是否转向实时生产的模式。

新的实时特征生产流程如下所示:
83c52847bb824028b3770c93644239e1.png

此生产模式下的数据链路如下:

零售数据团队营销特征生产的提效成果:Spark生产单个特征的效率至少是原先的 3倍以上,实时特征有效比例20%,在整个特征生产到算法实验链路上,至少能提升40%的效率,同时在资源成本上也有约20%的节省。

4.2 流量&营销多维分析

如前文所述,在零售EAT&夏战的大范围作战中,对于时效性的要求越来越高,高时效的数据应用在大盘观测、流量调配、策略调整、权益补充等多个场景中。因此,业务侧与管理层对于数据的实时性有更高的期待和更多的要求,原有的技术架构与人力无法匹配快速迭代的需求。从维度上看,零售场景下业务需要关注到商家行业、城市、品牌、业态、类目等多维度的流量和交易转化分析,如果再配合营销超算同学做算法AB实验的回收,数据需要再加入实验信息、端、用户分层、笔单分层、券维度等等实验所需维度,在实验效果回收时需要cube做数据多维分析数据量膨胀近万倍,传统生产逻辑已无法满足算法侧及时回收数据的强诉求。

在实时&准实时分析上形成3套分析范式:

序号分析框架场景/示例
1Paimon[detail]+StarRocks中小数据规模实时分析,例如零售实时营销
2Paimon+StarRocks MV[sum]+StarRocks中等数据规模实时分析,例如零售多维实时AB实验分析
3Paimon+Spark[sum]+StarRocks大批量数据准实时分析,例如零售多维实时流量分析

数据湖技术的落地带来了新的可能。我们通过Spark+Paimon的结合的方式并进行合理的执行计划优化,使回收数据的时效性达到半小时/10分钟级,大大提高算法实验回收效率,为营销和搜推赋能。

4.3 Spark治理和调优最佳实践应用

Spark在应用上调优和治理的空间是比较大的,尤其是针对大量级数据的聚合查询。以下是我们在实践过程中总结的调优案例,对我们运算效率和资源利用均有特别大的提升。总的来说,Spark的核心调优原则总结为2条:

(1)问题导向

  • 先通过 SparkUI 定位瓶颈(Stage 执行时间、Task 分布、数据输入量),再针对性优化。

    • 关键指标:Stage 执行时长、Task 耗时方差、Shuffle 数据量、内存溢出(OOM)日志。

      (2)分级优化

    • 优先级:参数调优 → 执行计划优化 → 存储层优化(湖表结构调整)。

4.3.1 数据倾斜治理(最高频问题)

(1)诊断方法
  • SparkUI 观察

    • 某 Stage 执行时间远超其他 Stage(如占总耗时 80%+)。
    • 同 Stage 下 Task 耗时方差极大(如 90% Task 耗时 <1min,个别 Task >30min)。
    • Shuffle Read/Write 数据量异常(如某 Task 读取数据量是平均值的 100 倍+)。
  • 定位倾斜算子

    • 通过 SQL / DataFrame 查看 Stage 对应的 SQL 逻辑(如 JOIN、GROUP BY)。
    • 检查输入数据量差异(如大表 7.5 亿 vs 小表 400 万)。
(2)治理方案
场景解决方案关键参数/操作效果
通用倾斜开启自适应倾斜处理spark.sql.adaptive.skewJoin.enabled=true
spark.sql.adaptive.skewJoin.skewedPartitionThresholdInBytes=256MB
拆分倾斜分区,避免单 Task 过载
大表 JOIN 小表强制 MapJoin(避免 Shuffle)SQL 中添加 /*+ MAPJOIN(small_table) */ Hint消除 Shuffle,提速 85%+
倾斜 Key 预处理对倾斜 Key 单独处理(如加随机前缀)CONCAT(key, '_', FLOOR(RAND() * 10))
分桶不合理调整Paimon表分桶数分桶设置黄金公式
推荐分桶数 = 分区数据量 (GB) / 2
示例:单分区数据 864GB → 分桶数设为 432
解决底层数据分布不均

4.3.2 执行计划优化(CUBE/维度展开场景)

(1)问题特征
  • 维度组合爆炸(如 4 维度展开 200+ 倍)。
  • 单 Stage 内完成数据读取 + 维度计算,Task 并发度不足。
(2)优化方案
步骤操作原理
1. 增加并发度在维度展开前插入hint
 repartition(N)
将计算拆分到更多 Task,避免单 Task 负载过重
2. 确定 N 值按数据量级尝试:N = 数据量 × (20/50/100)
示例:900 万数据 → 试 400
通过 SparkUI 观察 Task 均衡性调整 N
3. 验证效果检查新 Stage 是否存在倾斜 + 总耗时下降目标:Task 耗时标准差 < 20%

优化效果:CUBE 作业从 90min优化至8min,性能提升 92.7%

4.3.3 湖表存储层优化(终极手段)

(1)适用场景
  • 参数调优后性能仍不达标。
  • 分区数据量与分桶数严重不匹配(如 1TB 数据仅 10 个桶)。
(2)优化步骤

  1. 分桶数量调整

  2. 分桶键选择

    • 主键表:默认使用主键(无需显式设置)。
    • 非主键表:选择高频 JOIN 或 GROUP BY 字段(如 user_id)。
  3. 关键配置示例
TBLPROPERTIES (
  'bucket' = 'xxx',  -- 按数据量计算
  'primary-key' = 'ds,user_id,order_id',  -- 主键表必设
  'deletion-vectors.enabled' = 'true'      -- 启用删除向量加速查询
)

4.3.4 总结调优流程图(实战指南)

a206008afe664dc59be0743d77c928f9.png

5、总结与未来展望

在淘宝闪购上线以来的这一段时间内,业务不断在创造一个又一个峰值,用户活跃度和订单量级都屡创新高,在这背后,数据团队始终以“稳定、高效、智能”为准则,在湖仓一体架构的基础上,深度融合流计算与批处理能力,构建起一套高弹性、低延迟、强一致的数据处理体系,作为核心计算引擎,阿里云 EMR Serverless Spark 在湖仓一体架构中扮演了关键角色,在湖仓流计算和批计算的共同加持下抗住了业务的压力,同时越来越多的业务场景应用快速落地。

未来,我们也会继续与阿里云EMR Serverless Spark团队和爱橙ALake Spark团队密切合作,在闪购业务上探索更多的使用场景,发挥Spark更大的价值。我们坚信,在AI与即时零售深度融合的时代浪潮下,Spark不仅是计算引擎,更是连接数据、智能与商业价值的关键桥梁。而淘宝闪购正成为这一桥梁上最活跃、最具创新力的先行者之一,欢迎大家到淘宝闪购下单。

鸣谢

感谢我们淘宝闪购-DIC零售数据团队慧航、圣俞、空竹、晚识、约理、鸢鸿、舫舟、量衡、清临等各位同学在湖仓应用的支持;

感谢淘宝闪购-DIC霄明、哲昆在零售数据团队在湖仓探索和Spark应用上的支持和帮助;

感谢爱橙湖仓团队无谓、其修、夷羿的大力支持;

感谢阿里云EMR Serverless Spark团队一锤、寻径、履霜、羊川、昕羽、羲羽、郑涛等同学的支持。


元字辈
1.男孩想要按照辈分,元泽已经被家里占用了
2.女孩有心仪的名字 李茂溪,比较有意境,但是担心在河南有谐音梗,以后可能被同学开玩笑

跟着女孩,男孩准备叫 李元茂
现实情况 准备生,还不知道生男生女,准备是生两个

大家有没有推荐或者优化的建议,谢谢

科技云报到原创。

 

当AI将创新周期从年压缩至月,一场静默却剧烈的重构正席卷全球云计算市场:AI推理的算力支出在2025年底首次超越通用计算,这不仅宣告着“租用智能”的时代正式到来,更彻底改变了云的商业模式。

2026年初,多家头部云厂商接连宣布上调部分服务价格,打破了持续二十余年的“降价惯性”。

 

这背后,是AI浪潮对算力需求的结构性重塑——传统的、可预测的标准化需求,正在被AI驱动的、爆发式且极度昂贵的高性能计算需求所取代。

 

云计算的底层逻辑,正从“成本中心的资源优化”转向“价值引擎的智能调度”。

 

在这场由AI驱动的深刻变革中,一个比单纯的“算力通胀”更为核心的矛盾日益凸显:无论是全球布局的“中国智造”,还是寻求在华深度经营的跨国巨头,都共同面临全球运营效率统一性与本地市场合规适应性之间的“一致性悖论”。

 

近期,弗若斯特沙利文(Frost & Sullivan)联合头豹研究院发布了《2025年在华外商企业云计算服务采用研究报告》,研究清晰地揭示了这一点:超过80%的在华外商企业采用多云策略。

这并非出于技术偏好,而是对“一致性与本地化无法兼得”现状的无奈妥协。

 

企业像管理一个跨国交响乐团,渴望所有乐手(各地分支)遵循同一份乐谱(技术架构),但每个音乐厅(本地市场)的声学环境与观众偏好(合规生态)千差万别。

这“一致性悖论”在AI时代被急剧放大。如何调和这对矛盾,已成为定义下一代云服务商领导力的核心命题。

 

破局之道“全球一致”与“黄金三角”

 

在近日举行的亚马逊云科技中国区域助力企业数智化转型升级媒体沟通会,记者了解到,面对全球企业的共同焦虑,作为市场深度参与者的亚马逊云科技,正将其“深耕本地,链接全球”的愿景,转化为一套可执行的系统性解法。其核心在于构建一个 “全球同步、本地无感”的技术基座。

 

首先,是以技术同步保障战略一致性。

 

确保企业无论身处何地,都能使用全球统一、前沿的技术栈进行创新,是消除“数字时差”的第一步。

 

亚马逊云科技成长型企业及新兴业务总经理倪殿令指出:“我们的角色,是提供全栈能力,弥合从CEO战略到IT执行之间的断层,确保从战略到执行的一致性。”

 

2025年上半年,亚马逊云科技在中国区域落地超过190项全球服务,并将自研芯片Amazon Graviton4同步引入,其性能较上一代提升30%。

 

这不仅是算力的升级,更是为企业提供了一个与全球技术演进连续、无需担忧技术栈断裂的创新环境。

 

沙利文报告对此给予了客观印证:在评估云厂商的“核心能力”时,亚马逊云科技在“支持全球一致的计算能力、跨境高速合规互联、全球数据高可用和实时同步、兼容机器学习框架、全球云原生应用”以及“确保跨境应用的统一体验和高效运维、降低跨境运营复杂度、满足中国安全监管要求、全球安全防护一致”等多个维度得分最高。

 

其在北京和宁夏的区域运营模式,使企业能够在符合中国法规的前提下,使用与全球一致的API、SDK和运维体验,从而“提升创新效率,降低运营和管理的复杂性”。

 

其次,是以“黄金三角”方法论,将AI战略精准落地。

 

倪殿令强调,面对生成式AI热潮,企业需要的远不止大模型和算力。“对于生成式AI应用而言,最重要的其实是数据。其核心在于底层的高效数据处理能力……这部分能力的影响力高达百分之九十以上。”

基于此,亚马逊云科技提出了围绕业务战略的 “场景-数据-人才”黄金三角。

 

  1. 场景维度:企业需要找到高价值,且适合用生成式AI解决的业务切入点。亚马逊云科技推出如Strands Agents等服务,支持从简单任务自动化到复杂决策的全方位智能化转型。
  2. 数据维度:无论企业选择RAG、微调还是训练专属模型,都需要坚实的数据基础设施。亚马逊云科技提供从Amazon S3数据湖到Amazon Glue数据治理,以及各类数据分析和处理工具的完整方案。IDC报告亦认可其在该领域的领导地位。
  3. 人才维度:面对AI人才短缺,亚马逊云科技在中国提出“共创+培养+迭代”实践,通过与高校、企业合作,系统性破解AI落地的人力资源瓶颈。

安全和合规是全球化基石

 

技术的一致性是效率的起点,而信任的全球化则是业务连续性的底线。亚马逊云科技将其长期积累的安全合规实践与庞大的合作伙伴生态,整合为支撑企业全球拓展的关键支柱。

 

安全与韧性是全球化运营不可妥协的底线。 倪殿令分享了一个细节:“作为内部员工,我们是不能进入生产数据中心的。” 这种极致的安全文化,内化为服务的高可靠性。

 

根据沙利文另一份针对云服务事故的调研,在2023年至2025年的统计周期内,亚马逊云科技是在华运营的云服务商中,唯一达到“四个九”(99.99%)可用性标准的厂商。

 

这种从芯片(如Amazon Nitro系统)到服务层的原生安全设计,为企业应对不确定性和挑战提供了坚实支撑。

 

本地化生态是将全球能力转化为具体价值的放大器。

 

“深耕本地”离不开强大的生态。亚马逊云科技在中国拥有超过一万家本地合作伙伴,与德勤中国联合发布“DelphAI”生成式AI实践服务,联合共创超过40项行业解决方案;与SAP的合作也已步入第十年。德勤中国合伙人郭大江表示,这种深度绑定“不仅是推荐方案,更是将自己的员工培养成亚马逊云科技平台上的专家”。

 

这种生态融合能力,正是沙利文报告在评估“用户价值”时,高度认可亚马逊云科技 “促进本土多方共赢、本土生态建设”等维度的关键所在。

 

从“资源竞争”升维至“体验竞争”

 

云计算的竞争维度正在发生根本性迁移。早期的资源规模、中期的产品丰富度竞争,在AI与全球化交织的今天,已演变为“全球数字化体验”之争。

 

这种体验,衡量的是企业将其数字业务从一个区域平滑、快速、合规地复制到另一个区域的综合能力。未来的领导者将是那些能最大程度简化全球运营复杂性的厂商。

 

它们提供的将是一个具有统一引力场的数字平台,将复杂的地缘技术差异极大抽象,让企业得以专注于业务创新本身。

 

这要求云厂商不仅要有广布的基础设施,更要有深度的全球合规实践、强大的生态整合能力,以及将复杂性转化为一致性体验的产品哲学。

 

亚马逊云科技通过将安全合规能力深度嵌入基础设施层,确保核心服务与API的全球一致性,正致力于帮助企业消除“数字时差”,让创新的想法和数据能够像光一样,在全球范围内自由、瞬间地流动。

 

结语

 

当AI驱动全球创新竞赛进入白热化,企业竞争力的核心已不再仅是拥有多少算力,而在于能否在全球范围内高效、安全、敏捷地调度智能与数据。

 

亚马逊云科技所实践的,正是通过“全球一致”的技术服务、“黄金三角”的落地框架以及“可信可靠”的运营体系,为企业构建一个体验连续的数字世界。

 

这并非一场关于本土化的侧翼战,而是一场关于“如何将全球化做到极致” 的中心战役。

 

那些能够交付“零数字时差”体验,将复杂合规与技术差异隐藏在平台之下,让企业全球化业务如本地运营般顺畅的云服务商,将成为定义下一代全球商业基础设施规则的真正奠基者。

 

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、数博会、国家网安周与全球云计算等大型活动的官方指定传播媒体之一。深入原创报道云计算、人工智能、大模型、网络安全、大数据、区块链等

在大模型能力不断增强的背景下,智能体(Agent)逐渐从概念验证走向业务系统。然而在实际落地过程中,一个被频繁观察到的现象是:大量智能体在演示阶段表现良好,却难以进入长期稳定运行状态,最终随项目阶段结束而退出生产环境。业内普遍认为,问题并不出在模型能力本身,而在于工程体系是否具备持续演进的基础。

一、工业环境下智能体的基本形态

在工程实践中,智能体通常被视为一种能够感知环境、进行决策并调用工具执行任务的计算单元。与传统规则系统相比,其价值在于对非结构化输入的处理能力,以及在一定约束条件下的泛化行为。

具备长生命周期的智能体系统,往往具备以下三个核心组成:

  • 逻辑骨架(Cognitive Framework)通过结构化规划或可追溯的推理流程,确保决策路径具备解释性,而非仅依赖隐式提示。
  • 工具体系(Toolkits)明确的接口边界、稳定的参数规范以及权限控制机制,用于约束智能体与外部系统的交互行为。
  • 记忆与知识结构(Memory & Knowledge Base)包含历史交互、领域知识与业务规则,是智能体持续一致性与可复用性的基础。

二、避免“项目结束即失效”的工程共识

在多个行业实践中,逐渐形成了三类被反复验证的工程策略。

1. 从提示配置转向可控工作流

过度集中在提示词层面的设计,往往会放大系统的不确定性。更稳定的做法是将复杂任务拆解为多个明确职责的子流程,由规则或子模块进行协调管理。

  • 通过模块化拆分,降低单点调整对整体系统的影响
  • 使用确定性状态管理机制,限制智能体的跳转路径
  • 将语言模型嵌入既定流程中,而非作为唯一决策源

这种做法的核心目标,是在保持灵活性的同时,确保行为的可预测性。

2. 构建持续存在的人机反馈回路

在长期运行的系统中,完全依赖自动决策往往会导致误差积累。引入反馈机制被视为行业内的基础配置。

  • 在关键节点引入人工确认,用于校正高风险决策
  • 通过任务成功率、执行成本和结果采纳情况,反向评估系统表现
  • 将失败样本系统性沉淀,而非作为一次性异常处理

3. 将业务经验转化为可继承资产

许多智能体系统失效的根本原因,在于隐性知识只存在于个别成员或临时文档中。工程化实践更强调知识的结构化表达。

  • 将标准作业流程转化为可解析的流程或拓扑结构
  • 允许系统在执行失败后,将经验反馈写入检索或规则层
  • 通过结构更新替代大规模模型重构

三、长期运行中的质量评估维度

相比一次性效果展示,持续运行系统更依赖稳定的评估指标体系。常见的工程评估维度包括:

  • 任务完成率:衡量系统在无人工干预下达成目标的能力
  • 工具调用准确性:反映智能体与外部系统协作的可靠性
  • 知识依从性:用于评估输出是否严格受限于既定知识范围
  • 记忆一致性:体现跨周期任务中信息保持与调用能力

这些指标通常被用作系统调整与版本演进的依据。

四、结语

在当前阶段,行业逐渐形成一个共识:智能体并非一次性交付的软件模块,而更接近一种需要长期运营的数字系统。稳定的工程结构、可积累的数据资产以及清晰的能力边界,是其持续存在的前提。智能体来了这一趋势本身并不新鲜,真正决定其价值的,是是否具备在真实业务环境中持续演化的能力。

1 月 14 日,由阿里云主办、云原生应用平台承办的“2025 AI 原生编程挑战赛”圆满收官。历经 2 个多月的角逐,6 支队伍从 5500 多支报名战队中脱颖而出,在云原生环境下跑通 AIOps Agent 的核心技术闭环,成功晋级决赛。最终,来自汽车行业的企业级战队“V-AI”获得总冠军。

image

AI 原生编程挑战赛由发展历程超过 10 年的“云原生编程挑战赛”升维而来。自 2015 年创办至今,该赛事已连续举办十一届,累计吸引全球 10 余个国家和地区的 96,000 多支战队参与。

作为国内聚焦 AI 原生编程与运维场景融合的重磅赛事,本次大赛自启动就展现出“破圈”影响力,参赛选手遍布包括清华大学、中科院等在内的 180 多所国内外高校及 120 多家企业。 大赛核心命题在于将大模型的推理潜能引入运维实战。选手基于部署在阿里云跨可用区的真实电商服务,通过官方提供的真实多模态可观测数据(Log、Metric、Trace、Entity、Event)构建 AI 驱动的智能运维 Agent,实现对复杂云原生系统中未知故障的自动根因诊断。

为广邀全球开发者共赴“让天下没有难查的故障”的技术实践,大赛组委会提供了通过云监控 2.0 白屏化操作、通过 SPL/SQL 语句分析诊断、Workflow/Agent 自动化三种解题路径,配以最小可复现步骤、示例查询与产出要求指导,帮助选手借助 AI 快速、准确、低成本地进行故障根因诊断,收获参赛作品超 1000 份。

总决赛现场,阿里云智能集团副总裁、基础设施事业部负责人蒋江伟,阿里云智能集团副总裁、市场营销部负责人刘湘雯为冠军战队“V-AI”颁奖。

image

蒋江伟表示,这次 AI 原生编程挑战赛见证了 AI Agent 在处理复杂运维问题上的潜力。选手们在大赛中释放出的创新活力与技术灵感,让我们看到 AI 与研发、测试与运维全链路的深度融合,正在为构建标准化、可规模化扩展的智能运维新范式夯实根基。

刘湘雯在祝贺获奖战队时指出,从云原生到 AI 原生,大赛的愿景随着技术的演进不断迭代。希望参赛开发者以本次大赛作为起点,继续勇敢破界,在实战中打磨,让更多创新构想精准落地。

来自华中科技大学计算机学院的“HUST-B507”战队及个人开发者战队“我就看看不参加”分获亚军和季军,阿里云智能集团资深技术专家司徒放、云原生应用平台负责人周琦为获奖战队颁奖。

image

image

阿里云智能云原生应用平台运营负责人王荣刚、产品营销市场负责人陆俊为 3 支个人开发者战队“scaner”、“皮卡丘的皮卡”、“那个男孩儿”颁发优胜奖,鼓励选手在智能运维领域持续探索。

image

代表冠军战队 V-AI 分享的车企领域架构师朱迪表示: “工作中的大量 IT 运维工作,让我们面对着提升效率、降低成本挑战。在这次比赛中我们不仅提升了技术,也加深了对阿里云可观测产品的理解,加速解决实际故障的效率。通过比赛,我们更加相信 AI 与运维的融合是必然趋势。感谢组委会的支持,期待与阿里云继续携手共进,迎接更加智能的未来。”

多位参赛队伍及选手分享经验时提到,阿里云云监控 2.0 提供的产品和服务,为参赛提供了稳定的数据底座。其中,UModel 作为云监控 2.0 的核心建模基础,提出基于图模型的统一可观测数据建模范式,不仅解决了传统可观测系统中“数据孤岛”、“语义割裂”、“建模复杂”等痛点,还为 AI 原生运维(AIOps)、智能根因分析、跨域关联等高级能力提供了结构化、可推理的数据底座,是阿里云为 AI 时代打造的运维世界本体,让可观测系统从“被动响应”走向“主动认知与优化”。

本次大赛的技术深度也赢得了学术界的关注,其技术逻辑与实验环境已获得中科院等知名高校机构认可,并被正式引入相关科研课题实践,为 AIOps 产业长期发展储备高质量人才。

阿里云智能资深技术专家、云原生应用平台负责人周琦表示,“AIOps 编程挑战赛希望以大模型与 AI 技术为新起点,帮助开发者开启在 Operation Intelligence 广阔赛道上的探索,将传统依赖经验的‘老中医式’运维转变为智能化的问题解决能力,实现从被动响应向主动预测的升级。感谢各位参赛选手的创意和创新,和阿里云一同推动 AIOps Agent 的发展,创造智能运维的未来。”

大赛中沉淀的技术标准与人才生态将持续赋能企业向 AI 原生演进。阿里云将以云监控 2.0 为核心智能运维体系,帮助企业在 AI 时代以更智能、更高效、更低成本的方式构建全栈可观测体系。

点击此处,回顾决赛现场。

哪里还有便宜的流量卡 过年回村里没宽带啊,流量不够用,坐标江西赣州。之前搞过一张 19 块钱 180g 的 没续费了。现在还有这种套餐吗

一直有这个疑惑

有钱人的车啊,包啊,衣服裤子啊,这些是昂贵的奢侈品能理解

但日用品呢?比如洗发水,香皂,牙膏,卫生纸,棉签什么的,都是特供的吗?

以下为部分个人介绍(去敏)

年龄: 00 后
学历: 初中及以下
GitHub: https://github.com/kekeimiku
Email: [email protected]

核心技能
编程语言: Rust 、Go 、C 、Objective-C 、Assembly 
技术领域: 后端开发、逆向工程、系统底层开发、跨平台开发、物联网、自动化
开发能力: 高性能代码优化、安全开发、多线程并发、网络编程

个人优势
1.十年以上工作经验,具备扎实的编程基础和项目管理能力,能够独立或带领团队完成软件开发与维护
2.熟悉多种开发语言,熟悉常用开发框架,有良好的编程习惯和较强的编程思维
3.熟悉安全开发,具有逆向思维安全意识,能够避免开发中的多数常见安全陷阱
4.熟悉各类操作系统程序开发(包括冷门如各种年代游戏机系统),具有丰富的多平台开发经验
5.擅长造轮子,研究过众多未公开的底层技术,在多个项目中填补了技术空白

工作经历
2025-2026 四川某公司做后端、物联网、游戏相关产品
2022-2024 在广东某公司做物联网平台相关的的产品
2021-2022 在杭州某公司做电商平台微服务相关组件
2021-之前 在吉林某公司给公安第三研究所做外包、在哈尔滨某公司做商城小程序后端、以及一些杂七杂八的工作

擅长方向
1. 客户端(偏底层 C-ABI 功能类库协议 SDK)Android/iOS/macOS/Windows/Linux/visionOS/tvOS/Horizon
2. 后端 各类 Web 框架(例如 Axum Warp Gin Goframe 等)常规 CRUD
3. 逆向 非破解非爬虫,主要是二进制、内存方面,逆向引擎相关开发,例如开发扫描器,调试器等相关组件

目前在使用 Rust 做物联网以及移动端 SDK 一类的工作

热衷于技术研究与创新,具备快速学习新技术的能力,善于跨学科知识融合与实践。注重代码质量和性能优化,拥有良好的工程实践经验。乐于帮助他人解决技术问题,具备优秀的团队协作能力和技术沟通能力。

美国斩杀线:斩杀了 中层 & 底层民众

AI 斩杀线:斩杀初级&初中级开发人员,尤其是刚毕业的学生,难道让他们在家自学到中级工程师能力才能出来找工作吗? 不能回学校提前学习的情况下,如何破局?

因为 cursor 到期 我改买了个 verdent 试试,这玩意界面比 cursor 快,中文支持也好,opus4.5 啥都不缺,于是我高高兴兴的买了一个月。

但是这玩意的设计太差了,同样的模型,说话他跟记不住一样,只能说比 cursor 那免费的 auto 强那么一点点,关键这玩意还没有订阅了就不要钱的 auto 模式,每个请求都要积分。

没买的就不要浪费钱了,免费的 qwen code 都比这玩意带劲

2 月 4 日,昆仑天工面向全球正式发布「天工 Skywork 桌面版」,即桌面端应用 Skywork Desktop。

 

据介绍,Skywork 桌面版的设计宗旨是击穿 AI 生产力上限,将 AI Agent 推向下一时代。其直接在本地执行任务,无需上传文件到云端。它可以直接读取电脑上的海量文件,进行汇总、整理,并基于内容生成新产物。同时,它以“内容理解”为核心,而非“文件格式”:无论是图片、视频、表格、PPT 还是各类文档文件,都能在统一语义层下被理解、归类、执行任务,且支持多任务并行。

 

2025 年 5 月,Skywork 面向全球发布“AI 版 Office” Skywork Super Agents(即 Skywork 网页版),极大提升了近亿用户的工作效率。如今,Skywork 桌面版的正式推出,让 AI Agent 不再只是被动等待指令而是主动理解你的意图、随时响应你的工作需求。

 

官方介绍,Skywork 桌面版的产品目标是走进并融入桌面端最后一公里,成为每个人工作的 OS 助手。这意味着 AI 第一次真正走进桌面办公现场,从“等你喂材料”进化为“直接理解整个项目”,开始成为能看懂项目、理解上下文、主动干活的 OS 级同事。

Skywork 桌面版让 AI 开始解决各种零散、复杂、少量使用场景的长尾办公问题,让工作效率全面升级。昆仑天工表示,Claude Cowork 的问世验证了用户在工作场景下对于“工作任务执行”的巨大需求,OpenClaw(前身为 Clawdbot、Moltbot)的出现更是反映了用户对于“本地电脑/桌面端执行操作”的真实、迫切渴望。

 

而当前,Skywork 桌面版要做的,则是更智能、更强的高阶桌面 AI。相比当前产品,Skywork 桌面版首先实现了 Windows 原生覆盖,满足了大量使用 Windows 的用户和工作场景需求,可以直接处理本地历史文件和复杂项目场景,无需迁移或适配。

 

其次,相比 Claude Cowork 仅支持 Claude 模型,Skywork 桌面版进化成为“Gemini 版 Claude Cowork”,不仅支持 Claude 模型,还同时支持 Gemini 模型。用户可以在 Claude Opus 4.5、Claude Sonnet 4.5 和 Gemini 3 Pro 模型之间选择,亦可启用“auto”模式,由系统根据任务类型智能推荐最适合的模型,实现更高效、更精准的任务处理。

 

再者,为打通“思考”与“执行”的壁垒,Skywork 桌面版内置集成了 100+个经过精选的、真正有用 Skills,涵盖 Office 三件套生成、网页生成、图片生成、视频生成等类型。系统可根据任务自动筛选并推荐最适合的 Skills 和模型,提高多任务处理效率,让用户操作更省心。用户亦可手动选择 Skills 和模型去解决多任务场景痛点,让操作更灵活。

 

除了在产品初始配置上使用更先进模型和功能设计,Skywork 桌面版在任务生成质量、处理速度和安全方面也做了优化提升。尤其在安全方面,Skywork 桌面版所有操作均在本地虚拟机隔离环境中完成,无需上传文件到云端。所有任务基于本地文档生成内容,减少联网搜索或盲目推理导致的错误输出。

前提概要,楼主 30 来岁,没啥谈吐,但也不随变吐痰,毕业就去了北京从事钱少事多的猎头工作,赶上两拨地产,和互联网的红利,后来脑子一热,开了个猎头公司,和在 20 年投资中概互联。随后一切清零。然后找了个工作混到了 25 年春节。


在 25 年年底的时候我有两个考虑 1 、做烘焙蛋糕店。2 、回老家自己 SOHO 做猎头。

一、(烘焙店)后来去调查后,发现能不能赚钱完全取决于位置和装修,现在都是公式化的配方味道基本上不会有大的区别,我已经亏怕了直接 pass

二、SOHO 猎头自己在家做了半个月,这个成单回款周期基本上 2-6 个月,被父母说教,不得不放弃全职 soho 当个兼职干干还可以。

先汇报一下。我是去河南省会郑州做了房产中介 ,卖了 9 套房子。赚了大概 14 万左右。

我觉得这个工作很适合过度,特备是心情不好,工作受挫的人来干,以及身体不太好的朋友,可以大量和人沟通,face to face 很爽,不用整天对着电脑屏,另外楼主本身就是《梦想改造家》和宜家爱好者,在我从业之前我就没事喜欢看房产网站,对区域啥的都很熟悉,加上我从来都不忽悠客户,前期会损失很多客户,后期都老客户介绍很爽,加上我嘴皮子还行,整了个抖音天天直播,直播一年粉丝 400 多个。。。。。虽然很低,但是转化还可以。全是自然流。

刚开始入行的时候,我是在贝壳一家加盟店,各位朋友可以理解成链家(加盟版)夫妻店(这个绝对避雷)干了 3 个月我就提桶跑路自己干了,我主要受不了整天让我给客户打骚扰电话以及我们推荐一些很坑的房子,都是以佣金为目的。 不过有一说一这个老板还挺大方,会员工发三个月底薪 3K ,还有 50%的提成。真正让我觉得必须要离开是因为我同事 A 哥家孩子生病去医院,这个老板在在办公室讲越穷的人事情越多,这 LOW 了,受不了走了。

我干了三个月我就把这个行业摸清楚了,怎么找二手房源,怎么谈价格,过户之类的流程,包括新房怎么去和开发商谈合作。我自己也没有租店面就在出租屋里开始在抖 ,红薯上直播。

( PS 我为啥不做租房,因为租房赚的少,而且郑州有人才公寓。
加上大部分房东不退押金,我没法管控影响我口碑)

最开始 50-80 万预算的客户很多,我服务几个以后发现这个预算的客群,预算有限,要求比较高,投入产出比不高,我就不做这个价位段的客户,只做 120-500 的客户(客群基本上都是改善客户,或者刚结婚买婚房的,太便宜的买不到合适的房子)超过 500 也没做因为我不懂。把这个价格段的客户分给我同行,他们成单会给我 30%的分成。

难点

1 、跳单: 什么是跳单就是 客户跟着我看房,也谈好价格了,最后偷偷私下联系房东交易。

解决:基本上无解,因为没有支持这块的法律,除非签订了独家委托协议。

我遇到过三次跳单,都是 35-50 岁左右的小学老师,后来老师这个职业的客户我也分给同行。

2 、返佣: 中介本来卖一套房子赚 5 万,为了增加客户的黏性以及同行的恶意抢夺客户

会把 5 万中的 2-4 万给客户。(现在新房基本上很难卖)

新房自己去售楼部和通过中介去价格是一样的,不会因为通过中介而贵,

很多客户会误解是把钱加 到了放价里。

解决方案:打明牌,恶意竞争的同行大部分人是没有公司的,他们是通过代理机构或者门店上 班。他们的佣金会被平台扣掉 40%左右,比如佣金 10 万,他们到手税前是 6 万,我直 接给客户返 6 万,比他们赚的还多,他们就没法和我恶意竞争。

中介在新房里唯一的作用的是“知道低价,避免去给领导申请”拉扯的过程。了解市场情况能节省时 间匹配到适合你的房子。

3 、投入产出比太低:老板、平台、同事、分佣。

现在二手房基本上都会挂靠平台,郑州主要是安居客和贝壳,就是 58 和链家。

就拿标杆贝壳链家举例 : 一套 100 万的二手房收佣 2.8 万

10%的平台抽佣,2 千的谈判室强制使用费 为了好计算结余 2 万 4

A 中介把房子传到平台上,A 中介可以分 45%=1 万(到供职门店)
B 中介把房子卖掉分掉 2.4-1=1.4 万 (到供职门店)

假如 B 中介上班的公司给他 50%的提成,他的收入就是 1.4 万*50%

这一切建立在中介无底薪无社保,带客户自己请客户吃饭。

我属于幸运的,能稳定的出单,90%的人 2 个月卖一套就不错了。

我看了很多帖子,大多都提到了 FNConnect 。是不是我没用 FNConnet ,直接公网 ip https 暴露的,能逃过这一波么?
没有 FNConnect ,黑客也不知道我机器的存在吧。难不成他把所有 ip 所有端口号都扫一遍?

当然出问题的这几天,我的飞牛关机了,晚上回家开机看看有没有问题。

Last: 我一直担心的问题,还是出现了。。。。幸好我的飞牛只存电影,重要资料都存储在 ubuntu 里,遵循不用不开机,用完就关机的原则。但仍然有一部分暴露在外的端口是 http 。。。

需要测试某项目与 ARM 的兼容性,准备装一台 ARM 主机,需要全功能的 Linux 或 Windows 桌面环境。理论上最好的方案也许是 Mac mini ,只是价格有点高。之前尝试过电视盒子安装 Armbian ,虽然能进桌面但没能驱动 GPU ,OpenGL 完全跑不动。似乎驱动支持的比较好的只有友善系列?

一项可能彻底改变未来票据、合同、报告等日常文档处理方式的技术突破,正从一家中国AI公司的实验室走向全球开发者的电脑。

模型登顶

智谱AI正式发布并开源专业级OCR模型GLM-OCR。这个模型以仅0.9B的极小参数量,在权威文档解析榜单OmniDocBench V1.5上取得了94.6分的顶尖成绩。

其性能已逼近谷歌的通用大模型Gemini-3-Pro。

OCR作为将图片中的文字转换为可编辑文本的技术,早已应用多年。传统方案常在海量标准印刷文档中表现良好,但面对手写公式、复杂表格、带印章文件或多语言混排的“疑难杂症”时,往往力不从心。

GLM-OCR的出现,专为攻克这些真实业务中的“硬骨头”而来。

性能跃升

GLM-OCR的“小尺寸、高精度”特性背后,是一系列创新技术的有力支撑。

模型采用“编码器-解码器”架构,集成了自研的CogViT视觉编码器。创新性地将多Tokens预测损失引入OCR模型训练,并采用全任务强化学习,显著提升了模型在复杂版式下的识别精度和泛化能力。

更关键的是其 “版面分析→并行识别”的两阶段技术流程

它先理解文档的整体结构布局,再进行精准的文字识别,这使得它处理一份复杂的跨页财务报表时,能像人类一样先看清表格框架,再读取其中的数字。

极致性价比

GLM-OCR的强大不止于精准,更在于其极致的效率和令人震撼的低成本。

在速度上,其处理PDF文档的吞吐量可达每秒1.86页,处理图片可达每秒0.67张,显著优于同类模型。更重要的是其成本控制,通过API调用,价格仅为0.2元/百万Tokens

这意味着,花费1元人民币,理论上可以处理约2000张A4扫描件或200份10页的PDF文档。

相比传统OCR方案,其成本仅为约十分之一,真正将专业级文档解析能力推向了“白菜价”时代。这种极致的性价比,使其不仅能被大型企业采用,也让中小型团队甚至个人开发者用得起专业级的文档处理能力。

场景突破

GLM-OCR针对六大高难度业务场景进行了专项优化,展现出强大的鲁棒性。

复杂表格解析上,它能精准理解合并单元格、多层表头等复杂结构,并直接输出标准HTML代码,无需人工二次制表。

对于手写体与代码,模型能准确识别教育、科研场景中的手写数学公式,以及程序员屏幕截图中的代码,解决了长期存在的痛点。

信息结构化提取方面,它可以从各类发票、身份证、银行卡等卡证票据中,智能提取关键字段,并输出标准的JSON格式数据,无缝对接银行、保险、物流等行业的自动化系统。

模型还具备出色的印章识别多语言混排处理能力。这意味着一份盖有红色公章的中英文混合合同,也能被准确无误地识别和解析。

变革意义

GLM-OCR的意义远不止发布一个性能优异的模型。

开源策略,意味着完整的SDK与推理工具链已向全球开发者开放。任何人都可以下载、使用并根据自身需求进行调整,这极大加速了技术的普及和创新应用的诞生。

其次,它对检索增强生成(RAG) 等前沿AI应用提供了坚实基础。RAG系统依赖高质量的结构化文档数据,而GLM-OCR高精度的识别能力和规整的Markdown/JSON输出格式,正为此提供了理想的数据底座。

从行业影响看,金融、政务、教育、物流、保险等领域将率先受益。银行无需再雇佣大量人力手动录入票据信息,学校可以快速数字化海量的历史手写试卷,物流公司能自动处理成千上万的运单。

一个高效率、低成本的智能文档处理时代,随着GLM-OCR的开源正在加速到来。

边缘部署

智谱官方还特别强调,GLM-OCR非常适合高并发及边缘计算场景。

它支持vLLM、SGLang和Ollama等主流推理框架部署,显著降低了部署门槛和算力开销。这意味着企业可以在自己的服务器上,甚至是在靠近数据源的边缘设备上高效运行该模型,无需将所有敏感文档上传至云端,更好地保障了数据安全和隐私

例如,一家医院可以在内部服务器上部署GLM-OCR,直接处理患者的病历和检查报告,既满足了效率需求,又严格遵守了医疗数据的安全规定。


智谱AI宣布未来将持续迭代GLM-OCR,计划推出更多尺寸版本,并将能力拓展至更多语种及视频OCR领域。当1元钱可以处理2000页文档时,全社会信息数字化最后一公里的障碍正被技术的力量迅速推平。

在汽车后市场服务数字化浪潮下,移动洗车管家小程序系统应运而生。该系统以微信小程序为核心载体,兼顾 PC 端使用,由闪电科技开发并提供服务,通过整合 “线上预约 - 线下服务 - 会员管理 - 代理商协作” 全流程功能,为洗车服务行业打造高效、便捷的数字化解决方案。系统不仅支持实时订单抢单、上门 / 到店双模式预约,还具备完善的会员营销、多门店管理及财务对账功能,满足不同商家的技术部署需求。

一、功能介绍:全链路覆盖洗车服务需求
移动洗车管家小程序系统的功能设计围绕 “用户体验优化” 与 “商家运营提效” 两大核心,涵盖订单、会员、门店、财务、系统配置等多个维度,具体可分为以下几类:

(一)核心订单与服务功能
多模式预约与接单
支持 “预约到店洗车”“预约上门洗车” 两种服务场景,同时提供 “实时订单抢单” 功能,附近技师可快速响应订单,银川兴庆区人民政府、建发东方公寓 B 座等区域已实现 “附近 40 位技师” 的高效覆盖,缩短用户等待时间;

精细化服务项目管理
提供外观清洗、内饰清洗、打蜡等标准化服务项目,商家可通过 “项目管理” 模块新增、删除或编辑服务内容,适配不同车型(如轿车)的需求;

便捷下单与支付
用户可选择绑定车辆信息(如示例中 “轿车 | 11555555 | 银色”“京 A454544”),在线选择服务后,支持 “余额支付”“代金券抵扣” 两种支付方式,下单流程清晰,结算步骤简单。

(二)商家运营与管理功能
会员与营销体系
包含 “会员卡计次” 功能,支持商家推出次卡类产品;同时提供 “充值营销”“会员卡营销” 工具,帮助商家提升用户复购与粘性;

多门店与代理商协作
搭载 “多门店系统” 与 “代理商系统”,商家可新增、管理门店信息,配置不同门店的服务范围,代理商则能参与订单协作,扩大服务覆盖;

员工与技师管理
支持新增员工、设置员工角色权限,技师信息可关联订单,方便商家分配任务与结算佣金;同时提供 “接单佣金设置” 功能,灵活调整技师报酬;

财务与对账管理
涵盖 “订单对账”“会员对账” 模块,自动统计订单收入、会员充值金额,生成财务报表,减少人工核算误差;此外支持 “支付设置”,对接多种支付渠道。

(三)系统配置与用户体验功能
基础设置
可配置 “站点信息”“服务协议”“使用帮助”,自定义模板消息内容(如下单告知、订单状态变更通知),还能设置 “虚拟号” 保护用户隐私;

用户信息管理
合规获取用户微信昵称、头像、性别、地区等基础信息,同时支持获取位置信息,用于匹配附近门店与技师;用户可在 “我的” 模块查看订单历史、车辆信息、余额与会员卡状态;

硬件接入支持
系统预留硬件接入接口,可对接共享洗车机等设备,拓展服务场景,实现 “线上预约 - 线下硬件服务” 的无缝衔接;

数据与信誉保障
提供 “应用评分”“信誉指数” 展示(当前均为 5.00 分),商家可查看用户评价,优化服务;同时源码已加密,保障系统安全,避免核心功能泄露。

二、适用场景与行业价值:解决行业痛点,赋能多方角色
(一)适用场景
线下洗车门店数字化转型
传统洗车店可通过系统实现 “线上引流 - 预约锁客 - 会员复购”,减少到店客户等待时间,提升门店坪效;尤其适合多门店连锁品牌,通过 “多门店系统” 统一管理各门店订单与服务标准。

上门洗车服务团队运营
上门洗车团队可利用 “实时订单抢单”“位置匹配” 功能,快速响应附近用户需求,技师无需线下门店,降低运营成本;同时通过 “余额支付”“代金券” 提升用户支付便捷性。

汽车后市场代理商拓展业务
代理商可借助 “代理商系统” 整合区域内技师与门店资源,为用户提供标准化洗车服务,同时通过 “佣金设置” 激励技师接单,扩大服务覆盖范围(如银川南门广场、鼓楼等商圈)。

共享洗车机运营商配套服务
共享洗车机运营商可接入系统,实现 “线上预约使用共享洗车机 + 线下自助服务”,用户通过小程序预约设备、支付费用,运营商则能远程管理设备订单与收入。

(二)行业价值
对商家:降本增效,提升竞争力
降低获客成本:通过微信小程序触达海量微信用户,无需依赖线下传单、线下门店引流;

减少人工成本:自动化订单分配、财务对账,减少门店前台与财务人员工作量;

提升用户粘性:会员体系与营销工具可促进用户复购,如会员卡计次、充值送代金券等活动,增加用户留存。

对用户:便捷高效,优化服务体验
打破时间与空间限制:用户无需到店排队,可随时在线预约上门或到店服务,选择 “立即服务” 或指定时间;

服务透明可控:可查看附近技师数量、门店位置、服务项目价格,订单状态实时更新,避免 “隐形消费”;

隐私与支付安全:虚拟号设置保护个人手机号,余额支付、代金券抵扣降低支付门槛,同时系统官方正品保障,避免资金风险。

对行业:推动标准化与规模化
规范服务流程:通过 “项目管理”“服务协议” 统一服务标准,减少不同门店、技师的服务差异;

拓展行业边界:硬件接入功能可对接共享洗车机、车辆保养设备,推动洗车服务从 “单一清洗” 向 “综合汽车后市场服务” 延伸;

促进资源整合:多门店、代理商系统可整合分散的技师与门店资源,形成区域化服务网络,提升行业整体效率。

三、问答环节:解答核心疑问,助力决策
移动洗车管家小程序系统支持哪些使用终端?
答:支持微信小程序与 PC 端,其中微信小程序为主要使用终端,方便用户随时下单、查看订单;PC 端则适合商家进行后台管理(如门店管理、财务对账、员工权限设置),适配 PHP5.3 至 PHP7.1 的服务器环境。

移动洗车管家小程序怎么安装交付?有无其他类型的应用?
答:移动洗车管家小程序通过微擎系统进行交付安装。如需要其他软件,可以在微擎应用市场搜索关键字查看相关应用。

商家如何管理技师与订单分配?能否设置技师佣金?
答:商家可在后台 “员工管理” 模块新增技师信息,设置技师角色权限;订单分配支持 “实时抢单” 与 “手动配单” 两种方式,附近技师可通过小程序接收订单提醒。同时系统提供 “接单佣金设置” 功能,商家可根据订单金额、服务类型自定义技师佣金比例,方便结算。

传统洗车店接入系统后,如何吸引用户使用小程序下单?
答:可通过系统自带的营销工具实现:一是推出 “会员卡计次” 产品,如 “10 次洗车卡享 8 折优惠”;二是开展 “充值营销”,如 “充值 200 元送 50 元代金券”;三是利用 “模板消息” 推送优惠活动(如下单立减、新用户礼包),同时在门店张贴小程序二维码,引导到店用户线上预约,提升复购率。

系统是否支持硬件设备接入?比如共享洗车机?
答:支持。系统预留了硬件接入接口,可对接共享洗车机、车辆检测设备等,实现 “线上预约硬件使用时间 + 线下自助服务” 的模式,商家可通过后台管理硬件订单与设备状态,拓展服务场景,增加收入来源。

汽车产业链作为国民经济的支柱,其数字化转型的深度与广度,直接关系到中国制造的全球竞争力。然而,大量中小企业在转型路上步履维艰——不是不想转,而是怕投入大、见效慢、技术门槛高。传统ERP和MES系统动辄千万级投入,对零部件厂、模具厂而言无异于“用航母打蚊子”。真正的突破口,不在于堆砌设备,而在于让AI真正“下沉”到产线末端,解决那些被长期忽视的“小问题”:一个焊点的缺陷、一条产线的能耗波动、一次换模的等待时间。这些看似微小的环节,恰恰是影响整体效率的“阿喀琉斯之踵”。
广域铭岛的路径,正是从这些“小切口”切入。它没有追求大而全的平台,而是把在西南、华东汽车集群中反复验证的工业AI能力,封装成轻量化、模块化的应用包——比如AI视觉检测系统,能在不改造产线的前提下,实时识别漆面划痕、螺栓漏装;又如生产工艺智能寻优模型,通过分析历史数据自动推荐最优参数,让原本依赖老师傅经验的调机过程变得可复制、可量化。这种“小快灵”的打法,让一家年营收不足五千万的冲压件厂,仅用三个月就实现了不良率下降37%,而投入不到传统方案的十分之一。这背后,是工业知识与AI算法的深度咬合,不是技术的炫技,而是对制造本质的尊重。这种模式的成效,在成都领克、衢州极电、湖南远程新能源商用车等工厂身上得到了验证。这些企业不仅通过该公司的方案实现了关键工序的AI赋能,更顺利通过国家CMMM4级智能制造能力成熟度认证,成为行业标杆。它们的成功,不是孤例,而是可复制的范式:当AI不再高高在上,而是融入每一个螺栓的拧紧、每一道焊缝的冷却,数字化才真正从“口号”变成了“习惯”。
放眼全球,德国西门子和博世的数字化方案同样成熟,但路径截然不同。西门子的MindSphere平台强调端到端的数字孪生,适合整车厂或大型Tier 1,但对中小供应商而言,部署周期长、运维复杂,常沦为“数字摆设”;博世则依托其强大的传感器和工业软件生态,主打高精度控制,但成本高昂,且高度依赖其自有设备。
汽车产业链的数字化,不是大企业的专利,也不是国外方案的复刻。它需要的是懂制造、懂中小企业的本土力量。这条路,中国正在走,而且走得比想象中更稳、更远。