把数百个软件包迁移到 ARM64，Cloudflare 踩了哪些坑

作者: 纯情
时间: 2026-04-25
分类:
评论

原文：Porting Our Software to ARM64，作者 Alexander Huynh，Cloudflare Blog。

ARM64 服务器这几年越来越普遍。AWS 的 Graviton、Ampere 的 Altra，包括苹果 M 系列芯片的 Mac，都在把 ARM 架构从移动端推向数据中心和开发者桌面。对于只跑过 x86 的团队来说，迁移这件事听起来简单，做起来往往不是那么回事。

这篇文章是 Cloudflare 工程师 Alexander Huynh 在 2018 年写下的迁移记录，记录了他们把整个边缘软件栈迁移到 ARM64 的过程——包括用了哪些方法，碰了哪些壁，最后怎么解决的。虽然时间稍早，但里面的问题和思路到今天都有参考价值。

规模有多大

要理解这件事的难度，先看看 Cloudflare 的软件栈有多厚。

底层是 Linux 内核，发行版选的是 Debian，往上是他们自己维护的数百个软件包，其中一部分是基于开源项目做了定制，另一部分是完全内部开发的。编程语言横跨 C、C++、Go、Lua、Python、Rust 六种。

好消息是，ARM64 的生态支持已经相当成熟。Linux 内核很早就支持 ARM64，Debian 从 Stretch 版本（2017 年）起把 ARM64 列为一类发行架构，这意味着操作系统本身能比较顺滑地跑起来。真正的工作量在于让那数百个内部包也在 ARM64 上正确构建和运行。

两条主路：Go 和 Rust 的交叉编译

对于 Go 和 Rust，情况相对乐观，两个语言都有成熟的跨平台交叉编译支持。

Go 的迁移方式

Go 官方把 ARM64 列为一类支持架构，交叉编译只需要在 Debian 上额外安装 crossbuild-essential-arm64，然后把原来的 go build 替换为：

GOARCH=arm64 CGO_ENABLED=1 go build

注意 CGO_ENABLED=1 是必须显式指定的，因为交叉编译时 Go 默认会关掉 cgo。他们的做法是把原来的单次构建改成一个循环，同时为 amd64 和 arm64 各跑一遍，产出的二进制再跑测试框架验证。

Rust 的迁移方式

Rust 的交叉编译支持同样完善。同样先安装 crossbuild-essential-arm64，然后在 cargo build 或 rustc 里指定 --target aarch64-unknown-linux-gnu 即可。

唯一需要留意的地方：如果你的包依赖了很多第三方 crate，每一个 crate 都需要能正确交叉编译。依赖树越深，碰到问题 crate 的概率就越高。

第三条路：QEMU 用户态仿真

C、C++ 以及其他一些语言在交叉编译时就没那么顺了——调 CC、LD 各种环境变量往往费时费力，还不一定能覆盖所有情况。

他们选择的方案是 QEMU 用户态仿真（user-space emulation），核心思路是：不去改动构建工具链，而是提供一个仿真层，让 x86 机器（包括开发者的 MacBook）能直接"运行" ARM64 程序。

具体实现借助了 Docker。目标是让开发者能直接 docker run 进入一个 ARM64 环境，就像这样：

host$ uname -m
x86_64
host$ docker run --rm -it stretch-arm64/master:latest
guest# uname -m
aarch64

在 x86 的宿主机上，uname -m 输出 aarch64，仿真层对开发者完全透明。

实现方式的关键在于一个打了补丁的 qemu-user。这个补丁让 QEMU 在每次 execve 系统调用时自动把仿真器前置进去，效果类似于 Linux 内核的 binfmt_misc 机制——每个新进程都会被自动带入仿真环境，整个容器因此形成一个自洽的 ARM64 沙盒。

Dockerfile 的核心结构是这样的：

# 内部构建的带补丁 QEMU
FROM qemu-aarch64/master:latest as qemu

# ARM64 版 Debian 基础镜像
FROM arm64v8/debian@sha256:841bbe...

# 把仿真器复制进来，设为 ENTRYPOINT
COPY --from=qemu /qemu-aarch64 /qemu-aarch64
ENTRYPOINT ["/qemu-aarch64", "--execve", "/qemu-aarch64"]

有了这个镜像，99% 以上的内部代码库都能在仿真环境里正常构建和测试。

真正让人头疼的：四个技术坑

方案看起来很美，但落地时碰到了几个有意思的问题。

坑一：环境变量失效

开发者最早反映的问题之一是 LD_LIBRARY_PATH 不生效。排查之后发现问题不只是这一个变量——所有通过命令行或 export 设置的环境变量，都无法传递进 qemu-user 进程。

根源是 Dockerfile 里的一行 setcap：

RUN setcap cap_setuid,cap_setgid+ep /qemu-aarch64

这行命令是为了让容器内的 sudo 能正常工作，但它同时阻断了环境变量的透传。两个需求直接冲突，没有两全的解法，最终只能告知开发者：在容器内，sudo 和环境变量传递只能选其一。

坑二：Go 程序不定时崩溃

CI 系统里跑了大量 Go 代码，很快发现一个规律：Go 程序会以不可预测的间隔发生 segfault。

定位到原因是 Go 运行时与 QEMU 的多线程兼容性问题。Go 的 goroutine 调度器会自由地把 goroutine 分配到不同系统线程上，而 QEMU 的用户态仿真在处理多线程时存在已知问题，上游也明确表示短期内不会修复。

他们的解决方案很实用：在 Go 二进制的 .deb 安装后脚本里，检测当前是否处于 ARM64 仿真环境，如果是，就通过 taskset 把进程限制为只使用单个 CPU：

# 检测是否在 ARM64 仿真下运行
if [ "$(uname -m)" = "aarch64" ] && [ "$(uname -r | grep -c qemu)" -gt 0 ]; then
    taskset -c 0 "$@"
fi

单核运行性能有损耗，但在仿真环境里本来就慢，慢点跑总比随机崩强。加了这个限制之后，随机崩溃降为零。

坑三：动态库加载顺序不一致

Cloudflare 有一个习惯：不覆盖系统目录 /usr/lib 下的库，而是把自己的最新版本装在 /usr/local/lib，保持系统库的稳定性。

这套方案在 x86 上工作了很久，到 ARM64 就出了问题：有团队反映 ARM64 版本的程序无法加载正确的动态库符号。

排查下来，发现根因藏在 Debian 的一个细节里。动态链接器通过 /etc/ld.so.conf.d/ 目录下的文件来确定库的搜索顺序，而这个目录是按文件名字母序遍历的。

在 x86_64 机器上，目录内容是：

libc.conf          ← 含 /usr/local/lib，字母序靠前，先搜索
x86_64-linux-gnu.conf  ← 含 /usr/lib/x86_64-linux-gnu，后搜索

在 ARM64 机器上，目录内容变成了：

aarch64-linux-gnu.conf  ← 含 /usr/lib/aarch64-linux-gnu，字母序靠前，先搜索
libc.conf               ← 含 /usr/local/lib，后搜索

a 排在 l 前面——这个字母序的差异，导致 ARM64 上系统库的优先级高于 /usr/local/lib，而 x86 上恰好相反。同样的代码，行为截然不同。

解决方案是不动系统配置，改为在链接器参数里显式加 --rpath /usr/local/lib，强制运行时先从这里搜索。

值得一提的是，这个问题在仿真环境和物理 ARM64 机器上都存在，说明仿真层在这一点上是忠实地复现了真实环境的行为。

坑四：少数包仍然需要原生编译

99% 的包通过交叉编译或仿真解决了，剩下的 1% 是真正的硬骨头。

以 llvm 为例，它的构建高度并行化，在原生 x86 机器上跑得很快，但一旦套上仿真层，并行度反而成了负担，构建时间超过 6 小时。还有一些包调用了 QEMU 尚未实现的系统调用，直接失败。

对这部分包，他们的选择是给开发者分配少量真实的 ARM64 机器，以及一台专用的原生 ARM64 CI 节点。这样做的代价是从可用机器池里划走了一些资源，但对于长尾问题来说，这是性价比最高的处理方式。

如何推动整个工程团队跟进

技术方案定了之后，还有一个不小的工程管理问题：数百个包分散在几十个团队手里，怎么让大家都动起来。

初期由移植团队承包了所有包的 ARM64 构建工作，同时与各包的维护者密切协作，在代码变动时保持同步。等 ARM64 平台被评估为生产就绪之后，他们整理了一套自助操作文档，向全工程部门发出了"把 ARM64 作为一等公民支持"的要求，之后各个团队自行负责自己包的 ARM64 兼容性。

这件事给出的几个判断

回顾整个迁移过程，有几个判断值得记下来。

交叉编译能解决大多数问题，但不是万能的。 Go 和 Rust 的交叉编译体验已经很好，但仍然有依赖、crate 兼容性等边界情况。对于 C/C++ 这类语言，交叉编译工具链的配置复杂度明显更高。

仿真层是务实的折中。 QEMU 用户态仿真让团队不需要为每个开发者配一台 ARM64 机器，大幅降低了迁移成本。代价是引入了一些仿真特有的问题（环境变量透传、多线程不稳定），需要有人专门去踩和处理。

架构差异往往藏在细节里。 动态库搜索顺序这个问题，在 x86 上完全感知不到，到 ARM64 就直接导致运行失败。这类问题不是逻辑 bug，而是对平台差异不够了解的结果，只有在真实的 ARM64 环境下跑才能暴露。

原生编译始终是最可靠的。 仿真和交叉编译都是务实的过渡手段。长期来看，随着 ARM64 开发机和 CI 机器越来越普及，直接在原生环境里编译和测试，才是最终的稳态。

显著提升复杂查询的稳定性

作者: 纯情
时间: 2026-04-25
分类:
评论

2025 年 12 月 13 日，VeloxCon China 2025 在北京成功举办。作为 Velox 项目首次在中国举办的线下技术大会，汇聚了来自Meta、IBM、蚂蚁集团、阿里云、腾讯、小米、小红书等企业的数十位核心贡献者与一线工程师。

大会通过 18 场演讲将 Velox 置于真实业务场景之中，系统展示了其在架构演进、AI 数据处理、湖仓加速、流批融合等方向的最新实践。这些分享不仅直面性能、稳定性与兼容性等落地挑战，也反应了开发者社区对构建可靠、可扩展、可协同的数据基础设施的共同探索，彰显了中国开发者在全球高性能分析生态中的工程深度与协作广度。

夯实底座，突破能力边界
会议伊始，Velox 项目联合发起人 Pedro 发表开幕致辞。他回顾了 Velox 开源项目的发展历程，从项目启动、开源发布到建立技术治理结构，展示了 Axiom 架构、GPU 支持、PyVelox 等关键进展，强调了社区协作与工程严谨性是项目持续演进的核心动力。他特别提到，Velox 已建立了正式的技术治理机制，并迎来来自 IBM、Intel、NVIDIA、Microsoft 等多家企业的新增维护者，标志着项目正迈向更加开放和可持续的阶段。

在明确了社区与架构演进的总体方向后，大会议题迅速深入到如何利用 Velox 构建高性能计算引擎的具体实践中。阿里云 EMR Serverless Spark 技术负责人周克勇系统阐述了“可组合性”在数据计算领域的实践。他详细解析了阿里云如何深度集成并贡献于 Apache Celeborn、Paimon、Velox 及 Gluten 等开源组件，通过模块化组装构建出高性能湖仓一体引擎。他指出，基于该架构，阿里云 EMR Serverless Spark 成功创造了 TPC-DS 100TB 规模性能测试的世界新纪录，实现性能翻倍与性价比大幅提升。

接着，Meta 软件工程师 Masha Basmanova 阐述了现有查询引擎在跨语言通信、优化器能力与开发体验上面临的挑战，并介绍了基于 C++ 的统一前端框架 Axiom。该框架将 SQL 解析、逻辑优化与物理执行融为一体，通过内置的强大优化器与 Velox 运行时无缝对接，能够实现更高效、可扩展的查询处理。演讲最后，她积极展示了 Axiom 的开源路线图，并欢迎全球开发者加入，共同推动该项目的演进。

强大的执行框架，最终需要服务于极具挑战性的数据场景，特别是爆发式增长的 AI 数据。Meta 软件工程师孟晓烜则在之后的演讲中，深入阐述了应对AI训练数据规模激增与成本挑战的解决方案。他重点介绍了 Meta 如何通过数据归一化技术剥离重复特征，并构建可索引的序列存储系统。依托 Velox 技术栈，团队在训练数据的加载、生成与探索三大环节实现了端到端优化，显著提升了处理效率与资源利用率。

在 Meta 多位工程师从框架演进、可组合架构、数据标准化等角度深入分享后，蚂蚁集团高级技术专家黄叶伟也从企业落地实践层面分享了基于 Velox 的 Spark 加速实践。他重点介绍了基于 Gluten 与 Velox 构建的向量化引擎如何通过任务级 Fallback、Spill 优化、Shuffle 优化等关键技术，在混合部署场景下显著提升 Spark 性能与稳定性。他表示，该方案目前已实现日均数十万任务覆盖，平均节省资源超30%，并将在算子优化与架构扩展方面持续演进。

作为连接 Spark 生态与原生加速的关键中间层，Apache Gluten 的进展同样备受关注。来自 IBM 的莫芮与周渊聚焦 Apache Gluten与 Velox 的深度集成，阐述了其如何在大数据分析中驱动创新。他们介绍，Gluten 在保持对 Spark/Flink 作业透明加速能力的同时，正逐步增强对多后端引擎和复杂业务场景的适配能力。目前，该方案已在 Pinterest、顺丰科技及多个内部集群完成规模化验证，有效支撑了从日志分析到物流调度等多样化负载的性能提升与成本优化。

随着向量化加速在通用场景日趋成熟，针对特定存储格式的深度优化成为新的效能突破口。腾讯大数据开发工程师陈锦海分享了微信基于 Velox 加速 lceberg 湖仓分析的优化与实践，重点介绍了原生分桶方案。据他介绍，该方案通过动态识别表元信息自动设置分区数，能有效缓解 AQE 引发的写入倾斜，结合空闲资源灰度发布策略，可保障大规模作业的稳定上线。

扎根场景，释放协同效能
午餐后的议程更加聚焦 Velox 在真实业务中的集成深度与生产韧性，回应了开发者们对兼容性、稳定性与端到端效能等规模化落地的核心关切。
小米计算平台计算引擎负责人王胜杰分享了公司在 Spark 向量化升级中的规模化落地经验。面对业务迁移中的兼容性与稳定性挑战，他表示，小米通过自动兼容校验、双跑结果比对及内存异常感知的三级资源升级机制，已成功推动向量化改造在数十万作业中平稳落地。

面对海量数据挑战，全球科技公司也在探索相似的演进路径。Meta 软件工程经理 Stanley Yao 在演讲中分享了公司基于 Velox 推进 Spark 向量化改造的整体策略。他表示，团队通过从定制化方案到开源架构的持续演进，已实现关键业务管线向 Gluten（Flare）的平稳迁移，并获得显著的效率提升。未来，Meta 计划进一步扩大该架构的应用规模。

在 CPU 向量化趋于普及的同时，利用异构硬件挖掘更高性能成为新的前沿。IBM 研究院资深软件工程师 Zoltán Arnold Nagy 展示了基于 Velox 与 Presto 的 GPU 加速数据处理方案。他介绍道，Velox 通过与 cuDF 集成，可在 GPU 上高效执行算⼦，并针对多 GPU 分布式场景优化通信与数据交换。此外，为突破 I/O 瓶颈，团队正在探索结合 GPUDirect 存储与缓存层的加速策略。

对性能与稳定性的追求，也驱动着查询引擎架构本身的融合与创新。Meta 软件工程师谭家梁与大家分享了 Native Presto-on-Spark 的规模化应用。该架构以 Presto 查询优化、Spark 资源调度与容错机制以及 Velox 原生向量化执行为核心，实现了性能与可靠性的显著提升。他表示，目前该方案已在生产环境中取得成效，并将在未来持续推进全栈原生化演进。

对于国内庞大的云上业务，Velox 同样在支撑着关键数据服务平台。阿里云高级工程师王彬与范阿冬系统介绍了Velox在阿里云日志服务中的深度集成与应用。他们指出，基于 Velox 构建的高性能查询引擎，通过混合执行、表达式下推、自动增量物化视图及免 Schema 分析等核心技术，可显著提升平台在处理海量实时数据时的查询效率与资源利用率。他们还强调，该架构不仅为日志分析、智能运维等场景提供了稳定支撑，也为面向 AI 的云原生数据平台演进奠定了坚实基础。

除了通用的日志与湖仓分析，Velox 也在向更垂直的时序数据场景渗透。腾讯高级工程师李兆龙分享了基于 Velox 构建云原生时序数据库的落地经验。他表示，通过在 Velox 中实现时序数据去重优化与存储写入增强，系统在应对高频写入与实时查询场景时，可显著提升吞吐效率与响应性能。目前该方案已有效支持物联网、实时监控等业务场景，未来还将进一步完善缓存与压缩机制，持续优化时序数据处理的整体效能。

IBM 软件工程师刘平接着分享了 Velox 在 Iceberg 数据写入能力上的突破性进展。他表示，目前 Velox 对 Iceberg 的支持以读取为主，其写入功能的完善将填补该方向的关键能力空白，为基于 Presto 与 Spark 的数据湖架构提供更统一、高效的数据摄入层。这一进展也标志着 Velox 正从查询加速向数据全链路处理拓展。

接着，来自阿里云的毕岩与周滔分享了 Velox 与 Apache Paimon 深度集成的解决方案，为提升引擎与存储的协同效率提供了另一种集成思路。在他们看来，现有方案存在表类型支持受限、缺乏可移植性等瓶颈，但可以建立 C++ 原生 Paimon 库，通过其统一的数据协议与插件化设计，使 Paimon 能够被 Velox、StarRocks 等多种计算引擎直接高效调用，从而提升数据读写性能，并为湖仓格式的跨引擎协同提供新的基础支撑。

在批处理场景之外，流计算框架的向量化也正成为新的热点。蚂蚁集团技术专家刘勇介绍了基于 Velox 为 Flink 构建的统一向量化执行引擎 Flex。他表示，Flink 作为流批一体架构的核心，其原生向量化能力的补足至关重要。Flex 通过将 Velox 的高性能算子能力引入 Flink，同时结合自动化验证、可视化计划与精细化回退机制，现已实现了作业性能的显著提升，并支撑多条核心业务链路平稳运行。

随着 Velox 赋能的应用场景日益广泛和复杂，确保其在不同引擎和版本间的整体质量与可靠性变得至关重要。Meta 软件工程师 Eric Liu 阐述了在 AI 数据基础架构下，保障 Velox 多引擎版本可靠性的系统化方法。他指出，面对不同引擎与存储格式交织带来的复杂性，关键在于建立跨引擎测试框架与合成数据工厂。这一实践能有效提前发现全栈潜在问题，从而确保底层变更在大规模生产环境中的稳定与高效。

针对向量化引擎中窗口运算符内存溢出的典型难题，来自英特尔的贾柯分享了她的见解。她认为，通过为 Velox 引入流式窗口处理机制，可使计算随数据到达逐步执行并即时释放内存，从而从架构层面化解多数场景下的内存风险，显著提升复杂查询的稳定性。

最后，小红书 Native Engine 团队技术负责人魏秀利也分享了向量化引擎在公司业务中规模化落地的经验。据他介绍，通过将写入异步化并构建原生 Avro 读取能力，小红书在不增加业务复杂度的前提下，成功缓解了端到端延迟，印证了“执行与存储协同优化”在湖仓场景中的关键价值。

VexTest

作者: 纯情
时间: 2026-04-25
分类:
评论

此贴为 Vex 的测试贴

如何在 MacOS 上安装 VirtualBox ？

作者: 纯情
时间: 2026-04-25
分类:
评论

Install Virtualbox on macOS

VirtualBox 是一个流行的跨平台虚拟机管理器，它允许您在 Mac 上创建虚拟机，虚拟机可以用来运行同时运行不同的操作系统。它们可以用来隔离测试软件，而不会危及真实的计算机。

VirtualBox 可以在 Windows、macOS 和 Linux 上运行，并支持各种操作系统。这篇博文将介绍如何在 macOS 系统上安装 VirtualBox 软件。

Install VirtualBox

前往下载页，下载最新的 macOS 版的 VirutalBox，根据您的 CPU （Intel 或 Arm66）下载软件包。

Downloading VirtualBox Package for macOS

下载完成后，点击文件执行安装

Begin the VirtualBox installation
启动安装向导，点击“Continue”按钮继续

Installing VirtualBox on macOS

您可以通过单击“Change Install Location”更改安装位置。要使用默认安装位置，只需单击“Install”按钮。

Input Admin credentials

输入登录凭据以授权安装，然后单击“Install Software”按钮继续安装过程。

Installing VirtualBox on macOS

安装成功后，您将看到如下画面。

Successful Installation of VirtualBox on macOS

Install VirtualBox Extension Pack

VirtualBox 使用扩展包提供了额外的功能。例如，它允许使用物理 USB（2.0 和 3.0）设备连接到主机。它还允许您访问 Webcam 和 VirtualBox 远程桌面（VRDP）协议。

进入 VirtualBox 扩展包下载页面，下载与 VirtualBox 版本一致的扩展包版本。

Download VirtualBox Extension Pack on macOS

接下来，终端执行以下命令来安装扩展包。

sudo VBoxManage extpack install Downloads/Oracle_VM_VirtualBox_Extension_Pack-7.0.0.vbox-extpack

我的开源项目

不增加业务复杂度的前提

作者: 纯情
时间: 2026-04-25
分类:
评论