Alluxio AI 3.8发布:带来两项突破性新功能——加速对象存储写入与模型加载
人工智能基础设施团队正面临全新的挑战:性能瓶颈早已不再局限于 GPU 算力。如今,更常见的限制因素,往往是数据和模型在存储系统中的传输速度——尤其是在以对象存储为主的云环境中。 无论是加载数十亿参数的推理模型,还是运行需要处理海量中间数据的工作流,存储访问一旦变慢,GPU 算力浪费、训练时间拉长、任务性能不稳定等问题便会立刻显现。 Alluxio AI 3.8 版本推出两项重大新功能,旨在消除现代 AI 工作中最棘手的两大瓶颈: 接下来,我们将深入解析这两项新功能。 如今的 AI 与数据分析工作流,早已不只是以读为主。 它们正越来越多地呈现“读写混合”甚至“写密集”的特征,生成大量中间结果、嵌入向量、日志与转换后的数据集。在这样的场景中,写性能与读吞吐同样关键。 遗憾的是,Amazon S3 这类后端对象存储系统,并非为大规模并行场景下的超低延迟写入而设计。写入延迟、请求开销、突发处理限制,往往成为端到端运行时的核心瓶颈。 在写入密集型工作负载中,对象存储存在一些难以规避的短板: 随着越来越多 AI 工作负载依赖快速循环迭代与持续工作流,这些短板正成为拖慢整体效率的关键因素。 Alluxio AI 3.8 引入的 Alluxio S3 写缓存,新增了用户可配置的写回(write-back)模式,突破了之前仅支持穿透写的限制。 通过这些写回模式,应用可直接写入本地计算节点的 NVMe 存储,而数据持久化到 S3 的过程则可以: 这实际上将应用性能与对象存储延迟解耦开来。 效果是立竿见影且可量化的。针对小对象写入(10KB PUT): PUT 延迟降低了 5-8 倍! 对于生成数百万小文件(如元数据、特征分片、嵌入输出等)的工作负载,这一优化足以彻底改变工作流的整体性能表现。 写缓存在大对象写入场景下同样表现优异。 这意味着,AI 团队只需横向扩展 Alluxio Worker,即可线性提升写入吞吐量,不再受限于对象存储的写入路径。 Alluxio S3 写缓存为现代 AI 与数据分析工作负载带来的核心价值包括: Alluxio S3 写缓存让基于对象存储的架构,拥有了接近 NVMe 的写入体验。 如果你想了解该功能背后的技术动因与架构设计,欢迎阅读这篇由 Alluxio 技术副总裁范斌撰写的技术文章: 大模型加载已成为 AI 工作流中最容易被忽视的隐性成本之一。 之所以容易被忽略,是因为模型加载发生在训练或推理任务“真正开始之前”——但它往往耗时数分钟,并且在集群重启、任务重跑时反复发生。在分布式环境中,模型加载慢,会导致整批 GPU 节点空转等待,迟迟无法投入工作。 Safetensors 是由 Hugging Face 推出的开源模型格式,专门用于存储机器学习模型权重。它迅速成为众多机构的首选,核心原因是解决了传统基于 pickle 方式加载模型的两大痛点: 简言之,Safetensors 既快又安全——这正是大规模 AI 场景所需要的。 Alluxio AI 3.8 引入 Safetensors 模型加载加速功能,让基于 Safetensors 格式的大模型在云端也能实现快速、稳定的加载,即使原始模型存放在对象存储中。 借助这一能力,Alluxio AI 可实现接近本地 NVMe 的吞吐量,模型加载速度比 AWS FSx Lustre 等主流云存储方案快 15–20 倍。 在内部基准测试中,我们使用 DeepSeek-R1-Distill-Llama-70B 模型(约 30GB),对比从云存储环境加载模型的时间: 模型加载速度提升了 18 倍,堪称突破性进展。 这一加速效果,对于需要频繁扩缩容的推理集群、经常重启任务的训练流程,或任何需要跨多节点重复加载模型的环境,意义尤为重大。 借助 Safetensors 模型加载加速功能,AI 团队可以实现: Alluxio AI 3.8 让基于 Safetensors 的模型加载,不仅更快,而且真正具备了大规模云原生能力。 Alluxio AI 3.8 的发布,正是为应对现代 AI 基础设施的真实挑战而设计:在海量规模的云端模型与数据工作流中,存储延迟和吞吐量直接导致 GPU 资源浪费与创新速度放缓。 此次版本带来两项突破性新功能: 这两项功能共同带来:更快的训练启动、更快的推理部署、更高效的工作流、更高的 GPU 利用率——同时始终保持对象存储作为核心记录系统。 Alluxio AI 3.8,让云端 AI 基础设施更快、更稳、更具扩展性。
1.Alluxio S3 写缓存
为什么写入会成为瓶颈
Alluxio AI 3.8 新功能
显著降低PUT延迟(提升5-8倍)
大文件写入吞吐量高达 6+ GB/s(单Worker)
针对大对象写入(10MB PUT 操作),Alluxio S3 写缓存可实现:带来的实际收益

了解更多:S3写缓存技术深度解析
2. Safetensors 模型加载加速
为什么 Safetensors 如此重要?
Alluxio AI 3.8 新增功能
基准测试:比 AWS FSx Lustre 快 18 倍
带来的实际收益
3.总结:Alluxio AI 3.8 消除两大存储瓶颈
Alluxio S3 写缓存
Safetensors 模型加载加速