阿里云携手模思智能构建一站式多模态数据处理平台

模思智能简介

上海模思智能科技有限公司（MOSI Intelligence）成立于2024年11月，是国内深度情境智能领航者，依托深厚的学术积淀与卓越的工程落地能力，致力于构建下一代全感官人机交互体系。公司由复旦大学知名教授邱锡鹏担任首席科学家，以复旦大学自然语言处理实验室（FudanNLP）的MOSS团队为核心组建。

模思智能专注于端到端语音大模型与多模态智能体研发，其核心产品MOSS-Speech率先实现“真·语音到语音”交互，跳过文本中转瓶颈，能够原生捕捉并生成语调、情绪与笑声，为内容创作、数字人及具身智能提供更自然、更具温度的交互底座。

阿里云 MaxCompute 云原生 AI 数据平台：赋能 AI 数据处理工作流加速

在人工智能技术快速迭代的今天，多模态数据处理已成为大模型训练与应用开发的核心挑战。图像、视频、音频等非结构化数据的爆发式增长，对数据处理平台的算力类型、弹性、计算引擎数据处理能力及多模态数据统一管理能力提出了更高的要求。

阿里云与模思智能达成深度合作，基于阿里云 MaxCompute 构建云原生一站式多模态数据处理平台，同时通过 MaxCompute 自研分布式 AI 计算引擎 MaxFrame 实现对多模态数据高效开发、处理，为大模型研发、创新提供了坚实的数据基座。

业务挑战

随着模思业务规模扩大，面临本地IDC在存储、算力与网络上的扩展瓶颈，难以支撑高并发、大规模音视频处理 Pipeline，同时自建平台耗费大量人力，制约了其核心 AI业务的创新、发展。

本地IDC架构性能瓶颈

随着模思业务规模的扩大和模型训练对数据量、处理时效性的要求提升，原有IDC基础设施在计算弹性、存储容量、I/O性能、网络带宽等方面已无法满足高并发、大规模音视频等多模态数据的处理需求。

此外，多模态数据预处理流程复杂，涉及视频切帧、语音识别、音频文字提取等多种操作，面对海量多模态数据清洗、处理等计算密集型任务，传统 IDC 自建方案出现性能瓶颈、频繁任务失败等问题，作业稳定性、性能难以保障。

异构资源调度复杂度高

多模态数据处理 Pipeline 需同时调度数千卡与数万核算力资源，传统调度系统难以实现跨模态任务（如音频转写、视频抽帧、特征提取等）对异构计算资源的精细化、高效率分配与协同。

非结构化数据管理困难

音视频等非结构化数据缺乏统一的元数据管理体系，导致数据不可见、难检索、生命周期难追踪，影响数据资产的高效利用与治理。

缺乏统一任务管理与可视化支持

原有数据处理流程依赖单机 Python 程序完成开发、调试与生产任务，缺少可视化任务开发、管理、调度和运维能力，多参数迭代效果评估困难，开发效率低下。

开发与运维人力投入受限

基于自建数据预处理框架、集群需投入大量人力进行开发与维护，业务团队难以专注于核心AI业务创新。

解决方案

阿里云为模思智能打造了基于MaxCompute MaxFrame的一体化多模态数据处理方案，构建从可视化作业开发、数据管理及多模态数据处理的完整闭环。

高效、稳定的分布式多模态数据处理
- 依托 MaxCompute 自研分布式 AI 计算引擎 MaxFrame，实现对音视频数据进行标准化、切分、语音识别等高效处理。 MaxFrame 支持通过 Rebalance 实现数据切分、并发控制，从而在内存与吞吐之间取得平衡，放大性能收益。
- 分布式 AI 计算引擎 MaxFrame 支持在一个作业 Pipeline 中同时调度异构计算资源，将各类多模态数据处理算子合理分配至不同的异构计算资源中执行，充分、合理利用算力资源优势。
统一数据管理与元数据采集
- 基于阿里云对象存储 OSS 进行原始音视频数据统一存储，通过高速内网直连为 MaxCompute 提供了超高带宽及 IO性能。针对多模态小文件，OSS提供了极高的QPS解决了在高并发下的延迟抖动问题，保障算力充分利用。
- 通过 MaxCompute 提供的 Object Table 表类型，实现对 OSS 上存储的多模态图片、视频等非结构化数据的元数据自动采集与统一纳管，支持结构化与非结构化数据集的目录化管理，便于数据的检索与调用。
开箱即用的开发体验
- 通过 Dataworks 实现多模态数据处理任务Pipeline的编排、调度、运维，一站式管理任务。处理完毕后沉淀的AI资产，通过数据地图对外统一展示、搜索、权限申请、查看数据血缘，完成AI数据资产的管理。
- MaxFrame 作为 MaxCompute 自研分布式 AI 计算引擎，提供开箱即用的分布式、多模态数据处理能力，内置任务调度、作业容错与自运维能力，大幅降低开发维护成本，使业务团队能聚焦于核心AI创新。
- MaxFrame 与 DataWorks Notebook 深度集成，提供可视化开发、调度、管理平台，支持灵活的 Python 开发生态与开发环境，无需复杂环境配置即可快速启动多模态数据处理任务，显著降低作业开发门槛。

业务价值

合作实施后，模思智能在数据处理流程多个维度实现显著突破。计算资源利用效率大幅提升，通过 MaxCompute "包月固定资源 + 按需弹性资源"的组合模式，高峰期可快速扩展至 数万核 计算资源，计算资源利用率提升 30% 以上。多模态数据处理效率实现质的飞跃，基于 MaxFrame 构建的分布式处理架构替代原有自建方案，音视频预处理，性能提升 100%，整体数据处理 Pipeline 耗时大幅缩短，批量推理任务借助弹性GPU异构资源实现高效执行。平台运维复杂度显著降低，全托管云原生PaaS能力使团队无需投入大量人力进行底层基础设施维护，运维资源投入减少 50%，得以更专注于核心AI业务创新。

总结与展望

阿里云与模思智能的成功合作，验证了基于 MaxCompute 构建云原生多模态数据处理平台的可行性与技术优势。该方案有效解决了大模型时代多模态数据处理的资源弹性、性能瓶颈与统一管理等核心挑战，为AI应用研发提供了高效、可靠的数据基础设施。未来，双方将继续深化在多模态数据处理、大模型数据预处理等前沿场景的联合创新，推动 Data + AI 技术在更广泛行业的规模化应用，助力企业加速AI价值释放。