阿里云携手模思智能构建一站式多模态数据处理平台
上海模思智能科技有限公司(MOSI Intelligence)成立于2024年11月,是国内深度情境智能领航者,依托深厚的学术积淀与卓越的工程落地能力,致力于构建下一代全感官人机交互体系。公司由复旦大学知名教授邱锡鹏担任首席科学家,以复旦大学自然语言处理实验室(FudanNLP)的MOSS团队为核心组建。 模思智能专注于端到端语音大模型与多模态智能体研发,其核心产品MOSS-Speech率先实现“真·语音到语音”交互,跳过文本中转瓶颈,能够原生捕捉并生成语调、情绪与笑声,为内容创作、数字人及具身智能提供更自然、更具温度的交互底座。 在人工智能技术快速迭代的今天,多模态数据处理已成为大模型训练与应用开发的核心挑战。图像、视频、音频等非结构化数据的爆发式增长,对数据处理平台的算力类型、弹性、计算引擎数据处理能力及多模态数据统一管理能力提出了更高的要求。 阿里云与模思智能达成深度合作,基于阿里云 MaxCompute 构建云原生一站式多模态数据处理平台,同时通过 MaxCompute 自研分布式 AI 计算引擎 MaxFrame 实现对多模态数据高效开发、处理,为大模型研发、创新提供了坚实的数据基座。 随着模思业务规模扩大,面临本地IDC在存储、算力与网络上的扩展瓶颈,难以支撑高并发、大规模音视频处理 Pipeline,同时自建平台耗费大量人力,制约了其核心 AI业务的创新、发展。 随着模思业务规模的扩大和模型训练对数据量、处理时效性的要求提升,原有IDC基础设施在计算弹性、存储容量、I/O性能、网络带宽等方面已无法满足高并发、大规模音视频等多模态数据的处理需求。 此外,多模态数据预处理流程复杂,涉及视频切帧、语音识别、音频文字提取等多种操作,面对海量多模态数据清洗、处理等计算密集型任务,传统 IDC 自建方案出现性能瓶颈、频繁任务失败等问题,作业稳定性、性能难以保障。 多模态数据处理 Pipeline 需同时调度数千卡与数万核算力资源,传统调度系统难以实现跨模态任务(如音频转写、视频抽帧、特征提取等)对异构计算资源的精细化、高效率分配与协同。 音视频等非结构化数据缺乏统一的元数据管理体系,导致数据不可见、难检索、生命周期难追踪,影响数据资产的高效利用与治理 。 原有数据处理流程依赖单机 Python 程序完成开发、调试与生产任务,缺少可视化任务开发、管理、调度和运维能力,多参数迭代效果评估困难,开发效率低下。 基于自建数据预处理框架、集群需投入大量人力进行开发与维护,业务团队难以专注于核心AI业务创新。 阿里云为模思智能打造了基于MaxCompute MaxFrame的一体化多模态数据处理方案,构建从可视化作业开发、数据管理及多模态数据处理的完整闭环。 高效、稳定的分布式多模态数据处理 统一数据管理与元数据采集 开箱即用的开发体验 合作实施后,模思智能在数据处理流程多个维度实现显著突破。计算资源利用效率大幅提升,通过 MaxCompute "包月固定资源 + 按需弹性资源"的组合模式,高峰期可快速扩展至 数万核 计算资源,计算资源利用率提升 30% 以上。多模态数据处理效率实现质的飞跃,基于 MaxFrame 构建的分布式处理架构替代原有自建方案,音视频预处理,性能提升 100%,整体数据处理 Pipeline 耗时大幅缩短,批量推理任务借助弹性GPU异构资源实现高效执行。平台运维复杂度显著降低,全托管云原生PaaS能力使团队无需投入大量人力进行底层基础设施维护,运维资源投入减少 50%,得以更专注于核心AI业务创新。 阿里云与模思智能的成功合作,验证了基于 MaxCompute 构建云原生多模态数据处理平台的可行性与技术优势。该方案有效解决了大模型时代多模态数据处理的资源弹性、性能瓶颈与统一管理等核心挑战,为AI应用研发提供了高效、可靠的数据基础设施。未来,双方将继续深化在多模态数据处理、大模型数据预处理等前沿场景的联合创新,推动 Data + AI 技术在更广泛行业的规模化应用,助力企业加速AI价值释放。模思智能简介
阿里云 MaxCompute 云原生 AI 数据平台:赋能 AI 数据处理工作流加速

业务挑战

解决方案

业务价值
总结与展望