让多模态数据真正可用，AI 才能走出 Demo

在越来越多企业推进 AI 应用落地的过程中，一个共识正在逐渐形成：model-centric 的发展已经达到一定瓶颈，那么现在决定 AI 应用效果的就是数据是否完备了。尤其在真实业务场景中，AI 面对的从来不是“干净、规整的结构化表”，而是大量分散、异构、跨介质的多模态数据——合同、图片、音视频、扫描件、日志、文本记录，与少量结构化指标交织共存。如果这些数据无法被系统性管理和加工，AI 就只能停留在 Demo 阶段，难以真正走向规模化应用。

一、AI 时代的数据挑战：构建多模态数据底座

在银行、制造、政企等行业，我们看到大量企业已经完成了数仓建设，也开始尝试引入大模型、知识库或智能分析能力，但很快便遇到相似的问题：

非结构化数据分散在对象存储或文件系统中，只能依赖“人工查找”
数据无法被统一检索、关联和追溯，模型输入高度不可控
每一个 AI 场景都在重复进行数据准备，成本高、周期长、难以持续

从本质上看，这并不是 AI 工程能力不足，而是企业的数据体系仍停留在“结构化时代”。

而 AI 时代的数据底座，必须天然支持多模态。

二、多模态数据平台：AI 的“可控输入层”

多模态，并不等同于“把文件直接喂给模型”。真正决定 AI 能否长期可用的，是几个更基础的问题：

数据是否具备清晰、稳定的业务语义
数据是否可以被检索、筛选和灵活组合
数据的来源、加工过程是否完整可追溯

只有在这些条件之上，AI 才能建立在“可信数据”之上，而不是一个不可解释、不可复用的黑箱。

这正是袋鼠云数栈在多模态方向上的核心定位：为 AI 提供一个可治理、可复用、可持续演进的数据底座，而不是一次性的场景工具。

三、数栈多模态数据智能平台：从数据治理到 AI 应用的统一通路

数栈 DataZen 多模态数据智能平台，源于成熟的结构化数仓体系，并在此基础上向多模态数据能力自然演进，帮助企业统一解决多模态数据的采集、加工、治理与应用问题。

平台并不围绕某一个模型或 AI 框架展开，而是始终聚焦于数据本身：

让多模态数据第一次以“数据资产”的形式进入企业数据体系
让 AI 的每一次使用，都建立在可追溯、可解释的数据基础之上

1.面向多模态的统一计算与存储底座

多模态数据，对底层能力的要求天然多样。

在数栈中，用户可以统一配置和管理：

结构化存储（如 HDFS）与非结构化对象存储（如 MinIO）
基于 Kubernetes 的统一资源调度能力
多种计算模型并行协作：
①Spark / Flink / MPP 处理结构化计算
②Ray 承载文本、图片、音视频等非结构化数据处理

这样的架构设计，并非为了追求“技术先进性”，而是为了更好地适应 AI 场景中不断变化的数据形态与处理需求。

2.让非结构化数据真正进入数据体系

2.1.统一接入

数栈支持将文件系统、对象存储以及各类结构化数据源统一接入平台，打破数据形态之间的物理隔离。

通过数据同步任务，用户可进行结构化数据与非结构化数据的同步。

2.2.数据集化管理

文本、图片、音频、视频等数据，不再只是文件目录，而是以“数据集”的方式被创建、管理和版本化，为后续加工和 AI 使用奠定基础。

2.3.面向 AI 的多模态数据开发能力

在数据开发阶段，数栈为不同模态提供了最适配的处理方式：

结构化数据通过 SQL 完成规则计算与指标处理
非结构化数据通过 Ray 算子完成解析、切分与转换

更关键的是，二者可以在同一工作流中被编排和关联。

以知识库或智能风控场景为例：

先对合同、说明文档、影像资料进行解析与要素抽取
再与结构化业务数据进行关联与筛选
最终生成可被模型稳定消费的高质量输入数据集

这使得 AI 场景中的数据准备，从“一次性工程”转变为“可持续复用的能力”。

2.4.为 AI 打造可信的数据资产体系

在多模态场景下，数栈构建了统一的数据资产与元数据体系：

自动解析多模态数据的结构与内容
构建全文索引与向量索引
支持基于元数据、内容和向量的综合检索

数据血缘、加工过程和业务语义被完整保留，使每一份被 AI 使用的数据都可回溯、可解释。

2.5.连接 AI 平台，而非绑定模型

经过治理和加工的数据资产，可以被推送至外部 AI 平台和知识库系统中，作为模型训练、推理和 RAG 应用的稳定数据来源。数栈并不绑定特定模型或厂商，而是通过标准化的数据输出能力，让企业可以根据自身节奏灵活演进 AI 技术路线。

四、哪些企业最容易在 AI + 多模态上取得效果？

已启动 AI 项目，但受限于数据质量与准备效率的企业
拥有大量文档、影像、音视频资产的行业客户
希望构建企业级知识库与智能分析能力的组织
对数据合规性、可追溯性要求较高的业务场景

在 AI 时代，真正拉开差距的，并不是模型参数的规模，而是数据底座的成熟度。数栈希望通过一套面向未来的多模态数据平台，帮助企业为 AI 提前准备好可以长期使用的数据基础设施。