标签 非结构化数据 下的文章

在大模型从能力展示走向工程落地的过程中,智能体逐渐成为一种可被讨论、可被验证的系统形态。与此同时,一个现实问题开始反复出现:并非所有流程都适合智能体化

在实际业务中,盲目引入智能体,往往带来的是推理成本上升、系统不稳定以及工程复杂度失控。因此,在“从 0 到 1”之前,建立一套判断流程是否值得交给智能体的评估框架,比选模型和堆工具更重要。

一、智能体适用范围的基本边界

从工程视角看,智能体并不是“更聪明的自动化”,而是一种以语言模型为核心控制器的非确定性执行系统。 其价值不在于执行速度,而在于对复杂语义和动态决策的处理能力。

可以用一句话概括二者差异:

  • 传统自动化:适用于输入明确、路径可穷举、结果必须确定的流程
  • 智能体系统:适用于输入非结构化、路径需动态选择、过程允许纠偏的任务

当流程本身不存在“理解”和“选择”的空间时,引入智能体反而会放大不确定性。

二、判断流程是否适合智能体的三维标准

是否值得智能体化,可以从以下三个维度进行评估。

1. 输入与逻辑的非结构化程度

如果流程的输入是高度结构化数据,且处理逻辑可以被完整抽象为规则或算法,那么程序化系统的性价比更高。

智能体更具优势的场景通常包括:

  • 需要理解自然语言、文档或混合信息
  • 任务目标由文本描述而非参数定义
  • 决策依赖大量非结构化知识的综合判断

当“理解成本”显著高于“执行成本”时,智能体才具备价值空间。

2. 决策路径的变动性

流程是否稳定,是判断智能体必要性的关键因素。

  • 如果 90% 以上的执行路径固定,引入推理只会增加成本
  • 如果每一步决策都依赖前一步结果或外部反馈,且分支难以穷举,智能体的动态规划能力才有意义

尤其是在需要根据搜索结果、接口返回或中间错误不断调整策略的场景中,规则系统的维护成本会快速上升。

3. 业务对非确定性的容忍度

智能体的输出本质上是概率性的,这一特征无法通过工程手段完全消除。

因此,流程是否适合智能体,取决于业务是否允许:

  • 输出存在差异
  • 过程需要人工确认或二次修正
  • 错误可被发现并纠偏

在结果必须完全一致、错误代价极高的流程中,应优先选择确定性系统。

三、从行业实践中抽象出的共性判断点

在当前阶段,智能体来了这一现象更多体现为一种生产力结构变化,而非单点技术突破。从多个行业实践中,可以总结出三条共性判断准则。

1. 人工经验密集的流程断点

如果一个流程中,人的主要价值在于“阅读—判断—选择下一步系统操作”,那么这个位置往往是智能体的天然切入点。

当人只是做信息搬运,属于自动化问题; 当人承担理解和决策角色,才是智能体能够产生效率溢价的地方。

2. 高频且难以标准化的任务

一次性或低频复杂任务,即便适合智能体,投入产出比也往往不成立。

更具价值的是:

  • 高频发生
  • 每次需求略有不同
  • 无法通过配置化产品完全覆盖的长尾任务

这是传统软件最难处理、也是智能体最容易体现优势的区域。

3. 知识更新速度快于规则维护速度

当流程高度依赖外部知识,而这些知识变化频繁时,维护规则系统的成本会持续上升。

在此类场景中,结合检索机制的智能体系统,往往能以更低的维护成本实现持续对齐。

四、智能体化之前的风险过滤

在决定交给智能体之前,仍需进行基本的风险评估,包括:

  • 是否涉及敏感数据与合规要求
  • 是否存在严格的实时响应约束
  • 模型推理成本是否真实覆盖了人力节省

智能体适合承担“决策辅助”与“复杂执行”,而不适合替代所有关键控制环节。

五、结论:判断标准比技术选型更重要

是否构建智能体,核心不在于模型能力,而在于流程本身的结构特征。

一个真正适合智能体的流程,通常具备:

  • 非结构化输入与语义驱动逻辑
  • 需要动态调整的决策路径
  • 允许容错与人工校验的闭环机制
  • 高频发生且知识密集

理性地识别这些特征,才能避免技术滥用,使智能体成为长期有效的生产力工具,而非短期概念叠加

以往扫描仪在办公室中的角色颇为单一:将纸质文件变成电子图片,任务便告完成。然而,在人工智能技术蓬勃发展的今天,扫描仪正在经历一场深刻的进化。新一代智能扫描仪不再只是简单的格式转换工具,而是成为了能够理解、分析和处理非结构化文档内容的“智能脑”。通过集成光学字符识别(OCR)、自然语言处理(NLP)和计算机视觉技术,智能扫描仪不仅能“看见”文档,更能“看懂”文档。

这个转变的背后,是一个重要的事实支撑:根据行业研究,企业中超过80%的有价值信息以非结构化数据的形式存在——包括合同、报告、邮件、发票等各类文档。这些信息若能被有效挖掘和利用,将为企业决策和创新提供强大动力。智能扫描仪的进化,正是开启这座信息宝库的关键钥匙。

二、智能扫描仪的三大核心能力突破

1. 精准识别与转换

现代智能扫描仪搭载的高精度OCR技术已经相当成熟,不仅能准确识别印刷体文字,对手写体、特殊字体也有很好的识别能力。多语言混合文档、复杂排版(如多栏、图文混排)的识别准确率已超过98%。更重要的是,智能扫描仪能够保持原始文档的格式、字体和布局,生成可直接编辑的Word、Excel等格式文件,而非简单的图片或PDF。

2. 结构理解与智能分类

智能扫描仪能够理解文档的逻辑结构,自动识别标题、副标题、段落、表格、图表、页眉页脚等元素。基于内容分析,系统还能对文档类型进行智能分类——自动区分发票、合同、简历、报告等不同类型的文档,并应用相应的处理策略。例如,面对一份采购合同,系统会重点关注金额、交货日期、违约责任等关键条款;而处理学术论文时,则会聚焦研究方法、数据结果和结论部分。

3. 内容解析与知识提取

这是智能扫描仪最具革命性的能力突破。通过深度学习算法,系统能够:

  • 语义理解:超越文字表面,把握文本的深层含义和意图。例如,不仅能识别“甲方应在30日内付款”这句话中的每个字,更能理解这是一项付款义务,涉及特定主体、时间限制和具体行为。
  • 关系网络构建:分析不同文档间的内在联系,构建跨文档的知识图谱。比如,将多份相关合同、邮件和会议记录关联起来,形成完整的项目视图。
  • 模式识别与异常检测:在海量文档中发现规律和异常。例如,在财务报表中自动识别异常波动,在质检报告中标记不合格项目。

三、深度解析:非结构化数据的价值解锁

1. 什么是非结构化数据?

非结构化数据指那些没有预定义数据模型或组织形式的信息,包括文本文件、电子邮件、社交媒体帖子、图像、视频等。在企业环境中,最常见的非结构化数据是各类业务文档:

  • 合同与协议:条款复杂,专业性强
  • 财务报告:数据密集,关联性强
  • 客户反馈:形式多样,情感丰富
  • 会议记录:口语化强,重点分散
  • 研究论文:专业术语多,逻辑严密

传统处理方式主要依赖人工阅读、摘录和整理,效率低、成本高、一致性差,且难以进行大规模分析。

2. 智能解析的四层突破

智能扫描技术通过四个层次的解析,破解非结构化数据处理难题:

第一层:语义理解

系统能够理解文本的上下文关系、情感倾向和真实意图。例如,在客户投诉信中,不仅能提取投诉内容,还能分析客户的失望程度和核心诉求。

第二层:实体提取

自动识别和提取文档中的关键信息实体,如人名、组织名、日期、金额、产品名称等。这些实体信息可直接导入数据库或业务系统,实现数据自动化。

第三层:逻辑分析

理解文档内部的逻辑关系。例如,在法律文件中,识别“如果...那么...”的条件关系;在调查报告中,理解数据与结论之间的支撑关系。

第四层:知识图谱

将分散在不同文档中的信息关联起来,构建企业知识网络。比如,将客户信息、订单记录、服务反馈等关联分析,形成完整的客户视图。

3. 行业应用价值

金融行业:智能扫描系统可自动审查贷款申请材料,提取关键财务数据,评估信用风险,处理时间从数小时缩短至几分钟。

医疗健康:将纸质病历、检查报告数字化并结构化,建立可搜索的患者健康档案,辅助医生诊断和治疗决策。

法律服务:快速分析大量法律文件和案例,提取相关法条、判例要点和关键事实,大幅提高案件准备效率。

教育科研:智能解析学术文献,提取研究问题、方法、数据和结论,帮助研究人员快速了解领域动态。

四、ComPDF AI:智能文档解析的实践典范

1. 产品定位与技术优势

ComPDF AI是一款面向企业级应用的智能文档处理平台,集成了先进的OCR、自然语言处理和深度学习技术。其核心优势在于“一体化”和“智能化”:不仅支持从扫描到解析的全流程处理,更能深入理解文档内容,将非结构化数据转化为结构化知识。

平台采用多格式统一解析引擎,无论是扫描件、PDF、Word、Excel还是图片格式,都能提供一致的高质量解析结果,真正实现全格式文档的智能化处理。

2. 核心功能详解

智能版面分析ComPDF AI能够精准识别复杂文档的版面结构,包括多栏排版、表格、图表、文本框等元素。无论是传统的报纸式排版还是现代的创意设计,系统都能准确还原文档的逻辑结构,为后续的内容解析奠定基础。

深度内容解析:基于预训练的大语言模型和行业知识库,ComPDF AI能够理解文档的语义层次。例如,在技术白皮书中,区分技术原理、应用场景和竞争优势;在年度报告中,识别财务数据、业务分析和未来展望。这种深度理解能力,使系统能够提取真正有价值的信息,而非简单的关键词匹配。

交互式处理:用户可以通过自然语言与文档进行对话。例如,输入“找出合同中所有关于知识产权的条款”或“汇总2023年各季度销售数据”,ComPDF AI能够准确理解查询意图,并在文档中找到相应信息,以结构化形式呈现结果。这种交互方式大大降低了使用门槛,使非技术人员也能轻松进行复杂文档分析。

批量自动化处理:针对企业级应用场景,ComPDF AI支持大规模文档的批量处理。用户可以建立自动化处理流水线,设置规则和模板,系统将自动完成文档的解析、分类和信息提取。例如,财务部门可以设置发票处理流程,系统自动识别发票类型、提取金额和供应商信息,并导入财务系统。

3. 应用场景展示

企业法务场景:某跨国公司使用ComPDF AI处理全球分支机构的合同审查。系统自动识别合同类型(采购、销售、雇佣等),提取关键条款(价格、交付期限、违约责任等),并标记潜在风险点。法务团队审查重点合同的时间从平均4小时缩短至30分钟,效率提升超过85%。

财务部门应用:一家大型零售企业将ComPDF AI集成到财务流程中,自动化处理每月数千张供应商发票。系统不仅提取发票基本信息,还自动验证发票真伪、匹配采购订单,并将数据直接导入ERP系统。人工核对工作量减少70%,错误率降低90%以上。

研究机构案例:某政策研究机构利用ComPDF AI分析大量政策文件和研究报告。系统自动提取政策要点、实施措施和影响评估,帮助研究人员快速把握政策脉络。文献调研时间减少60%,让研究人员能够更专注于深度分析和创新思考。

五、智能扫描仪的具体应用场景

1. 办公室自动化

智能归档与检索:传统文档管理依赖人工标注和分类,检索困难。智能扫描仪自动识别文档内容,提取关键词和摘要,实现精准的全文检索。例如,需要查找三年前某个项目的会议记录,只需输入相关关键词,系统即可快速定位。

会议记录处理:扫描纸质会议记录或直接处理电子笔记,系统自动识别发言人、讨论主题、决策事项和待办任务,生成结构化会议纪要,并同步到项目管理工具中。

2. 专业领域深化应用

财务税务:自动处理各类发票、收据和报税单据,提取关键数据(金额、税率、日期等),验证税务信息,并直接导入会计软件。每年报税季,这一功能可节省大量时间和精力。

人力资源:智能解析求职者简历,提取教育背景、工作经历、技能证书等信息,与职位要求自动匹配,生成候选人评估报告。招聘人员可以快速筛选合适人选,提高招聘效率和质量。

客户服务:分析客户来信、在线反馈和调查问卷,自动识别客户情感(满意、中性、不满),提取核心问题和建议,分类汇总后转交相关部门处理。帮助企业及时了解客户需求,改进产品和服务。

知识管理:将企业内部的各类文档(技术手册、产品说明、案例研究等)数字化并结构化,构建企业知识库。员工可以通过自然语言查询获取所需知识,促进知识共享和创新。

3. 个人效率提升

学习笔记管理:学生和研究人员可以扫描纸质笔记和参考资料,系统自动识别重点内容、公式图表和参考文献,建立个人知识库。复习和写作时,能够快速查找相关资料。

个人文档整理:处理个人证件、保单、合同等重要文件,系统自动分类存储,并设置提醒(如保险续保、证件到期等)。需要时可通过手机快速检索和查看,实现个人文档的智能化管理。

六、实施路径:如何部署智能扫描解决方案

1. 技术准备要点

硬件选择:根据文档处理量选择合适规格的扫描仪。对于大批量处理,建议选择自动进纸、双面扫描的高端型号;对于日常办公,普通平板扫描仪即可满足需求。同时考虑与现有办公设备的兼容性。

系统集成:智能扫描解决方案需要与企业的文档管理系统、业务系统(如ERP、CRM)集成。选择支持标准API接口的解决方案,确保数据能够顺畅流转。云部署方案可以降低初期投入,快速上线使用。

2. 流程改造建议

制定数字化标准:统一文档扫描的质量标准(分辨率、格式等)、命名规范和存储结构。建立文档分类体系,确保后续处理的效率和一致性。

优化工作流程:重新设计文档处理流程,减少人工干预环节。例如,将扫描、识别、分类、归档设置为自动化流程;建立异常处理机制,对无法自动处理的文档进行人工复核。

培训与推广:对员工进行系统培训,使其掌握智能扫描工具的使用方法。通过试点项目展示应用效果,逐步推广到全公司。建立使用反馈机制,持续优化系统配置和流程设计。

3. 数据安全与合规

隐私保护机制:确保扫描和解析过程中个人隐私数据的安全。采用数据加密传输和存储,设置访问权限控制。对于敏感文档,提供本地化处理选项,避免数据外泄风险。

行业合规性:不同行业对文档处理有特定合规要求。例如,医疗行业需符合HIPAA标准,金融行业需满足数据保存和审计要求。选择解决方案时,确保其符合相关行业规范和法律法规。

七、未来展望:智能扫描技术的发展趋势

1. 技术融合方向

多模态AI整合:未来的智能扫描仪将整合文本、图像、语音等多种信息处理能力。例如,不仅解析文档文字,还能分析其中的图表数据;结合语音识别技术,处理会议录音和访谈记录,形成完整的会议档案。

边缘计算与云协同:部分处理任务将在扫描设备本地完成(边缘计算),减少数据传输延迟,提高响应速度;复杂分析任务则交由云端处理,利用更强大的计算资源。这种协同模式平衡了效率与能力的需求。

2. 功能演进预测

预测性文档分析:系统不仅能解析已有文档内容,还能基于历史数据预测未来趋势。例如,分析历年销售合同,预测下季度销售情况;审查项目文档,识别潜在风险和延误可能。

实时协作处理:支持多人同时处理同一份文档,实时共享解析结果和批注意见。无论团队成员身在何处,都能高效协作完成文档审查和分析任务。

行业深度定制:针对特定行业的专业需求,提供高度定制化的解析模型和知识库。例如,为律师事务所定制的法律文档分析系统,为医院定制的病历处理方案,为科研机构定制的文献分析工具。

3. 生态建设

深度系统集成:智能扫描技术将与企业各类业务系统深度集成,成为企业数字基础设施的一部分。从简单的数据输入工具,演变为支持决策的智能分析平台。

开放开发者生态:提供丰富的API接口和开发工具包,支持第三方开发者创建定制化应用。构建应用商店生态,满足不同用户的个性化需求。

八、结论:智能扫描仪——企业数字化转型的关键拼图

智能扫描仪正在从企业的“成本中心”转变为“价值创造者”。传统文档处理需要投入大量人力资源,却难以产生直接价值;而智能扫描仪通过自动化处理和深度分析,释放非结构化数据的潜力,直接支持业务决策和创新。

这一转变的核心,在于智能扫描仪成为了非结构化数据价值释放的杠杆点。它连接了纸质世界与数字世界,物理文档与数据系统,将散落在各处的信息碎片整合成可用的知识资产。

生成式 AI 的投资回报远超预期?Snowflake 调研全球 1900 位企业与 IT 专业人士后发现平均 ROI 高达 41%!点击下载完整报告

在技术发展史上,总会出现一些被反复回望的“拐点时刻”。在 Snowflake 首席执行官 Sridhar Ramaswamy 看来,我们正身处这样的关键节点之中——多年来机器学习与深度学习的研究积累、Transformer 等关键架构的突破,以及云计算规模能力的成熟,在这一刻汇聚,推动人工智能走向真正的产业化阶段。

在这一背景下,Snowflake 邀请了两位深度参与并塑造这一进程的核心人物,共同展开了一场关于 “未来十年 AI 蓝图” 的对话:堪称全球最具影响力的人工智能教育者和先驱者、LandingAI 执行董事长、DeepLearning.AI 创始人吴恩达(Andrew Ng),以及亚马逊云科技 Agentic AI 副总裁 Swami Sivasubramanian,他曾主导 Amazon SageMaker 与 Amazon Bedrock 的构建。

这场对话并未停留在对模型能力的抽象讨论,而是围绕竞争优势、商业模式、工程架构、数据治理以及开发者未来等关键问题,勾勒出一条从战略到落地的清晰脉络。

竞争焦点正逐渐脱离模型本身

围绕“AI 时代的护城河从何而来”这一核心问题,讨论首先打破了一个常见误区:竞争优势并不必然源于模型本身

在吴恩达看来,ChatGPT 这类产品在消费者层面形成的品牌认知,本身就构成了防御壁垒;但在更多行业场景中,护城河往往取决于行业结构,而非 AI 技术能力。例如,借助 AI 加速构建双边市场的平台,其持久性来自平台机制本身,而不是底层模型。

一个重要变化是,软件护城河正在被削弱。过去需要多年、大规模团队才能构建的软件系统,如今在 AI 辅助编程的加持下,其可复制性显著提高。API 调用的灵活性也使开发者能够迅速切换工具,这让“API 即护城河”的逻辑变得愈发脆弱。

Swami 从企业市场的视角补充道:在真实的企业环境中,竞争焦点正从“谁的模型更强”,转向“谁能通过 API 和服务,以更优的性价比,帮助企业真正提升收入或降低成本”。在这个意义上,真正的“最佳模型”,往往是企业自身的商业模式

从订阅制到按量计费:AI 正在重塑软件商业逻辑

在商业模式层面,圆桌讨论也触及了一个正在发生的结构性变化。

过去十余年,SaaS 以订阅制为核心,其背后依赖的是软件接近零边际成本的特性。但在 AI 尤其是智能体场景中,这一前提正在发生变化——推理成本真实存在,且可能随使用规模非线性增长

Swami 指出,当 AI 系统开始代表用户执行任务,且工作负载与用户数量脱钩时,更接近云服务的按量计费模式将变得合理且必要。吴恩达则从开发者体验出发,分享了一个直观感受:AI 编程工具的效率如此之高,以至于开发者愿意为其消耗更多算力和费用,因为由此带来的生产力提升是实实在在的。

这并非简单的定价方式变化,而是意味着 AI 正在重新定义“软件价值如何被衡量和付费”

成功的 AI 架构:产品先行,为不确定性留出空间

当讨论从战略转向工程实践,三位嘉宾形成了高度一致的共识:产品市场契合(PMF)始终优先于成本优化

吴恩达强调,在早期创新阶段,最大的挑战不是控制成本,而是打造用户真正热爱的产品。当 PMF 出现后,工程手段总能在后续阶段将成本曲线重新压低。关键在于,在架构设计之初,就为模型可替换性和技术选择权留出空间。

Swami 从大量初创企业的实践中总结出一条清晰路径:

  • 初期采用通用基础模型快速验证产品;

  • 随着真实负载显现,通过微调、蒸馏、提示缓存优化等手段应对非线性成本;

  • 将模型选型视为可演进的工程问题,而非一次性决策。

在这一过程中,掌控自身数据层被反复强调。将数据牢牢掌握在企业自身体系内,而不是被封装进供应商的“云端密匣”(box in a cloud),是确保未来技术与合作可选性的关键。

非结构化数据的真正解锁:从 PDF 开始

在谈及 AI 应用的下一个增长点时,吴恩达将注意力投向了一个长期被忽视的领域:非结构化数据

在他看来,企业中最具价值、却最未被充分利用的隐性数据,正大量存在于 PDF 文档之中。无论是金融领域复杂的报表,还是医疗行业的各类表单,过去人们对 PDF 的主要交互方式,往往只是简单的关键词搜索。

而如今,借助智能体驱动的文档解析能力,AI 已能够理解复杂表格结构、提取语义信息,并将其转化为可分析、可计算的数据资产。这一变化,正在迅速催生大量新的企业级应用场景。

给开发者的长期建议:回到基础,拥抱创造

在圆桌的最后,讨论回到了一个更具情绪张力的话题:年轻开发者在 AI 浪潮下的焦虑

Swami 指出,行业在某种程度上混淆了“编程”与“计算机科学”。即便 AI 能生成大量代码,对底层原理的理解,编译器、数据库、系统架构、数学与统计基础,依然不可替代。历史经验表明,每次技术变革初期都会经历短暂低谷与普遍焦虑,当前正处在类似阶段,但最终带来的是更大规模的创造者群体。

吴恩达则将这一判断推向更积极的方向:这是一个前所未有的创造窗口期。构建产品所需的时间和成本正在大幅降低,而 AI 辅助编程让“学习编程”本身变得更具现实意义和乐趣。

正如 Sridhar Ramaswamy 在圆桌结束时表示,未来无需被动等待,当下的我们比以往任何时候都更有能力去进项创造 。

原视频地址:https://www.snowflake.com/en/build/americas/agenda/?login=ML

点击链接立即报名注册:Ascent - Snowflake Platform Training - China

Agent时代,为什么多模态数据湖是必选项?

0%
icon展开列表
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
01月14日
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
01月14日
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
01月14日
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img

Agent时代,为什么多模态数据湖是必选项?

「2025 年,注定被铭记为 AI 工业时代的黎明。」

回望这一年,吴恩达教授曾这样感慨。

这一年,大量企业你追我赶,投身于 AI 应用及 Agent 建设。然而,许多企业或许尚未意识到:如果 AI 竞速只停在应用层,可能连这场竞争的「起跑线」都尚未站上。

AI 时代,数智化表面是模型的狂欢,底层是基建的深耕。

唯有能支撑 AI 应用规模化落地的数据基座,才能构筑企业真正的竞争力。

近来, AI 行业普遍认为我们正在进入所谓的「AI 下半场」,而此时行业面临的一大关键问题是「究竟应该让 AI 去做什么?又该如何衡量真正的进展?」

而这个问题的答案也基本已有共识:要想在这下半场脱颖而出,我们需要及时转变思维方式,应当用 AI 的思维,把该做的事情重新做一遍。

与上一阶段不同,这一阶段的企业数据,不再等待人来解读,而是被模型直接「消费」。

以音频数据应用为例,AI 时代,音频数据不应只是一份录音数据存档,还应成为可查询和交互的信息源,比如应该支持查找「录音中的人是客户 A ,上周在另一业务有投诉记录」这类关联信息。这种跨模态的关联性,是实现模型复杂推理的基础。

推及其他行业:

  • 在智能驾驶中,道路视频、点云与传感器数据需要被实时送入智能体,支撑感知、规划与异常检索;

  • 在游戏行业,需要将对话、行为与世界观等多模态数据沉淀为长期记忆,用于沉浸式 NPC 与自动化资产生成;

  • 在传媒行业,需要使用视频、音频与用户互动数据来驱动内容生成与精准分发;

  • 在电商领域,商品图文与交易数据直接喂给模型,实现智能选品与个性化推荐。

因此,对多种模态数据的处理与使用的能力,正在影响各行业商业竞争的形态与上限

接下来的风口要踏在哪里?我们关注到了火山引擎近期发布的《AI 时代企业数据基建升级路线图》。

它在开篇写到:AI 时代,数据基建已经成为决定企业竞争高度的战略资产

笔者深以为然。

企业要发展可以处理多模态数据的底层基建。因为 AI 时代最深的红利,并不在于「拥有」SOTA 的模型,而在于能否持续「驾驭」并「滋养」它。更进一步,可以说构建多模态数据湖已经成为企业参与这场 Agent 竞赛的必选项。

图片

      传统数据湖与多模态数据湖对比,图像由 AI 生成。

Agent 时代,这是你不能错过的风口

智能的涌现扎根于坚实、鲜活且可进化的数据土壤。

尤其在 Agent 时代的到来之际,企业竞速也正由数据基建分野:领先者正将沉睡的非结构化数据转化为可用的竞争力,而落后者由于非结构化数据资产仍处于休眠状态,而只得徘徊在 Agent 应用的起点。

当行业的聚光灯都投向大模型或智能体本身时,真正的竞争已转入水下,即底层的、支撑多模态数据的数据工程。

唤醒数据,化「沉睡库存」为核心资产

IDC 预测,2025 年企业超过 80% 的数据将是非结构化的。

这些长期堆积的视频、音频、图像和传感器数据,曾被视为「数字负债」。然而,多模态与大模型技术的成熟,正让它们焕发前所未有的价值。

以制造业为例,以往无人问津的历史故障录像,经大模型解析与标注,即可成为「智能知识库」。新员工用自然语言提问,便能精准调取同类故障的处理记录 —— 沉寂数据瞬间转化为实战生产力。

本质上,AI 时代的数据基建,正通过向量化等处理能力,让非结构化数据真正「活」起来,使其从被动存储的负担,变为可随时调用、持续学习的战略资源。

唤醒这 80% 的数据,是在 Agent 时代构建竞争力的工程前提。

让数据资产驱动业务,启动飞轮

强大的数据基建能构建数据、模型与业务深度耦合的闭环,真正「让模型自主成长」,为 Agent 赋予更多智能。

一个优秀的数据架构,需在企业数据平台、MaaS(模型即服务)平台、Agent 开发工具与应用之间建立高效的数据流通管道,否则数据会停留于「孤岛」,智能难以落地。

典型的例子是传统智能客服:尽管不断采集用户的语音、文本、截图与操作轨迹,却因模型与业务间数据不通,导致客服模型始终重复犯错、体验停滞,陷入「千人一面」的困境。

我们发现,火山引擎通过多模态数据湖与 AgentKit、火山方舟等产品的联动,已验证了数据、模型、业务打通的可行性。在零售行业中,完善的多模态数据湖不仅能分析销售报表,还可实时捕捉顾客行为、评论与画像。这些鲜活数据持续回流,使企业 AI 能力能随业务不断演进。

这种「业务滋养模型、模型反哺业务」的闭环,使企业 AI 能力可伴随业务持续进化,这正因为此,多模态数据湖成为了 Agent 时代构建智能护城河的必选项。

让业务拥有锚点,获得未来的确定性

新一代数据基建通过统一的数据与计算底座,以同一平台支撑多模态数据,并持续适配技术演进。

以某安防企业为例,传统数据管理体系下,如果从视频监控扩展至智能识别,往往需为不同算法供应商重建独立的计算平台与数据库,导致内部数据不互通、烟囱林立。巨大的管理和技术成本,会拖累企业创新动力。

而统一的多模态数据湖体系,能以统一元数据管理结构化和非结构化数据,提供面向 AI 的灵活数据集能力,支持数据快速探查与调用。通过标准化存储与可扩展接口,系统能在上层屏蔽底层模型的频繁迭代,使数据始终以对模型友好的形态稳定输入。

这意味着,当该企业未来业务从「视频监控」拓展至「自动巡检」、「人流预测」等领域时,可低成本接入新算法模块,无需颠覆底层架构。

「基建不动,技术常新」,在追求敏捷响应速度的 Agent 时代,这种具备工程确定性的多模态基座正在成为架构的必选项。

升级三部曲:积累,重构,融合

火山的这份「数据基建升级路线图」之所以值得展开聊聊,是因为它在行业内率先为企业提供了一套从「拥有模型」到「驾驭智能」的数据基建进化蓝图。在 Agent 时代,它为企业提供一套实现多模态数据湖的清晰演进路径。

这个蓝图可作为重要的参考框架,企业可结合业务特点与发展阶段,衍生出适合自身的基建升级路径,进而在 Agent 时代构筑自己的核心竞争力。

图片

具体而言,火山引擎将企业数据基建的演进分为了三步渐进式过程。

异构算力与分布式引擎阶段

这一阶段的核心是突破算力瓶颈。为应对大规模数据处理与大模型训练的需求,传统仅依赖 CPU 的架构已难以满足 AI 时代对存储与计算的高实时性要求。企业需转向为 AI 任务量身打造的 CPU+GPU 异构架构,实现灵活调度。

这一阶段的核心目标是:数据「进得来,跑得快」,并原生支持 AI 服务。在异构算力的支撑下,企业能在技术快速迭代中平衡性能与成本,真正让算力服务于业务与模型增长。整体来说,这一阶段可为多模态数据湖这一必选项提供坚实的物理支撑。

模型即引擎与多模态重构阶段

在算力基础就绪后,需进一步推动数据基建与 AI 的深度融合。本阶段的关键在于将预训练大模型嵌入数据流水线,实现文本、图像、音频等多模态数据向统一语义向量与高价值知识标签的自动转换。

Agent 时代,数据价值不在于「存量」,而在于能被 AI 调用的「流量」。通过向量化处理,企业的多模态资产第一次真正实现通用「可读、可感、可交互」。该过程直接发生于数据基建层,从源头确保企业数据对大模型友好,使其可随时被检索、推理与学习,赋能全感官业务洞察。

因此,这一阶段可使多模态数据湖成为 Agent 识别与推理的逻辑重心,进一步确立了其作为基建必选项的地位。

全域数据治理与平台融合阶段

目标是在管理层面对数据资产进行统一管控,推动全域数据的治理、价值激活与安全合规。

这意味着 AI 能力可深度融入每一条业务流程,激活分散在不同系统与形态中的数据资产,并将其持续转化为增长动能。统一的数据治理体系不仅能显著降低安全与合规风险,还可大幅提升数据复用效率,助力企业将技术优势系统化、可持续地转化为长期竞争力。

这一阶段标志着多模态数据湖从单一的技术底座演变为全域的智能中枢,完成了其作为 Agent 时代必选项的最后拼图。

Agent 时代数据基建的选型指南

国内云厂商都在积极拥抱 Agent 时代的技术升级,从各大厂商的进度来看,对多模态数据的「存、算、管」重视度在持续提升。其中,我们观察到火山引擎「多模态数据湖」在行业内的进展最快,能够提供数据统一入湖与治理能力,在算子体系、性能优化、异构算力调度以及与大模型生态的无缝协同方面形成了更完整的一体化方案。

同时通过观察行业内其他厂商面向多模态数据的方案方向,我们也在思考:AI 和 Agent 时代的企业需要的数据基建,到底应该是什么样的?

综合起来,我们认为企业应将以下特质列为 AI 数据基建的必选项。

从「存储中心」到「价值中心」

在 AI 浪潮下,企业首先撞上的,是数据体系的根本性变革。

一方面,数据规模动辄 PB 级,非结构化格式复杂,处理流程高度碎片化,还要同时承载 CPU + GPU 混合负载与复杂作业调度;另一方面,大量数据分散存储、难以统一检索,无法被模型高效消费,数据准备周期越来越长,成本却持续上升。

真正有价值的数据,是能被快速获取、被模型理解、能转化为 Token 并直接参与推理与训练的数据。而那些无法被向量化、无法进入模型工作流的数据,正在从资产变成沉重的存储负担。

AI 时代的数据底座,是从「存储中心」转向「价值中心」的底座。

业务优先,回归实用主义

在技术变革快速的当下,除去技术复杂性之外,企业更大的挑战是:数据基建与业务脱节。

当前很多企业同时面临多模态数据分散、训练与生产割裂、血缘与版本缺失、质量评估与数据反馈闭环不足的问题。结果是数据冗余高、问题排查难、准备周期长,而业务决策却越来越依赖实时与精准。

在这种背景下,盲目堆算力、追求极限性能,反而成了负担。AI 时代最昂贵的基建,是那些无法转化为业务价值的闲置能力。

衡量一套数据基建是否先进,在于它是否能以最低成本、最快速度完成从数据输入到业务决策的闭环,并持续驱动数据飞轮运转。

开放解耦,对冲未来不确定性

随着模型与技术路线持续快速更迭,企业面临的另一项长期风险正在显现:如果数据基建随模型变化不断重构,系统将永远处于迁移与动荡之中。

在多模态数据规模持续膨胀、合规与安全要求不断提高的背景下,这种反复重构的代价几乎不可承受。

因此,解耦与开放的能力决定了成为企业的「生存能力」。通过模块化、可替换的数据与 AI 基础设施,企业才能在模型更替、技术跃迁时实现平滑升级,既保持系统稳定,又持续吸收新能力,将技术不确定性转化为长期竞争力。

在 AI 时代,模型会不断过时,真正具有长期价值的,只有数据资产与承载它的基础设施弹性。

图片

这使得多模态数据管理必须从「存得全、存得久」升级为「取得快、读得懂」的针对业务模式的系统性工程。

我们观察到火山引擎多模态数据湖有一个非常有意思的理念。

其提出了「乐高式」可组合底座的观点,与其他云厂商的解决方案大相径庭。这种方式支撑企业以乐高积木般灵活、高效的方式,自主构建上层应用与智能体。

在这种框架下,企业可以根据现有的技术情况,选择渐进式的解决方案,同时可以模块化设计数据与智能架构,结合自身业务来进行组合式的升级,方案完全「量身定做」。

图片

从行业视角看,这一设计理念呼应了企业长期的 AI 战略 —— 让数据基础设施具备持续演进的能力,使企业在快速迭代的技术环境中,始终拥有自主调整与进化的空间。

目前火山的多模态数据湖,已经在智驾、游戏、传媒等多个行业落地。

  • 在某智驾企业的模型训练中,该方案可在 150–200 毫秒内完成 12 亿级别数据的「以图搜图」,性能提升 20 倍以上;

  • 某游戏企业在 AI NPC 模型训练过程中,音视频数据加工效率提升 50%

  • 应用于某头部传媒企业的媒资平台后,其内容生产与运营效率提升 90%

这些实践表明了采用多模态数据湖的必要性,同时也揭示出:AI 和 Agent 时代,用好多模态数据,可以激发出推动企业智能化跃迁的潜能。千行百业,都值得以此为起点,探索数据基建的更多可能,拥抱智能时代的风口。

结语

当下,企业正站在一场深刻技术变革的洪流之中。

AI 落地的前提,是多模态数据处理走向标准化与智能化。对坚定投身于 AI 浪潮的企业来说,在见证大模型所带来的能力飞跃的同时,更应关注到多模态数据管理作为基础设施的必要性。

构建能够支撑未来十年 AI 发展的数据基座,是这场变革中最应锚定的重心。

对企业而言,多模态数据湖的意义远不止步于一套数据架构。它是承载 AI 应用持续演进的土壤,是企业在技术红利窗口期建立确定性的基础。

是的,正如我们已经在文中多次强调的那样:多模态数据湖已经不再只是可有可无的优化项,而是企业进入智能赛道的必选项。

它赋予企业的,是在 Agent 时代中「以静制动」的底气,也是在变革中持续进化的能力。