标签 多模态大模型 下的文章

整理 | 华卫

 

1 月 28 日,智源多模态大模型成果"Multimodal learning with next-token prediction for large multimodal models(通过预测下一个词元进行多模态学习的多模态大模型)"上线国际顶级学术期刊 Nature,预计 2 月 12 日纸质版正式刊发。

 

Nature 编辑点评这项研究:Emu3 仅基于预测下一个词元(Next-token prediction),实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

 

https://www.nature.com/articles/s41586-025-10041-x

 

2018 年以来,GPT 采用 “预测下一个词元(Next-token prediction,NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。而多模态模型主要依赖对比学习、扩散模型等专门路线,自回归路线是否可以作为通用路线统一多模态?一直是未解之谜。

 

智源这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,对于确立自回归成为生成式人工智能统一路线具有重大意义。在后续迭代的 Emu3.5 版本,确实证明了这一范式的可拓展性,并达成预测下一个状态(Next-state prediction)的能力跃迁,获得可泛化的世界建模能力。

从语言到多模态:“预测下一个词元”的潜力与未解之问

“预测下一个词元”彻底改变了语言模型,促成了如 ChatGPT 等突破性成果,并引发了关于通用人工智能(AGI)早期迹象的讨论。然而,其在多模态学习中的潜力一直不甚明朗。

 

在多模态模型领域,视觉生成长期以来由结构复杂的扩散模型主导,而视觉语言感知则主要由组合式方法引领 ,这些方法通常将 CLIP 编码器与大语言模型(LLMs)结合。尽管已有一些尝试试图统一生成与感知(如 Emu 和 Chameleon),但这些工作要么简单将 LLM 与扩散模型拼接在一起,要么在性能效果上不及那些针对生成或感知任务精心设计的专用方法。这就留下了一个根本性的科学问题:单一的预测下一个词元框架是否能够作为通用的多模态学习范式?

 

就此,智源提出了 Emu3,基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的 Transformer。这一架构证明了仅凭“预测下一个词元”,就能够同时支持高水平的生成能力与理解能力,并且在同一统一架构下,自然地扩展到机器人操作以及多模态交错等生成任务。此外,研究团队还做了大量消融实验和分析,验证了多模态学习的规模定律(Scaling law)、统一离散化的高效性、以及解码器架构的有效性。

 

Emu3 架构图

 

实验显示,Emu3 在生成与感知任务上的整体表现可与多种成熟的任务专用模型相媲美:在文生图任务中,其效果达到扩散模型水平;在视觉语言理解方面,可以与融合 CLIP 和大语言模型的主流方案比肩。此外,Emu3 还具备视频生成能力。不同于以噪声为起点的扩散式视频生成模型,Emu3 通过自回归方式逐词元(token)预测视频序列,实现基于因果的视频生成与延展,展现出对物理世界中环境、人类与动物行为的初步模拟能力。

从模型到范式:Emu3 对多模态学习的启示

不同于 Sora 的扩散式视频生成,Emu3 采用纯自回归方式逐词元(token) 生成视频,能够在给定上下文下进行视频延展与未来预测,并在文本引导下生成高保真视频。此外,Emu3 还可拓展至视觉语言交错生成,例如图文并茂的菜谱生成;也可拓展至视觉语言动作建模,如机器人操作 VLA 等,进一步体现了“预测下一个词元”的通用性。

 

智源研究团队对相关研究的多项关键技术与模型进行了开源,以推动该方向的持续研究。其中包括一个稳定且通用的视觉分词器(tokenizer),可将图像与视频高效转换为离散词元来表示。同时,研究通过大规模消融实验系统分析了多项关键技术的设计选择,例如:分词器(tokenizer)码本尺寸、初始化策略、多模态 dropout 机制以及损失权重配置等,揭示了多模态自回归模型在训练过程中的动态特性。研究还验证了自回归路线高度通用性:直接偏好优化(DPO)方法可无缝应用于自回归视觉生成任务,使模型能够更好地对齐人类偏好。

 

研究有力表明了预测下一个词元可作为多模态模型的核心范式,突破语言模型的边界,在多种多模态任务中展现了强劲性能。通过简化复杂的模型设计、聚焦统一词元,该方法在训练与推理阶段均展现出显著的可扩展性,为统一多模态学习奠定了坚实基础,有望推动原生多模态助手、世界模型以及具身智能等方向的发展。

 

在此研究基础上,悟界·Emu3.5 进一步通过大规模长时序视频训练,学习时空与因果关系,展现出随模型与数据规模增长而提升的物理世界建模能力,并观察到多模态能力随规模扩展而涌现的趋势,实现了“预测下一个状态”的范式升级。

图片
当前,AI for Science(AI4S)正从实验验证阶段快速迈向产业化落地的关键时期,从行业发展趋势看,AI 4S推动了研究机构"各自为政"的分散研发模式向"平台式构建"的模式演进,平台化的模式通过整合多模态大模型与自动化实验能力,能显著加速研发迭代进程。

但在AI赋能实际推进过程中,前沿研发领域仍面临多重瓶颈:生物、化学、物理等学科数据标准割裂,传统算法难以实现跨域关联;特定领域专家的经验无法有效转化为AI可理解的决策逻辑;另外,研发流程中从算法预测到实验验证环节仍依赖人工。

尤其在很多需要高度定制化的应用场景中,传统研发模式越来越可预见效率瓶颈。以化工行业为例,专用化学品等强定制化产品需要根据客户的具体应用和性能要求,进行个性化开发,传统依赖高经验技术人才"一对一"定制的方式在应对多样化需求时存在局限。

在这一背景下,枫清科技通过AI4S智能体体系与科研工作流协同,提供应对复杂参数组合和多样化目标的工具,让科研人员在模型的辅助下,降低试错成本,将精力聚焦于更高价值的创新构思与关键决策。

在业内人士看来,现阶段AI4S已应用于几类高价值场景,并创造了可验证的收益:一是在研发周期长、成本高的领域,AI的早期应用能快速验证技术路线,显著提升投资回报率;二是面对海量数据与复杂计算任务时,AI的高效处理能力可突破人工瓶颈;三是在需要探索高维设计空间(如微观结构、多元素组合)的场景中,AI能通过多模态学习与并行计算,快速筛选最优方案。而枫清科技AI4S智能体平台融合了文本、数据、知识图谱等多模态信息处理能力,为上述复杂科研场景攻克底层技术瓶颈,并提供从探索、设计到验证的全面支持。

在实践中,科研人员需要从海量文献、专利和多源异构数据中提取有效信息,而复杂科学问题的研究往往需要多轮迭代优化。枫清科技的智能体技术已展现出高效率、强数据处理能力与精准的微观结构设计能力。例如,在材料科学中,智能体可通过模拟不同元素组合的材料性能,优化新材料设计流程;在生物医药领域,则能加速分子筛选与结构预测。 

该智能体体系以"通用智能体+场景智能体"的双层架构,实现了从科研基础能力支撑到垂直场景的全面覆盖。通用智能体聚焦科研中的高频共性需求,如文献智能处理、专利解析与数据挖掘,通过自然语言交互提升知识获取效率;场景智能体则深入化工、生物医药等专业领域,结合行业知识解决特定问题。

在该架构下,智能体能够通过模型定向指引研究方向,并基于数据反馈持续优化算法。此外,智能体系统可嵌入"设计执行验证"的闭环中,帮助研究人员快速迭代方案。

同时,在数据层面,枫清科技智能体平台强调对科学数据的深度治理与复用,通过构建标准化、高质量的数据处理流程,整合多源异构数据,为科研创新提供更可持续的数字基座。通过自动化平台准备并提供数据,科研人员可在可靠的数据基础上开展场景开发,加速突破。

未来,通过共享不同领域的底层知识体系、优化人机协同机制,枫清科技智能体将成为支撑多学科交叉创新的基础工具,助力科研路径实现从"经验试错"到"理性设计"的跃迁。

大规模训练的效率桎梏,本质是参数管理与训练进程的协同断层—传统参数服务器的中心化架构,将参数存储、更新与节点训练强拆分,导致跨节点参数同步时的语义损耗、通信延迟与资源错配,即便堆砌硬件算力,也难以突破“同步等待”的隐形天花板。参数服务器替代架构的核心革新,在于打破这种拆分逻辑,构建“参数协同重构”体系,通过“语义锚定”机制让参数管理深度融入训练任务的核心流程,实现资源调度与语义需求的动态适配。在多模态大模型训练的实际场景中,不同模态数据的训练节奏、参数特性存在显著差异:文本模态的词嵌入参数需要高频微调以捕捉语义细节,图像模态的卷积核参数则更依赖稳定迭代以保持特征提取能力,音频模态的时序参数需兼顾局部上下文与全局连贯性。替代架构通过实时解析各模态的训练语义,为不同类型参数定制差异化同步策略—文本模态的细粒度参数采用“局部实时更新+全局增量同步”模式,每完成一个批次训练即更新本地参数,每隔固定迭代轮次与全局节点对齐核心差异;图像模态的粗粒度参数采用“批量聚合更新”模式,积累多个批次的梯度后集中同步,减少通信频次;音频模态的时序参数则通过“语义关联同步”,仅在关键时序节点同步关联参数,避免冗余传输。同时,架构将参数划分为“核心语义参数”与“辅助适配参数”,核心参数(如模型主干网络权重)通过分布式共识协议保障全局一致性,辅助参数(如局部任务适配层参数)由各节点自主优化,仅在训练末期进行轻量化校准。这种基于语义的参数管理逻辑,让参数同步不再是训练流程的“附加负担”,而是与训练任务同频共振的“协同环节”,从根源上解决了传统架构中“一刀切”同步模式带来的效率浪费,让大规模训练的效率提升建立在语义适配与资源优化的双重基础上。

内存资源的动态分层与智能预载机制,是替代架构突破参数服务器内存瓶颈的核心支撑,传统参数服务器采用集中式内存存储所有参数,不仅导致热点参数访问时的总线拥堵,还造成大量冷参数长期占用宝贵内存资源,形成“忙闲不均”的内存利用困境。替代架构通过“参数语义画像”技术,重构全域内存的分配与调度逻辑,让内存资源精准匹配参数的访问特性与训练需求。参数语义画像技术会从多个维度实时追踪每个参数的动态特征:访问频率(每轮训练的调用次数)、生命周期(从初始化到稳定收敛的迭代周期)、语义关联度(与其他参数的协同优化依赖关系)、更新敏感度(梯度变化对参数性能的影响程度)。基于这些画像数据,架构构建“本地高速缓存-节点共享内存池-分布式存储”三级内存架构,实现资源的动态流转。在超大规模预训练的全流程中,内存架构会根据训练进程实时调整:训练初期,模型参数多处于初始化阶段,访问频率低且语义关联松散,架构将其集中存储在分布式存储系统,仅将当前训练批次所需的局部参数预载至共享内存池,避免内存浪费;随着训练推进,部分核心参数(如注意力机制权重)成为高频访问热点,自动迁移至各训练节点的本地高速缓存,通过缓存一致性协议保障节点间数据同步;同时,基于参数语义关联度分析,提前预载与热点参数协同优化的辅助参数,比如在更新Transformer层的多头注意力参数时,同步预载对应的层归一化参数,减少参数访问时的等待延迟。此外,架构引入“智能淘汰机制”,对共享内存池中长时间未被访问的冷参数进行优先级降级,释放内存空间分配给新的热点参数,而分布式存储系统则通过数据分片与冗余备份,保障冷参数的安全存储与快速调用。这种动态分层的内存管理逻辑,并非简单的“冷热分离”,而是基于参数语义与训练进程的深度适配,让每一份内存资源都能发挥最大价值,彻底解决了传统架构中内存静态分配导致的供需错配问题,为大规模训练提供稳定高效的内存支撑。

跨节点通信的去中心化语义路由设计,颠覆了参数服务器的星形通信拓扑,传统架构中所有参数同步都需经过中心节点中转,不仅导致中心链路成为通信瓶颈,还存在单点故障风险,跨地域、跨集群训练时的网络延迟更是进一步放大了这一问题。替代架构通过构建“通信语义拓扑”,实现去中心化的动态链路优化,让参数同步链路与训练任务的语义需求、网络状态深度适配。通信语义拓扑的核心逻辑,是基于三个维度动态构建通信集群:参数语义关联度(参数是否属于同一模型模块、是否参与同一语义任务)、节点地理分布(物理机房位置、网络链路距离)、网络带宽实时状态(链路吞吐量、延迟、丢包率)。在实际的跨地域分布式训练场景中,架构会自动将同一地域、网络条件优越且处理同类语义任务的训练节点划分为局部通信组,组内节点通过低延迟私有协议实现细粒度参数同步,比如处理图像分类任务的节点组内,卷积层参数的同步延迟可控制在毫秒级;而不同地域的通信组之间,不再传递完整的参数数据,而是通过“语义摘要”技术,将海量参数差异压缩为核心语义特征—例如,将多层神经网络的权重更新转化为特征空间的梯度方向向量,仅传递向量核心信息,使跨地域通信的数据量减少90%以上,大幅降低带宽消耗。同时,通信链路具备动态自愈能力,架构实时监控每条链路的网络状态,当某条链路出现拥堵或故障时,自动触发备用链路切换,且切换过程中通过“语义缓存”技术临时保存未同步的核心参数,避免数据丢失或一致性破坏。此外,针对不同类型的参数同步需求,架构支持多协议动态适配:核心语义参数的同步采用高可靠性协议,保障数据一致性;辅助适配参数的同步采用高吞吐量协议,提升传输效率。这种去中心化的语义路由设计,让通信链路从“固定中转”转变为“动态最优”,既解决了传统架构的瓶颈问题,又实现了通信效率与网络状态、语义需求的精准匹配,为大规模分布式训练提供稳定高效的通信支撑。

参数优化的分布式协同与智能分流机制,是替代架构提升训练效率的核心逻辑,传统参数服务器采用“集中收集-统一更新-广播下发”的静态流程,参数更新与训练任务完全串行,导致训练节点在等待参数更新时处于闲置状态,形成“训练-等待-再训练”的效率浪费。替代架构通过“参数优化语义分流”,将参数更新任务与训练进程深度融合,实现并行化协同优化。这种机制的核心的是基于训练任务的梯度变化趋势,动态拆分参数优化任务:“局部快速优化”聚焦当前批次数据的即时梯度特征,由各训练节点自主完成,无需等待全局同步,例如在处理局部特征明显的数据时,节点可自主调整适配层参数,快速适应数据分布;“全局协同优化”则聚焦参数的长期稳定性与全局最优性,通过分布式投票协议整合各节点的优化成果,例如模型主干网络的核心权重,需综合所有节点的梯度信息进行更新,确保模型整体性能。在大规模微调场景中,架构会根据训练数据的分布特性动态调整优化策略:当数据分布均匀时,加大局部快速优化的权重,延长全局协同周期,减少通信开销;当数据分布异质(如不同节点处理的数据集领域差异较大)时,自动提升全局协同强度,通过语义共识算法消除各节点的优化偏差,避免模型过拟合。此外,替代架构引入“参数优化预测”模型,基于历史优化数据(如过往迭代的梯度变化、参数更新幅度、模型性能提升曲线),预测下一轮参数更新的方向与幅度,提前为各节点分配针对性的优化任务—例如预测某类参数下一轮梯度会显著下降,提前通知节点减少该参数的更新步长。这种预测驱动的优化模式,让参数更新与数据训练并行执行,节点在处理当前批次数据的同时,即可同步进行下一轮参数的预优化,彻底打破了传统架构的串行流程,将参数优化的时间成本转化为并行开销。同时,架构支持优化策略的动态迭代,通过实时监控模型性能指标(如损失值、准确率),自动调整局部与全局优化的比例、预测模型的参数,确保优化策略始终适配训练进程,实现大规模训练效率的持续提升。

生态工具链的语义适配与无缝迁移技术,是替代架构落地普及的关键保障,传统参数服务器长期主导大规模训练生态,多数深度学习框架、训练工具均基于其中心化逻辑设计,导致替代方案面临迁移成本高、兼容性差的问题—开发者需大幅修改训练代码、调整训练流程,才能适配新架构,这成为制约替代方案推广的重要障碍。替代架构通过构建“语义适配中间层”,实现与现有训练生态的无缝对接,最大限度降低迁移成本。语义适配中间层的核心功能,是解析现有训练框架的参数交互语义,将其转化为替代架构的内部协同协议,无需修改训练代码即可实现架构迁移。例如,对于主流深度学习框架,中间层会自动识别其参数初始化、梯度计算、权重更新的核心逻辑:当框架调用参数更新接口时,中间层会将其映射为替代架构的“局部优化+全局协同”流程;当框架需要读取全局参数时,中间层会通过分布式共识协议获取最新全局参数,并返回给框架,整个过程对开发者完全透明。同时,中间层支持多框架自适应适配,针对不同框架的语义差异(如部分框架的梯度累积策略、优化器接口设计不同),自动调整映射规则,确保适配的兼容性与稳定性。为了帮助开发者快速上手,替代架构还提供“语义调试工具”,该工具可实时可视化三大核心维度:参数同步的语义一致性(各节点参数的差异程度、同步延迟)、内存分配的合理性(各层级内存的使用率、参数迁移效率)、通信链路的效率(链路吞吐量、延迟分布、故障切换次数)。开发者通过工具可快速定位优化瓶颈,例如发现某类参数的同步延迟过高,可通过调整其语义类型(核心/辅助)优化同步策略;发现共享内存池使用率过低,可调整参数预载阈值提升资源利用率。此外,架构还提供“迁移向导工具”,根据开发者的训练任务类型(如预训练、微调、多任务训练),自动生成最优迁移方案,包括参数语义标注建议、内存架构配置、通信策略选择等,进一步降低迁移门槛。这种生态适配策略,既保护了开发者在现有训练流程中的技术投资,又让替代架构的效率优势得以充分发挥,为大规模应用奠定了坚实基础。

训练范式的语义驱动转型,是替代架构对大规模训练的深层革新,传统参数服务器主导的训练范式以“参数集中管理”为核心,开发者需花费大量精力手动协调参数同步频率、内存分配策略、通信链路配置,不仅增加了开发复杂度,还容易因参数管理不当导致训练效率低下或模型性能受损。替代架构将“语义驱动”作为核心设计理念,彻底重构了大规模训练的核心逻辑,让训练流程围绕参数的语义属性自动优化,实现“定义语义即优化架构”的全新范式。这种范式转型要求开发者从“底层架构调度者”转变为“任务语义定义者”,核心操作仅需三步:一是标注参数的语义类型(如核心语义参数、辅助适配参数),明确参数在模型中的核心作用;二是定义参数的关联关系(如哪些参数属于同一功能模块、需要协同优化),为架构提供协同依据;三是设置参数的优化优先级(如核心参数优先同步、高敏感度参数优先更新),指导架构的资源分配。在复杂任务组合训练场景中,这种范式的优势尤为明显:例如在多任务联合训练中,开发者仅需定义各任务的参数语义边界(如任务专属参数、共享参数),架构便会自动构建差异化的训练策略—任务专属参数采用“局部优先优化”,保障任务特异性;共享参数采用“全局协同优化”,确保任务间的一致性;同时根据任务间的语义关联度,动态调整参数共享比例,当任务语义相似度高时,提升共享参数权重,反之则降低,避免任务间的干扰。这种范式转型不仅大幅降低了开发者的操作复杂度,更让大规模训练的效率提升从“被动优化”转向“主动适配”—架构能够根据参数语义自动调整内存分配、同步策略、通信链路,无需人工干预即可实现资源的最优配置。

合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景

0%
icon展开列表
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
今天
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
今天
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
今天
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
今天
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
01月13日
img
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
01月13日
img
一个模型统一4D世界生成与重建,港科大One4D框架来了
01月13日
img
端到端智驾的算力困局,九章智算云这样破局
01月12日
img
真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线
01月12日
img
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
01月12日
img
清华等团队用AI驱动百万倍速药物筛选,一天内十万亿次扫描的超高速虚拟平台
01月12日
img
2026年,大模型训练的下半场属于「强化学习云」
01月12日
img
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤
01月12日
img
AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房
01月12日
img

合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景

随着人工智能(AI)产业进入“落地为王”的新阶段,AI技术与多元化场景的融合成为行业焦点。近期,上海合合信息科技股份有限公司(简称:合合信息,股票代码:688615.SH)集中发布了系列基于多模态大模型的创新产品,覆盖AI教育、AI健康管理、AI Infra(AI 基础设施)、AI Agent应用等多个领域,展现了文本智能技术与垂直场景结合的创新潜力,为AI商业化落地提供了新思路。


解锁文档服务、教育、健康管理“AI玩法”


当前,AI大模型发展正从通用能力向行业纵深落地演进,在通用文档处理领域,合合信息旗下产品扫描全能王推出“CS-AI一站式智能化文档解决方案”,实现从影像数字化向文档全周期智能服务升级。CS-AI覆盖了扫描、阅读、编辑和学习等核心场景,可自动修复图像质量问题,实现智能重排文档、优化排版。据扫描全能王产品团队介绍,依托在文档解析、版面还原上的技术优势,CS-AI预计将在跨境电商、出境游、专业文档翻译等市场中展现强劲的出海潜力。

descript

图说:扫描全能王“CS-AI一站式智能化文档解决方案”功能一览


依托多模态大模型文本智能技术,合合信息将AI能力拓展至教育、健康等垂直场景,将“千人千面”的体验变为现实。在教育领域,合合信息面向国内及海外市场,推出了AI错题学习管理工具“蜜蜂试卷”“QuizAI”,相关产品可智能识别手写体试卷,提供批改及“举一反三”等互动学习功能,实现个性化的“因材施教”。

descript

图说:“蜜蜂试卷”举一反三功能演示


在健康领域,合合信息推出AI饮食健康助手Appediet,用户通过拍照即可识别食物营养成分,生成热量报告。此外,Appediet还可结合用户健康数据定制饮食计划,并提供个性化营养分析报告、健康食谱推荐、定制饮食计划等服务,打造“人人可用的 AI 随身营养师”。


descript

图说:Appediet拍照识别食物营养成分


AI Infra、Agentic AI产品重塑数据处理流程


在企业级市场,Agent智能体的规模化落地正将AI Infra推至重要位置,高质量数据成为AI Infra 发挥效能的关键。据国际数据公司IDC预测,到2028年全球数据量将增长至393.8ZB,2023至2028年期间复合年均增长率达24.4%。目前,企业数据仍以碎片化、杂格式的形态沉淀在各类业务系统中,既拉低了模型训练效果,也限制了智能应用的落地深度。合合信息旗下智能文本处理企业级AI产品线TextIn发布了AI Infra 产品xParse,以AI赋能通用文档非结构化数据挖掘,释放数据价值,在知识库与Agent 落地、智能翻译、合规风险管理等场景中具备广阔的应用前景。


AI 与业务的深度融合是企业级智能体落地的方向。麦肯锡11月发布的2025年AI报告《The state of AI in 2025》提到,62%的受访组织(企业)已经在试验智能体类应用。TextIn打造了Agentic AI产品INTSIG Docflow,让产品能够像“数字员工”一样,对合同、票据、报表、招投标文件等高复杂度、非结构化文档进行解析、分类、抽取、审核、比对及跨系统业务流转,让AI深度作用于企业核心业务流程优化。


AI原生应用“一句话”开启商业数据智能新时代


本次发布过程中,面向商业数据智能分析领域,合合信息旗下启信慧眼推出了多项AI原生应用,让可信、可靠的数据真正作用于企业风险管控、营销与智能决策。


例如,“AI智能寻源”功能用AI自动拆解寻源品类的结构化参数,过滤信息杂质,让客户实现“一句话从3.4亿家企业中,找到合作目标”的便利,在具体使用场景中,帮助客户寻源拓客效率平均提升超过30%;“AI准入尽调”功能将行业“Know-How”与全盘数据相结合,给出“靠谱”的供应商合作建议;“AI关系洞察”功能用AI透视隐形风险,智能锁定关键风险,降低决策门槛及业务风险。


据悉,启信慧眼AI原生应用功能已在制造、医药、半导体、电子、能源、汽车、金融等多个行业中应用,日均风险扫描次数超过2000万次。


未来,AI技术正向着多模态融合、Agent 智能体规模化的方向加速突破。合合信息将持续深耕AI领域,推进多模态文本智能技术研发工作,不断拓宽技术的应用边界,探索AI应用落地的新机遇、商业化增长的新路径。



您好,这是过去24小时内最重要的人工智能与科技动态报告。

摘要

过去24小时,AI领域最引人注目的进展是中国发布了全球首个深海生境多模态大模型“DePTH-GPT”。同时,正在举行的2025世界互联网大会乌镇峰会成为科技公告的焦点,蚂蚁集团万卡国产算力集群的部署尤为突出。学术界和开源社区则持续关注AI Agent、RAG技术和模型可靠性。

模型发布 (Model Releases)

  • DePTH-GPT:全球首个深海生境多模态大模型

    • 发布机构: 由中国大洋事务管理局指导,自然资源部第二海洋研究所、之江实验室联合国内外多家科研机构共同研发。
    • 核心能力: 这是全球首个面向深海典型生境的多模态大模型,能够融合处理视频、地形、水动力、生物声学等多源异构数据,进行生境动态推演与智能决策支持。
    • 意义: 标志着深海研究从传统定性分析向可解释、可预测的智能认知新阶段迈进。该模型将面向全球科研机构与国际组织开放使用。
    • 来源: 来自gmw.cn网站。

最新论文 (New Papers)

  • 研究焦点:AI Agent、可靠性与可持续性

    • VeriCoT (arXiv:2511.04662): 提出一种神经符号方法,通过逻辑一致性检查来验证大模型的思维链(Chain-of-Thought)过程,以提升推理的可靠性。来自arxiv.org网站。
    • DR. WELL (arXiv:2511.04646): 探索基于具身大语言模型(Embodied LLM)的多智能体协作,通过动态推理和学习来完成复杂任务。来自arxiv.org网站。
    • Jr. AI Scientist (arXiv:2511.04583): 关注自主科学发现AI智能体及其风险评估,探讨AI在科研中的应用潜力与挑战。来自arxiv.org网站。

开源项目 (Open-Source Projects)

  • 趋势:AI Agent工作流与本地化部署

    • dify: 一个用于构建和部署AI Agent工作流的开源平台,持续在GitHub上保持热度,反映了市场对Agent应用的强烈需求。来自github.com网站。
    • 微舆 (Wei Yu): 一个新晋热门项目,定位为“人人可用的多Agent舆情分析助手”,旨在通过多智能体协作还原舆情原貌,辅助决策。来自github.com网站。
    • KTransformers: 近期备受关注的国产开源项目,通过与LLaMA-Factory联动,使消费级显卡也能进行超大语言模型的微调,大幅降低了AI技术的应用门槛。来自csdn.net网站。

重大公告与产品更新 (Major Announcements & Product Updates)

  • 2025世界互联网大会乌镇峰会

    • 蚂蚁集团部署万卡国产算力集群: 蚂蚁集团在会上透露,已部署万卡规模的国产算力集群,全面应用于安全风控等领域的大模型训练,训练任务稳定性超过98%。来自sina.com.cn网站。
    • GLM大模型获领先科技奖: 清华大学与智谱华章的“GLM大模型关键技术及规模化应用”项目获奖,表彰其在预训练架构和规模化应用上的成就。来自tsinghua.edu.cn网站。
    • 行业蓝皮书发布: 大会发布的报告指出,中国已成为全球人工智能专利最大拥有国,占比达60%,且“具身智能”成为全球主要经济体高度重视的方向。来自cctv.cn网站。