标签 AI推理 下的文章

摘要
随着自动驾驶技术从原型验证迈向规模化商用,研发范式正经历从“以算法为中心”向“以数据为中心”的根本性转变。海量、高维、多模态的道路采集数据,已不再只是测试过程中的副产物,而是驱动算法持续演进、提升系统安全冗余和泛化能力的核心生产资料。

然而,当前主流的数据处理模式仍以离线存储与批处理为主,数据在“采集—上传—存储—筛选—标注—训练—验证”之间流转缓慢,形成长周期、低反馈的闭环,逐渐成为制约自动驾驶技术迭代效率的重要瓶颈。

Redis 企业版作为一款面向实时与 AI 场景设计的数据平台,凭借其多模型数据结构、亚毫秒级访问延迟、内存计算能力以及 AI 原生扩展机制,为构建新一代“实时数据加速层”与“智能数据筛选平台”提供了坚实的技术基础。

本方案系统性阐述如何基于 Redis 企业版,完成从“数据存储与归档”向“数据理解与智能利用”的跃迁,构建一个能够加速算法创新、提升数据利用率、并在可控成本下实现规模扩展的自动驾驶数据闭环体系。


一、行业趋势与核心技术挑战
自动驾驶系统的成熟度,本质上取决于其数据闭环运行的效率与质量。当前行业普遍面临以下三类挑战:

1.数据规模爆炸与实时性不足
搭载多颗高分辨率摄像头、激光雷达、毫米波雷达与高精定位模块的测试车辆,在真实道路运行中每日可产生 TB 级甚至更高规模的原始数据。
在传统架构下,这些数据往往需要经过集中上传、对象存储落盘、离线处理后,才能被算法与标注团队使用,数据延迟以小时甚至天为单位,难以支撑高频、小步快跑式的算法迭代。

2.高价值“长尾场景”难以被及时发现
真正推动自动驾驶算法性能跃迁的,并非大量常规驾驶场景,而是占比极低却风险极高的长尾与极端场景(Corner Cases),例如:

  • 恶劣天气下的感知退化
  • 非标准交通参与者行为
  • 复杂施工、事故或临时交通组织变化
    在 PB 级数据湖中依赖人工回看或静态规则筛选这些场景,不仅效率低下,且高度依赖经验,成为研发效率的主要瓶颈之一。

3.多模态异构数据协同困难
自动驾驶数据闭环涉及多种数据形态:

  • 非结构化数据:视频、点云
  • 结构化数据:车辆 CAN / 传感器状态
  • 半结构化数据:标注信息、事件日志
  • 模型与版本元数据
    在传统“多系统拼装式”架构下,这些数据分散在对象存储、关系型数据库、搜索系统和消息队列中,跨模态联合查询与关联分析复杂且成本高昂,制约了数据价值的进一步释放。

二、Redis 企业版的核心价值定位
Redis 企业版并非仅用于缓存加速,而是一个面向实时数据与智能应用的统一数据平台(Real-Time Data Platform),在自动驾驶数据闭环中具备独特优势。

1.高吞吐、低延迟的数据流转能力
Redis 的内存计算架构可提供亚毫秒级读写延迟,适合承载高并发、高频率的数据流。

  • Redis Streams 提供持久化、有序的数据流模型与消费者组机制,可用于构建可靠的数据接入与分发管道
  • 在部分自动驾驶数据采集与处理场景中,Streams 可作为传统消息系统的轻量化替代或补充,显著降低端到端延迟与系统复杂度(具体取舍需结合吞吐规模与历史回溯需求评估)

2.多模型数据的统一承载能力
Redis 企业版原生支持多种数据模型:

  • JSON:车辆状态、标注与任务元数据
  • TimeSeries:高频传感器与车辆运行状态
  • Geospatial:轨迹、地图要素与空间查询
  • Vector:场景特征、感知结果向量化表达
  • Graph:数据、模型、标注、测试之间的关系建模
    这些能力使多模态数据得以在同一高性能平台内协同存储与联合查询,显著降低系统集成复杂度。

3.面向 AI 的原生计算与推理能力
通过 RedisAI 模块,可将训练完成的深度学习模型(支持 TensorFlow、PyTorch、ONNX 等主流格式)直接部署在 Redis 集群中,实现:

  • 数据就地推理(In-Data Inference)
  • 特征提取与初步场景理解的实时执行
  • 减少数据在系统间搬运与序列化开销
    这为实时智能筛选、在线预标注等能力提供了关键技术支撑。

4. 企业级可靠性与数据韧性
Redis 企业版提供完善的企业级能力,包括:

  • 持久化机制(RDB + AOF)
  • 跨可用区 / 跨地域的 Active-Active 架构
  • 自动故障转移与在线扩缩容
    确保关键路采数据与生产级服务具备高可用性与业务连续性。

三、总体技术架构:自动驾驶数据闭环的“智能中枢”
下图展示了以 Redis 企业版为核心的自动驾驶实时数据与智能筛选平台总体架构。
image.png
架构要点说明

  • 数据接入与预处理:通过 Redis Streams 接收车辆数据流,结合 RedisGears 在入库阶段完成轻量 ETL、数据校验与初步特征生成
  • 智能存储与索引:

    • 高频状态数据驻留内存
    • 特征向量支持相似度搜索
    • 多条件混合查询(时间、空间、语义、向量)
  • 自动分层存储:通过 Redis 企业版 Auto Tiering,将历史数据透明下沉至 SSD,在性能与成本之间取得平衡

四、典型应用场景与业务价值
场景一:实时长尾场景发现与预警
通过在数据流入口部署轻量化感知或场景识别模型,系统可在数据生成阶段实时识别潜在高风险或高价值场景,并自动标记、优先存储与推送。
价值体现:

  • 关键场景发现从“事后分析”变为“实时捕获”
  • 研发人员可更快聚焦真实风险点
    场景二:高效的训练数据供给与样本挖掘
    将清洗后、高价值的训练样本及其元数据作为热数据缓存于 Redis 中,为分布式训练集群提供低延迟数据访问,并支持向量化困难样本挖掘。
    价值体现:
  • 提升训练资源利用率
  • 缩短模型迭代周期
  • 改善模型在极端场景下的表现

场景三:全链路数据资产可追溯管理
利用 Redis Graph 构建数据、标注、模型与测试结果之间的关系网络,实现端到端的版本追溯与审计。
价值体现:

  • 提升研发过程透明度
  • 支撑 ASPICE、ISO 26262 等质量与安全合规要求

结语
在自动驾驶竞争进入深水区后,真正拉开差距的已不再只是单点算法能力,而是数据被理解、被利用、被反馈的效率与智能程度。
Redis 企业版通过将高速数据处理、多模型数据管理与 AI 原生计算能力融合于一体,为自动驾驶企业提供了一条清晰、可落地的路径,将海量数据从“负担”转化为可持续演进的“核心资产”,为迈向更高级别自动驾驶奠定坚实的数据基础设施。

本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

我们采访了智象未来联合创始人姚霆,他指出在多模态领域,深度 Scaling up 模型能力提升收益放缓,而广度 Scaling up 会带来更多惊喜,多模态能力也在重塑大模型推理过程。另外,2025 年的模型价格战倒逼厂商三大加速:研发新模型抢占短暂的版本优势、提升推理速度、升级高性价比架构降本。他认为,低价趋势 2026 年将延续,核心原因是市场远未饱和。结合公司情况,姚霆表示模型商业模式从卖 API、积分制转向“按结果付费”。下面是详细对话内容,以飨读者。

多模态大模型的 Scaling up

InfoQ:Scaling up 是否仍是最佳路线?

姚霆: 对于多模态大模型而言,Scaling up 有深度和广度。深度 scaling up 就是类似于单一多模态任务的纯粹模型参数 scaling up 过程,我们会发现这种 scaling up 下模型能力提升收益放缓,并不是指数级的增长,与之搭配的还需要高质量数据和架构的“Scaling up”,而且盲目扩增模型参数也会对推理 cost 带来极大地负担,所以我们在深度 scaling up 过程中除了模型性能之外更多地会去考虑训练和推理的 cost,期望达到极致的性能 - 效率平衡。

而广度 scaling up 指的是从垂域场景和商业化落地的视角下去看 scaling up,即不同多模态任务之间的 scaling up,我们发现这种广度上的 scaling up 会带来更大的惊喜,例如在联合架构中去实现多模态理解和生成任务的统一,以及视频生成和音频生成任务的统一,衍生出类似音画同步的特色。

InfoQ:MoE 架构为什么会成为 2025 年的主流架构?其在参数效率与推理成本间的平衡能力,是否彻底改变了大模型的开发与部署逻辑?非 MoE 路线的企业如何构建差异化竞争力?

姚霆: 稀疏 MoE 架构的一大优势是较高的推理效率,尽管其模型参数量很大,但在推理过程中只有部分参数被激活,这样既保持了高参数量带来的模型学习能力,也在部署推理过程中表现出较高的效率。

而对于非 MoE 架构,也就是参数稠密型的模型,虽然推理的性价比会比 MoE 架构低,但是对于垂域任务,稠密型模型由于总参数量更小,部署更加灵活,也可以体现出较好的效果。

多模态大模型的代表性发展

InfoQ:2025 年多模态能力取得了哪些飞跃性发展?Nano Banana Pro 代表的图片生成模型、OpenAI Sora、Google Veo 3 代表的视频生成模型,分别做了哪些优化得到了不错的效果?

姚霆:2025 年多模态大模型能力有几个代表性的发展:

  1. 音画同步生成,让视频从默片时代进入了有声时代;

  2. 主体参考的一致性,实现了从片段化到连贯叙事的转变,AI 漫剧因此迎来了井喷的爆发;

  3. 运镜表达、表情演绎,让视频生成更具备影视表达,从“形似”到“神似”。

Veo 3 就在音画同步上做的很出彩,而 Nano Banana Pro 则将主体参考一致性发挥到新的高度,因为都是闭源模型,所以只能猜测在技术上不会局限于单一的 DiT 架构,例如借助多模态推理和生成的统一(VLLM+DiT)实现更精准的多模态内容编辑,而将更多不同模态的 token(文本、图像、视频、语音等)融入到统一的架构中则能端到端实现类似音画同步的能力。

InfoQ:多模态能力是否会重塑推理?跨模态推理是否也成为必答题?预计推理能力的突破方向在哪里?

姚霆:2025 年 多模态能力已经在重塑大模型推理过程,从 DeepSeek OCR 中使用图片来进行长文本压缩,到 Nano Banana 中直接生成解题过程的图片,多模态能力已经成为大模型推理能力中不可或缺的一部分。

多模态数据往往能提供比纯文本数据更稠密、直观和具备逻辑关联的信息。目前多模态数据越来越多的引入,对于大模型结构、训练方法以及数据三方面都会带来新的挑战。其中,大模型结构要尽可能支持原生多模态的输入或者输出,对于模型的参数量上提出了更高的要求;训练方法上需要去平衡各种不同的任务,保证模型在不同任务上都达到一定的收敛程度;数据上则对数据的广度和精度上又有了进一步的要求,广度上需要尽可能涵盖需要的多模态推理任务,同时高质量精品数据可以在训练后期提升推理能力。

InfoQ:从语言模型到多模态模型,再到世界模型,这个演进的本质是什么?您认为世界模型未来发展趋势如何?

姚霆: 从语言模型到多模态模型,再到世界模型,演进的本质是“大模型对真实世界的建模能力升级”:语言模型是“理解人类符号”,多模态理解模型是“感知世界表象”,多模态生成模型则是“模拟世界表象”,而世界模型是“掌握物理规律和因果关系并与之交互”,这也是通往 AGI 的必经之路。

因此,世界模型未来必将会在理解物理世界空间结构的同时,提升对物理规律和因果关系的刻画能力,而且通过与物理真实世界的交互实现从感知到决策的闭环。

“低价趋势肯定会延续”

InfoQ:2025 年模型价格战最关键的影响是什么?价格战倒逼厂商做了哪些架构演进?低价趋势在 2026 年是否会继续延续?

姚霆: 主要还是倒逼模型厂商去持续加速,一是加速研发新模型形成短暂的版本优势,二是加速模型的推理时间,时间就是金钱,三是加速模型架构的升级,引入性价比更高的架构设计来降低成本。低价趋势肯定会延续,因为市场还远没有饱和。

InfoQ:2025 年在 B 端和 C 端,都有哪些创新的商业模式出来吗?

姚霆: 创新的商业模式是很难的,所以我觉得更多是一些特色吧。

B 端和 C 端的界限越来越模糊,总体来说都是内容的生成者,真正的海量 C 端其实是内容的消费者,所以可以把两个端一起谈,商业模式的创新就是从售卖 API 提升到了售卖结果,以前 B、C 两端都是积分制,本质就是价值折算的积分,但是我们在不断探索按照结果来付费。

在移动端,我们也在突破过去 web 端复杂的积分逻辑对应的不同的会员等级,pro、ultra 等等,我们只会把功能区分为会员功能和非会员功能,然后按需充值即可,不会再纠结额度来觉得是否续费。

InfoQ:在您看来,2026 年大模型竞赛的核心是什么?您认为下一次“大模型代际飞跃”可能来自哪条技术路线?

姚霆:2026 年 大模型竞赛的核心,会从“技术能力”转向“价值落地能力”,类似于比拼“行业收入规模”和“客户留存率”。谁能更快将技术转化为行业实效,谁就能占据先机。

下一次“代际飞跃”很可能来自两个方向:

一是新颖的用户交互体验,随着基础原子能力目前逐渐饱和,2025 年 Agent 相关的应用出现了爆发式的增长,而 Agent 爆发的背后实际上代表了用户在认可大模型能力的同时又对于 AI 应用的交互体验提出了更高的要求,让大模型从单一的原子能力向完整解决方案提供者演变,一旦在用户交互方式、交互体验上跨越式提升,就会带来新的机遇。

二是专业级能力的大众化,目前大模型能力对于专业从业者来说已经达到一个很惊艳的程度,但是对于大众来说还是存在一些使用上的“困难”,这种困难可能来自于高昂的推理成本,编写专业级 prompt 的入门难度,以及缺乏大模型使用经验以及思维,而下一次飞跃可能就来自于如何拉近大模型对于大众的隔阂,出现真正的全民级 AI 应用。

 “模型和商业化一直会是两个最大挑战”

InfoQ:根据您的观察,科技公司 2025 年面临的压力如何?对此采取了什么样的应对措施?员工们的状态如何?

姚霆: 对我们这样的模型研发的公司来说,模型和商业化一直会是两个最大的挑战,这两个挑战汇集在一起就是对于底层模型架构的突破变成必选项,模型公司不能像过去那样不断的优化数据和推理来解决用户的问题,而是要在架构上做出突破,敢为人先。

非常开心的是我们的员工状态始终保持战斗状态,因为我们不要 80 ->85,而是要 120 分的创新和颠覆,同时模型团队也和业务团队有了更多的协同,这种协同对于模型团队的能力落地起到非常重要的作用。

InfoQ:经过一年竞赛,国内前沿 AI 水平取得了怎样的成绩?是否赶上了硅谷科技公司?

姚霆: 在多模态大模型这个赛道,我觉得国内外是百花齐放,例如我们在 2025 年 4 月的图像模型 HiDream-I1 开源打响了国内多模态生成式大模型登顶国际竞技场的第一枪,同时大家也开始重视了多模态生成式大模型的竞技场,这些过去只有硅谷科技公司的模型名单里开始快速出现国内的各家模型。

InfoQ:您认为,2026 年的技术赛点可能是什么?您会重点关注哪些行业和技术?

姚霆: 技术赛点从多模态模型架构上来说我觉得还有比较长的路,但是在应用上我觉得技术的赛点是多模态 agent 的成熟落地。2025 年上半年的 Manus,下半年持续火热的 vibe  coding 都是大语言模型的应用落地的典型案例,多模态模型看似比大语言模型更解决用户,但是生图生视频场景还没有出现真正技术应用上完全解决用户痛点的 agent,所以我们也会更关注多模态 agent 。