标签 多模态AI 下的文章

省流:这次测试最让我惊喜的是豆包,它已经不只是在 “读图”,而是在 “理解图”。通过逻辑推理发现 OCR 过程中的不合理并自我修正,这种空间推理能力确实走在了前面。


刚好有个工作,同事将一个纸质版表格拍给我(截图君一脸问号?)要转换为一个通知文本。
我太懒了就想让 AI 来完成,然后就发给了 gemini,发现效果有点点问题,就把什么 chatgpt、千问、豆包、阶跃星辰试了一遍。所以有这篇对比(水一贴)
首先是 gemini, 用的是 flash 思考,文字表达比较清晰,但是人数识别有问题,部分单位出现了错位。


接下来用了千问 APP 打开深度思考,文风没问题,人数识别也没问题,但是但是他居然对其中一个单位名字识别出现了幻觉,变成了一个不知道哪来的名字,满分直接变不及格。


刚好阶跃星辰昨天发了个新模型和新工具,想起来他牛逼吹得震天响,就看看他水平,用的是最新的 step3,结果裤子拔掉了,文风有问题,因为我提示词说了是发微信给个人。然后数字也有很多识别错位的情况,比 gemini 多。


然后是豆包,打开思考,唯一满分,有一个很惊艳我的地方,他在输出思考的时候发现识别出来的人数不合理,然后推理出应该是图片方向不对,然后他把图片表格摆正了再识别,最终输出了完全正确的结果。他把图片转置的过程展现了出来,惊艳到我了。唯一有点瑕疵是‘你好~’显得不正式。


最后是老朋友,完全没充值的 chatgpt 网页版,因为没地方选模型,不知道他用了啥。文风没啥问题,数字也没啥问题,但是但是他将 XX 市 XX 区识别成了 XX 市 AA 区,确实是无语。

对于一个主要做办公室工作的人,Vipe Coding 并不能很快改变什么,尤其是老旧的体制机制也没有完成转变,而且实际上并没有那么多单位实现了无纸化数据化办公,对于多模态的需求是非常刚需的存在。
这种细碎的工作使用 AI 辅助其实更能提高幸福感,希望 AI 越来越好,让我成为一个真正的懒汉。


📌 转载信息
原作者:
pigbird
转载时间:
2026/1/21 22:15:10

当 AI 长出身体,从能听会说到能看会动!Agora Convo AI World 拉斯维加斯之夜活动回顾

主笔:周森

审校:小炫

编辑:陈述

AI 不再仅仅是屏幕里的对话框,从能感知情绪的陪护机器人,到具备实时翻译能力的智能眼镜,AI 硬件化成为 CES 2026 呈现的重要趋势。

然而,在 AI 硬件热潮背后,行业也在迫切寻找一个答案:当 AI 试图长出「身体」,它需要怎样的底层架构与交互逻辑?

1 月 9 日晚,Agora(声网兄弟公司)联合 RiseLink(博通集成)在拉斯维加斯 The LOFT at Cabo Wabo Cantina 举办了 Convo AI World 论坛活动。

这场吸引了近 300 位全球科技精英参与的盛会,意在为这股 AI 硬件热潮指引风向。

两家企业不仅联合发布了基于 BK7259 芯片的 R2 全场景 AI 机器人开发套件,更首次系统性地提出了「物理 AI 的蓝图」。

△ 活动现场

具身 AI 的蓝图:从「工具」到「生命形态」

当前,行业正处于从文本模型、语音助手,迈向具备长期记忆、情绪理解与陪伴能力的 AI 伙伴的早期阶段。

Physical AI,本质上是具身智能(Embodied AI) 在消费级市场的落地呈现。AI 硬件不再是冰冷的电子零件,而是一种正在形成的数字生命形态。

由 Agora 与 RiseLink 联合提出的 Physical AI 蓝图,则试图为下一阶段的具身智能发展提供一套以体验为核心的设计方法论。

Tony Wang 在演讲中强调,Physical AI 的关键不在于堆砌硬件参数,而在于对话体验,即在复杂环境中理解语境、识别说话者并感知情绪的能力。

未来,AI 的核心语言将从单向的「指令」彻底转变为双向的「对话」,其商业模式也将从硬件单次销售,转向以订阅制为核心的长期服务。


△ 发言嘉宾:Tony Wang,Agora 联合创始人兼 CRO

张鹏飞博士进一步阐述道,Physical AI 时代的竞争已演变为协同效率的竞争。想要成为或持续保持第一,前提是与各自领域中已经处于领先位置的伙伴深度协作。

RiseLink 将通信、算力与功耗管理深度整合,配合 Agora 的 RTC 实时互动能力,构成了 Physical AI 的基础引擎:以低延迟保障交互的自然性,以高能效支撑长时间的在线陪伴。

△ 发言嘉宾:张鹏飞博士,RiseLink(博通集成) CEO

真实的 AI 堆栈:重构技术底层

当 AI 跨越数字边界、从云端软件形态进入物理硬件,底层的技术架构不应该只是「模型 + 数据 + 算力」,而需要从「原子」到「比特」实现闭环。

在论坛环节,嘉宾们探讨和回答了什么是「真实的 AI 堆栈」并达成共识:AI 是否好用,取决于设备能否通过物理感知快速理解语境并做出即时反应。

△ Panel: The Real AI Stack

圆桌主持人:Rin Yunis 博士,RiseLink 开发者体验负责人 (中)

圆桌嘉宾: (自左向右)

  • Max Fillin, WowCube CEO
  • Blake Margraff, Healthcare Technology 创始人
  • Amir Eitan, Nanit CPO
  • Lin Chen 博士, Wyze 首席科学家

在架构选择上,边缘(Edge)与云端(Cloud)的分工不再是二选一,而是基于延迟、隐私和成本的精密平衡 。对实时性和隐私敏感的能力更适合本地运行,而需要持续迭代、受成本约束的功能则更适合放在云端,工程实践应从验证出发,再逐步优化边云分配。

在消费级场景中,成本是最硬的约束条件。无论技术听起来多么具有颠覆性,如果缺乏可持续的单位经济模型(Unit Economics),产品终究无法走出实验室成为长期的生意。

同时,嘉宾们达成了一个感性却深刻的共识:AI 必须具备稳定的记忆和一致的行为 。一个今天热情、明天健忘的 AI 硬件,是无法真正建立起用户信任的。

△ 圆桌嘉宾:Max Fillin, WOWcube CEO(左)

这种信任的建立,在家庭与健康等强私密场景下尤为微妙。品牌的真实投入与清晰的价值传递,远比罗列一堆天衣无缝的安全技术术语更有效。 用户对 Physical AI 的接受度,往往并不取决于你背书了多少项加密协议,而取决于极其直观的交互体感,即:反馈要即时(低延迟)、过程要透明(可解释)、底线要有人守(人类参与)。

△ 圆桌嘉宾:Lin Chen 博士, Wyze 首席科学家

应用与具身落地:AI 硬件的场景爆发

Physical AI 最令人兴奋的特质在于它的多模态能力,以及在各个场景的迅速渗透。

△ WOWcube(左):将经典的 2x2 魔方形态与 24 个高分辨率屏幕相结合,通过扭转、倾斜和触觉交互,让玩家在立体的物理空间中体验沉浸式的游戏与应用。

△ Wyze(右上): 新款户外安防摄像头采用贴纸式安装方式固定在窗户上,可从室内进行户外录像

△ Nanit Pro(右下): 全功能婴儿监控系统,新增用于记录宝宝成长发育的功能

在医疗与健康领域,Physical AI 的价值在于它能实时处理复杂的生理信号,并以人类能理解、能接受的方式进行交互,从而在专业性与亲和力之间找到平衡。

Blake Margraff 指出,AI 在医疗中的落地绝非简单的自动化,而是要实现「自动化的患者监测与干预」。

△ 圆桌嘉宾:Blake Margraff,Healthcare Technology 创始人

Amir Eitan 则从育儿与家庭监测的角度补充道,真正的信任来自于 AI 能在特定场景下提供「可解释的反馈」。

△ 圆桌嘉宾:Amir Eitan,Nanit CPO

在 AI 陪伴的主题论坛中,各位嘉宾围绕 AI 陪伴产品在儿童与家庭场景中的实际落地展开话题。

△ Panel:Where AI Companionship Comes to Life

圆桌主持人:Patrick Ferriter,Agora 产品与市场高级副总裁(左下)

圆桌嘉宾:

  • 孙兆治,珞博智能 CEO(左上)
  • Angela Qian,灵宇宙 Luka AI 战略负责人 (右上)
  • Wayne Zhang, Dify Chief of Staff(右中)
  • Margo Wang,Lgenie &灵机一动 Agent 市场总监(右下)

稳定性和一致性是影响儿童用户对 AI 硬件接受度的关键因素。无论是故事内容、角色设定还是互动方式,一旦发生变化,都会显著影响使用体验。

低延迟是实时陪伴场景中的基本要求,是建立用户与产品情感连接的底线,响应过慢会直接削弱互动的自然感。

长期留存更具挑战性。吸引用户首次尝试与长期留存两者的差异性需要引起重视,长期留存更具挑战性,需要 AI 在持续使用中形成稳定的互动节奏和情感连接,而不仅是单次回应。

安全与责任方面需要引入多层防护思路,包括年龄匹配内容、实时干预机制、以及对儿童隐私的明确告知与限制。当 AI 承担陪伴角色时,如何在维持互动亲密性的同时设立清晰边界,仍是行业需要持续面对的问题。

△ Fuzozo 芙崽(左上):面向 Z 世代的 AI 养成系潮玩

△ Luka AI Cube(右上):灵宇宙小方机,儿童 AI 学伴

△ Lgenie (左下):小匠宠物陪伴小车 & 四足桌面机器人

△ 海马爸比(右下): AI 智能婴儿看护器

在产品演示环节,Diana Zhu 博士主持发布了 Choochoo AI 教育机器人。她提到,Choochoo 能够实现流畅的视觉与动作反馈,核心在于集成了 RiseLink 的高集成度 SoC 方案。该芯片在单颗硅片上整合了 Wi-Fi 连接、音视频处理与 AI 加速引擎,使得开发者能够绕过复杂的底层硬件调优,直接在 R2 套件上通过简单的 API 调用,实现原本需要高性能服务器才能支撑的「视觉-语言-动作」协同。

△ 发言嘉宾:Diana Zhu 博士,RiseLink 美国负责人

作为首款由 RiseLink 芯片与 Agora 对话式 AI 引擎深度驱动的教育机器人,Choochoo 不仅能听懂孩子的提问,更能通过视觉传感器「看」到周围的环境与孩子的动作,并做出相应的物理反馈。

△ Choochoo / 延伸阅读:对话式 AI 升级,不仅能看还能动

值得一提的是,作为 R2 全场景 AI 机器人开发套件标杆案例,陆吾智能旗下的桌面机器人「陆卡卡」也同步亮相。现场,陆卡卡展示了如何在紧凑的形态下实现高频、低延迟的 AI 交互。

△ 陆卡卡 / 延伸阅读:桌宠陆卡卡,一只「兵蚁」从二次元走进现实

在两款极具代表性的具身智能产品身上,我们看到,当 AI 拥有了强大的「大脑」(大模型)与灵敏的「身体」后,交互的边界已彻底被打破。两款产品的发布,共同定义了 AI 硬件的新高度,同时也标志着基于 Agora 与 RiseLink 合作的 AI 方案已经完全成熟。

在快闪分享环节,Joey Jiang 分享了打造 AI 原生硬件的最短路径,强调了模块化硬件对快速实现概念落地的意义。他指出,AI 原生硬件的开发不应再遵循「从零打样」的旧逻辑。通过 Seeed Studio 提供的模块化感知节点(如传感器、视觉模块)与 RiseLink 方案的即插即用式结合,硬件原型的验证周期可以从数月缩短至几周。这种「搭积木」式的开发模式,正是初创团队在 Physical AI 浪潮中抢占市场窗口期的最短路径。


△ 发言嘉宾:Joey Jiang,Seeed Studio 销售副总裁

Kim Jin 分享了打造糯宝 AI 机器人的背后故事。在研发背后,团队耗费大量精力对用户意图的深度理解。通过多模态感知,敏锐地捕捉视觉、触觉与语音背后的感性信息,实现拟人化的回复。这种交互不只是指令的执行,而是基于对用户意图的精准洞察,让机器人产生真实的「情感共鸣」。这标志着 Physical AI 真正跨越了工具属性,进化为懂得用户灵魂的情感伴侣。

△ Pophie (机器灵动) 产品负责人 Kim Jin

△ Maxevis(左):迈威儿童拍学机

△ Pophie 糯宝(右):桌面级情感陪伴机器人

隐私、授权与信任:环境式 AI 的底线

随着环境式 AI(Ambient AI)走向「始终在线」,隐私与信任已不再是合规问题,而是产品体验本身。用户真正担心的并非模型出错,而是设备在「不被察觉的情况下」收集和使用数据。

△ Panel:When AI Is Everywhere: Redefining Data Privacy, Consent, and Trust

圆桌主持人:Ramana Kapavarapu,Agora 首席信息安全官 (CISO) & IT 运营负责人(中)

圆桌嘉宾:(自左向右)

  • Diana Zhu 博士,RiseLink 美国负责人
  • Joe Tham,Ellie 海马爸比联合创始人
  • Gibran Mourani,MiniMax 全球客户经理
  • 卜峥,Kaamel AI 联合创始人兼 CEO

△ 成立于 2021 年底的 MiniMax 刚刚宣布港股上市,成为从成立到 IPO 用时最短的 AI 公司。大家首先向 MiniMax 的 Gibran Mourani 道贺。

围绕隐私实践,嘉宾们形成了一个明确共识:说到做到、做到可见。

透明性: 相比冗长的隐私条款,产品应在交互层面清晰呈现系统是否在监听、收集了什么数据,以及用户如何即时控制这些行为。透明性体现在硬件指示、软件状态和使用流程中,比如用物理指示灯直观地告诉用户系统是否在监听。

边缘保护: 通过边缘计算最小化数据流动,让原始语音和视觉数据停留在本地,是保护隐私的最有效路径。对多数场景而言,无需上传云端、本地处理并仅传递必要信号,既有助于隐私保护,也降低了系统暴露面。

响应机制: 谈及安全事件响应,需要成熟、结构化的应对机制,而非临时决策。快速隔离、明确影响、及时修复与复盘改进,比短期业务考量更重要。过往大型数据泄露案例反复证明,延迟或回避只会放大长期损失。

真正可规模化的信任,来自硬件与软件的一致设计以及可实时验证的控制能力。认证和合规是基础,但只有当系统行为与承诺持续一致,用户对「无处不在的 AI」才会产生长期接受度。

△ 活动现场

AI 具身化不可挡!

纵观整场活动,我们可以从三个层面理解这场关于 Physical AI 的深刻变革:

技术本质: 从「挂载」到「具身」。 AI 不再是硬件外挂的一个功能,而是通过专用芯片和实时通讯协议,深度融合进硬件的神经系统。

交互范式: 从「指令」到「共生」。 当 AI 能够理解语境、感知情绪并拥有长期记忆,它就从一个「好用的工具」进化为一个「理解你的物种」。对话不再是手段,而是其存在的形式。

商业本质: 从「买断」到「订阅」。 物理 AI 的核心价值在于其随时间不断进化的能力。厂商卖出的不再是零件,而是长期的服务与情感陪伴。

在 Agora 和 Riselink 两家公司和来自人工智能、芯片和硬件、AI 算法,以及数字健康、家居安防、AI 陪伴和教育等领域的数十家 AI 软硬件企业代表和顶尖专家的背书下,AI 将跳出单纯的数字世界,开始在物理世界中,真正长出它的身体。■

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

过去一年,谷歌Gemini大模型授权业务迎来爆发式增长,撑起全球AI商业化的核心增长极。据财联社消息,Gemini API调用量同比翻倍至850亿次,企业订阅用户攀升至800万大关。从零售到数字创意,其灵活授权模式深度渗透千行百业,既重构谷歌AI营收结构,更重塑全球大模型商业化竞争格局。
image.png

增长源于技术与场景的双向驱动。

2025年推出的Gemini 2.5系列,以100万token上下文长度、TPU v5p架构优化为核心,Pro版本“Deep Think”模式强化复杂推理能力,Flash-Lite版则主打高性价比与低延迟。技术优势快速转化为商业吸引力,万兴科技将其赋能于Filmora剪辑软件,使创作效率提升70%,AI收入超6000万元,该产品还获Google Play全球推荐。

零售场景合作成为关键推手。

2026年初,谷歌与沃尔玛达成合作,接入商品库并推出通用商业协议(UCP),这套开放式标准实现“对话下单”全闭环,美国用户可在Gemini内完成购物全流程。该模式快速复制至Shopify、Target等平台,既推高零售场景授权需求,也对冲了OpenAI的竞争压力。

评析来看,这本质是“生态赋能+商业模式创新”的胜利。

谷歌采用“高端闭源+长尾开源”双轨策略,既向中小企业开放基础API,又以高端套餐提供增值服务,兼顾用户规模与单客价值,形成正向循环。同时,授权业务带动谷歌云Vertex AI使用量增长40倍,客户投入反哺全生态消费,构建协同壁垒。

热潮背后挑战并存。OpenAI、Anthropic加速布局授权生态,赛道同质化竞争加剧。此外,跨区域数据法规差异、模型版权纠纷等问题,仍是全球化扩张的潜在风险。

Gemini授权业务的爆发,标志着AI大模型从技术比拼迈入商业化深耕阶段。随着多模态能力迭代,授权模式将成科技巨头核心盈利点。未来,平衡技术领先性与合规性,将决定其赛道地位,而其双轨生态策略也为行业提供了可借鉴的落地范本。

今年的 CES,中国硬件又一次成为主角。活跃在拉斯维加斯展台上的诸多出海产品,背后依托的是深圳的研发效率与供应链能力,而其智能化核心,则越来越多建立在以 Qwen 为代表的多模态、全尺寸的大模型基础上。

与沙漠赌城的 CES 同期,在深圳蛇口,阿里云也举办了一场智能硬件展。这场展会面向公众免费开放,选址于本地居民日常散步、观海和看展的滨海文化地标,却意外成为 AI 硬件从实验室走向真实市场的缩影。1000 余款智能硬件在这里集中亮相,其中超过 200 款与 CES 同款甚至首发。这里既有来自北京、杭州的创新团队,也有来自义乌、华强北等产业带的制造与渠道力量——他们对技术趋势的嗅觉,向来快过任何市场报告。

技术验证与市场反馈在同一空间同时发生。在这里你可以听到合作方直接询价“多少钱,做 OEM 吗,能做多少套”,也可以看到消费者直接下单,把 399 元的 AI 玩具带回家。许多普通家庭第一次在这里集中体验到能对话的毛绒玩具、教用户跳舞的镜子、能翻跟头的机器狗,和具备实时提醒能力的 AI 眼镜。

早在 2024 年云栖大会上,阿里云董事长吴泳铭就明确指出,未来 AI 最大的想象力会来自于物理世界:“我们不能只停留在移动互联网时代去看未来,深层次 AI 最大的想象力绝对不是在手机屏幕上做一两个超级 APP,而是接管数字世界,改变物理世界。”

但在这轮 AI 硬件浪潮中,阿里云没有选择去做终端硬件的制造者,而是以软硬一体的融合理念,向产业提供底层模型能力、云基础设施与生态支持。

数据显示,通义大模型的多模态能力已深度赋能超过 15 万家智能硬件厂商。

从雷鸟的 AI 眼镜、听力熊的儿童 AI Pin,到优必选机器人、趣丸科技的生成式 AI 吉他,这些走进全球家庭的产品背后,都能看到以通义为代表的阿里云基础设施的支撑。而它们从概念到量产、从深圳到世界的惊人速度,也再次印证了深圳这座“硬件硅谷”在研发、供应链与商业化效率上的独特优势。

For everyone, by everyone 的 AI 硬件

逛完阿里云通义智能硬件展,一个强烈的感受是,这是我经历过为数不多,能让普通人玩得开心、让创业者看到机会、让厂商验证商业模式,同时清晰传递主办方战略意图的展会。

阿里云租下深圳海上世界文化艺术中心三层空间,用一种近乎“生活化”的方式,向公众展示:AI 能长在玩具里、眼镜上、健身镜中,甚至成为家庭一员的日常存在。向企业展示:你能快速依托阿里云的生态,快速做出能进入全球家庭的产品。

展会围绕两条主线展开:一是呈现阿里云的底层能力,二是展示其赋能下的千款智能硬件成果。

一楼以“智能中枢”为核心,展示通义大模型的能力:观众上传一张照片,就能生成一段短视频;走过一段互动迷宫,便能直观感受多模态 AI 如何理解图像、语音和动作。

智能中枢周围环绕着“创造有 AI”“生活有 AI”“AI 实训营”等主题区,OPPO、理想、影石等品牌在此展示手机、智能座舱和 AI 影像设备,而像趣丸科技的 AI 吉他、Looki 这样的新奇产品,则让人看到 AI 如何重塑音乐、娱乐等日常互动。

趣丸科技与阿里云合作推出的全球首款生成式 AI 吉他 TemPolor Melo-D,在通义大模型的支持下,重新定义了人与音乐的交互方式,提供了个性化的 AI 音乐创作体验。

三楼聚焦陪伴、健康与安防,专设义乌厂商展区;四楼覆盖家居、教育、健身等提效场景,华强北的硬件老板们也把“一米柜台”搬到了现场。

通义联合听力熊为青少年定制随身 AI 对话智能体,打造国内首款儿童 “AI Pin” Mooni M1,提供多种角色选择。经过通义千问大模型加持,用户的 AI 使用时长提升 40 分钟。

阿里云想让大家知道,AI 有能力在所有场景里带来更好的体验。它同时也呈现出一种可能——不管是软件应用还是硬件产品,每个人都可以在这个时代搭建些什么。

阿里云 AI 实训营的 Agent 硬件搭建小课堂

对于普通人来说,硬件展是一个游戏体验。孩子和 AI 毛绒玩具对话,年轻人跟着镜子学舞,有人让 AI 解读运势、推荐香水,还有中学生在阿里云 AI 实训营中搭建了自己的第一个交互硬件。我们这代人仍然处于有“AI 硬件”概念的时期,而对于下一代人来说,可能已经不存在“AI 硬件”。当生活总所有一切都有 AI,AI 之于人,阿里云之于硬件和应用产品,就是水之于人的存在。

对创业者和企业主而言,展会成了高效的信息源。有用户的直接提问和反馈,也有工程师在展位前递上简历。采购顾问带着非洲、拉美的客户穿梭其间,现场询价、谈订单。

TCL、影石、安克创新的案例,更是为想要入局 AI 硬件和出海的企业打气——依托阿里云全球全栈 AI 基础设施,大型制造企业可实现研发、服务、出海一体化,新锐品牌也能快速站稳全球舞台。

刚在 CES 获得 Best of Innovation 奖项的影石,依托 Qwen-VL 实现视频与图片的分类打标和场景识别,结合 Qwen-Plus 生成剪辑脚本,赋能全球百万视频创作者。

安克创新依托阿里云“全球一张网”,实现跨境资源调度与合规部署,核心系统互访提速 30%,并将 Qwen 与 Wan 深度融入语音助手、多模态交互等产品功能。

TCL 则基于通义大模型打造了半导体显示专家系统 X-Intelligence,支撑其全球研发体系。

同时,阿里云把义乌、华强市场这些产品背后的“制造和分发网络”呈现在大家面前。在他们的摊位上,你可以看到很多产品尽管“粗糙”,却仍然有市场。在很多欠发达国家,AI 硬件需要的不是精致,而是先以成本最低的方法被用上。很多义乌玩具、小 3C 产品的批发商,嗅到 AI 风潮后,已经在深圳有了自己的硬件工厂。华强科技生态园等孵化器,也开始重点招募 AI 硬件的创业公司。

正如阿里云智能集团通义大模型业务总经理徐栋所说:“这样一个平台(以通义多模态交互开发套件为代表的 AI 硬件赋能平台)是我们非常重要的业务的选择,我们需要更多贴近阿里云的智能硬件开发伙伴。很多场景是碎片化的,只有做更贴近实际的生产环节、消费环节,每个人对 AI 硬件的体验才能更深。

AI 硬件,正在成为 for everyone, by everyone 的日常现实。而阿里云的角色,不是站在台前造产品,而是站在幕后,让创新更快实现。

阿里云,在 AI 硬件变革前夜

AI 硬件从极客圈层走向大众日常,标志着市场已从“启蒙期”进入“挑剔期”。当用户开始为 AI 服务付费、并将设备融入日常生活,产品的成败就不再取决于功能数量,而在于能否持续兑现可感知的价值——这要求厂商必须拥有一套覆盖模型、工程、服务与生态的系统性能力。

AI 硬件,特别是在消费级市场,正经历着一场根本性的转型。从传统的联网设备到如今的“端侧智能体”,AI 不再只是硬件的附加功能,而是直接决定产品核心价值的引擎。这一转变的核心标志在于:AI 不再作为附加功能嵌入硬件,而是成为产品定义、体验构建与价值交付的底层引擎。

早期智能硬件以“连接+控制”为基本范式,其智能化主要体现在远程操作与数据回传;而新一代 AI 硬件则要求设备具备持续感知、上下文理解、自主决策与协同执行的能力,成为一个能在真实场景中与用户形成闭环互动的“智能体”。

这一转变正在重塑硬件的设计逻辑、用户的价值预期与厂商的技术路径。

用对 AI 硬件的认知早已超越“新奇感”,转而关注端到端体验是否流畅、可靠、有用。更重要的是,用户开始愿意为持续服务付费。例如按月订阅儿童 AI 陪伴内容,或为高级健身指导功能续费。这催生了“硬件+服务”的新商业模式,但也带来新挑战,如果 AI 不能提供可感知的显性价值,订阅就难以为继。

技术架构也随之重构。端云协同的逻辑发生了变化。之前的端云协同更多指向算力分工,即端上承载不了的算力放在云上,但现在的端云协同是指能力互补。安全、延时、功耗的问题必须在端上解决,而生态打通这些能力可能在云上做。同时,交互方式正走向“无感化”——不是让用户察觉不到 AI 存在,而是让使用门槛足够低,无需学习就能自然融入原有生活节奏。

然而,对大多数硬件厂商而言,这场转型并不轻松。模型迭代速度远超硬件研发周期,而一个产品往往需要组合多个模型才能实现完整功能,集成复杂度陡增。与此同时,Agent 架构、工具链和工程平台快速演进,传统硬件团队难以跟上软件层的节奏。更棘手的是,许多厂商擅长制造和渠道,却缺乏用户运营、数据闭环和订阅服务能力,难以构建可持续的商业模型。

面对这些系统性挑战,阿里云提供了 AI 硬件的全链路支持体系。

在基础设施层面,阿里云面向 AI 应用场景全面升级计算、存储与网络能力,为高并发、低延迟的智能硬件业务提供稳定底座。

在模型层面,通义大模型家族(包括 Qwen3、Qwen-VL、QwQ 等)全面开源,并提供闭源高阶版本,同时接入第三方优质模型,帮助厂商一站式、低成本调用全球先进 AI 能力。针对多模态交互场景,阿里云还推出专有优化模型,降低端到端语音和视频交互时延。

阿里云的模型能力,已经获得顶尖手机、汽车、具身智能、智能配件品牌的认可和验证:

  • 目前,全球 Top 10 手机厂商已都在使用阿里云的大模型能力。例如,OPPO 利用阿里云人工智能平台 PAI 对 Qwen 开源模型进行后训练,以支持其 AI 多场景应用;荣耀则联合阿里云百炼打造 VQA 端到端方案,图片细分场景识别率提升近 40%,延迟降低 30%。荣耀 Magic V5 接入飞猪旅行、高德地图两个垂直 Agent 两个月即斩获百万级用户好评。基于“模型+工程+生态”三位一体的战略,阿里云正持续加速手机行业的 AI 功能创新与规模化落地。

  • 理想汽车基于阿里云 MindGPT 大模型,整合高德、飞猪、支付宝等生态,实现全球首个“车机 AI 扫码支付”;

  • 雷鸟创新联合阿里云推出行业首个面向智能眼镜的 AI 大模型,意图识别准确率达 98%,搭载该模型的雷鸟眼镜出货量领跑 AR 行业。

    • 优必选的萌 UU 陪伴机器人,搭载通义千问与自研情感智能体“点灵”,且具有长期记忆

    特别值得注意的是,阿里云此次还推出了全模态智能交互开发套件,将上述能力封装为标准化工具。该套件适配 30 多款主流 ARM、RISC-V 和 MIPS 架构芯片,覆盖市面上绝大多数终端设备。未来,通义大模型还将与玄铁 RISC-V 实现软硬全链路协同优化,进一步提升在国产芯片上的部署效率与推理性能。

    这套开发套件不仅提供基础能力,还预置十余款 MCP 工具和 Agent,覆盖生活、工作、娱乐、教育等高频场景。例如,基于出行规划 Agent,用户可直接调用路线规划、旅行攻略、本地探索等功能。同时,套件深度集成阿里云百炼平台生态,支持开发者添加社区模板,或通过 A2A 协议兼容第三方 Agent,极大扩展了应用边界。

    无论是 OPPO、理想这样的品牌厂商,还是华强北的创客、义乌的出海团队,甚至“一人公司”,都能借助阿里云的解决方案快速验证想法、打造产品,并参与全球竞争。

    正是阿里云“基础设施先行”的思路,让展会上那些看似天马行空的产品,得以从概念走向量产。

    有趣的是,阿里云大模型能力的升级节奏,与 AI 硬件的集中爆发高度同步。

    2023 年 8 月,阿里云开源 Qwen-VL 视觉语言模型,首次让中小厂商能免费调用工业级多模态能力;2024 年,Qwen-Audio、Qwen2-VL 等模型集中发布,补齐了语音、图像与文本融合交互的关键拼图;到 2025 年初,原生端到端的 Qwen3-Omni 模型的发布,以及 Qwen-Agent,进一步支持硬件端构建任务型智能体。这一连串技术释放,恰好为 AI 硬件创新提供了可落地的底层支撑。

    从 2024 年下半年起,阅读器、眼镜、耳机、学习机等细分品类迎来 AI 功能的规模化落地:文石、闪极、AIxFU、听力熊、云希谷等能纷纷接入阿里云大模型能力。

    这些产品的共同点,是都受益于通义的“全谱系开源”策略——0.5B 到 480B 的模型全覆盖,文本、语音、视觉、视频能力一应俱全。无论是大型企业,还是华强北的硬件作坊,都能找到适合自己的解决方案。

    正是这种低成本接入到快速验证的正向循环,让 AI 硬件从概念走向规模化落地。阿里云没有造 AI 硬件产品,却通过持续开源和能力迭代,成为这场硬件浪潮背后最坚实的推手。