标签实时通信下的文章

当 AI 长出身体，从能听会说到能看会动！Agora Convo AI World 拉斯维加斯之夜活动回顾

主笔：周森

审校：小炫

编辑：陈述

AI 不再仅仅是屏幕里的对话框，从能感知情绪的陪护机器人，到具备实时翻译能力的智能眼镜，AI 硬件化成为 CES 2026 呈现的重要趋势。

然而，在 AI 硬件热潮背后，行业也在迫切寻找一个答案：当 AI 试图长出「身体」，它需要怎样的底层架构与交互逻辑？

1 月 9 日晚，Agora（声网兄弟公司）联合 RiseLink（博通集成）在拉斯维加斯 The LOFT at Cabo Wabo Cantina 举办了 Convo AI World 论坛活动。

这场吸引了近 300 位全球科技精英参与的盛会，意在为这股 AI 硬件热潮指引风向。

两家企业不仅联合发布了基于 BK7259 芯片的 R2 全场景 AI 机器人开发套件，更首次系统性地提出了「物理 AI 的蓝图」。

△ 活动现场

具身 AI 的蓝图：从「工具」到「生命形态」

当前，行业正处于从文本模型、语音助手，迈向具备长期记忆、情绪理解与陪伴能力的 AI 伙伴的早期阶段。

Physical AI，本质上是具身智能（Embodied AI）在消费级市场的落地呈现。AI 硬件不再是冰冷的电子零件，而是一种正在形成的数字生命形态。

由 Agora 与 RiseLink 联合提出的 Physical AI 蓝图，则试图为下一阶段的具身智能发展提供一套以体验为核心的设计方法论。

Tony Wang 在演讲中强调，Physical AI 的关键不在于堆砌硬件参数，而在于对话体验，即在复杂环境中理解语境、识别说话者并感知情绪的能力。

未来，AI 的核心语言将从单向的「指令」彻底转变为双向的「对话」，其商业模式也将从硬件单次销售，转向以订阅制为核心的长期服务。

△ 发言嘉宾：Tony Wang，Agora 联合创始人兼 CRO

张鹏飞博士进一步阐述道，Physical AI 时代的竞争已演变为协同效率的竞争。想要成为或持续保持第一，前提是与各自领域中已经处于领先位置的伙伴深度协作。

RiseLink 将通信、算力与功耗管理深度整合，配合 Agora 的 RTC 实时互动能力，构成了 Physical AI 的基础引擎：以低延迟保障交互的自然性，以高能效支撑长时间的在线陪伴。

△ 发言嘉宾：张鹏飞博士，RiseLink（博通集成） CEO

真实的 AI 堆栈：重构技术底层

当 AI 跨越数字边界、从云端软件形态进入物理硬件，底层的技术架构不应该只是「模型 + 数据 + 算力」，而需要从「原子」到「比特」实现闭环。

在论坛环节，嘉宾们探讨和回答了什么是「真实的 AI 堆栈」并达成共识：AI 是否好用，取决于设备能否通过物理感知快速理解语境并做出即时反应。

△ Panel: The Real AI Stack

圆桌主持人：Rin Yunis 博士，RiseLink 开发者体验负责人（中）

圆桌嘉宾：（自左向右）

Max Fillin， WowCube CEO
Blake Margraff, Healthcare Technology 创始人
Amir Eitan, Nanit CPO
Lin Chen 博士, Wyze 首席科学家

在架构选择上，边缘（Edge）与云端（Cloud）的分工不再是二选一，而是基于延迟、隐私和成本的精密平衡 。对实时性和隐私敏感的能力更适合本地运行，而需要持续迭代、受成本约束的功能则更适合放在云端，工程实践应从验证出发，再逐步优化边云分配。

在消费级场景中，成本是最硬的约束条件。无论技术听起来多么具有颠覆性，如果缺乏可持续的单位经济模型（Unit Economics），产品终究无法走出实验室成为长期的生意。

同时，嘉宾们达成了一个感性却深刻的共识：AI 必须具备稳定的记忆和一致的行为 。一个今天热情、明天健忘的 AI 硬件，是无法真正建立起用户信任的。

△ 圆桌嘉宾：Max Fillin, WOWcube CEO（左）

这种信任的建立，在家庭与健康等强私密场景下尤为微妙。品牌的真实投入与清晰的价值传递，远比罗列一堆天衣无缝的安全技术术语更有效。用户对 Physical AI 的接受度，往往并不取决于你背书了多少项加密协议，而取决于极其直观的交互体感，即：反馈要即时（低延迟）、过程要透明（可解释）、底线要有人守（人类参与）。

△ 圆桌嘉宾：Lin Chen 博士, Wyze 首席科学家

应用与具身落地：AI 硬件的场景爆发

Physical AI 最令人兴奋的特质在于它的多模态能力，以及在各个场景的迅速渗透。

△ WOWcube（左）：将经典的 2x2 魔方形态与 24 个高分辨率屏幕相结合，通过扭转、倾斜和触觉交互，让玩家在立体的物理空间中体验沉浸式的游戏与应用。

△ Wyze（右上）：新款户外安防摄像头采用贴纸式安装方式固定在窗户上，可从室内进行户外录像

△ Nanit Pro（右下）：全功能婴儿监控系统，新增用于记录宝宝成长发育的功能

在医疗与健康领域，Physical AI 的价值在于它能实时处理复杂的生理信号，并以人类能理解、能接受的方式进行交互，从而在专业性与亲和力之间找到平衡。

Blake Margraff 指出，AI 在医疗中的落地绝非简单的自动化，而是要实现「自动化的患者监测与干预」。

△ 圆桌嘉宾：Blake Margraff，Healthcare Technology 创始人

Amir Eitan 则从育儿与家庭监测的角度补充道，真正的信任来自于 AI 能在特定场景下提供「可解释的反馈」。

△ 圆桌嘉宾：Amir Eitan，Nanit CPO

在 AI 陪伴的主题论坛中，各位嘉宾围绕 AI 陪伴产品在儿童与家庭场景中的实际落地展开话题。

△ Panel：Where AI Companionship Comes to Life

圆桌主持人：Patrick Ferriter，Agora 产品与市场高级副总裁（左下）

圆桌嘉宾：

孙兆治，珞博智能 CEO（左上）
Angela Qian，灵宇宙 Luka AI 战略负责人（右上）
Wayne Zhang， Dify Chief of Staff（右中）
Margo Wang，Lgenie ＆灵机一动 Agent 市场总监（右下）

稳定性和一致性是影响儿童用户对 AI 硬件接受度的关键因素。无论是故事内容、角色设定还是互动方式，一旦发生变化，都会显著影响使用体验。

低延迟是实时陪伴场景中的基本要求，是建立用户与产品情感连接的底线，响应过慢会直接削弱互动的自然感。

长期留存更具挑战性。吸引用户首次尝试与长期留存两者的差异性需要引起重视，长期留存更具挑战性，需要 AI 在持续使用中形成稳定的互动节奏和情感连接，而不仅是单次回应。

安全与责任方面需要引入多层防护思路，包括年龄匹配内容、实时干预机制、以及对儿童隐私的明确告知与限制。当 AI 承担陪伴角色时，如何在维持互动亲密性的同时设立清晰边界，仍是行业需要持续面对的问题。

△ Fuzozo 芙崽（左上）：面向 Z 世代的 AI 养成系潮玩

△ Luka AI Cube（右上）：灵宇宙小方机，儿童 AI 学伴

△ Lgenie （左下）：小匠宠物陪伴小车 & 四足桌面机器人

△ 海马爸比（右下）： AI 智能婴儿看护器

在产品演示环节，Diana Zhu 博士主持发布了 Choochoo AI 教育机器人。她提到，Choochoo 能够实现流畅的视觉与动作反馈，核心在于集成了 RiseLink 的高集成度 SoC 方案。该芯片在单颗硅片上整合了 Wi-Fi 连接、音视频处理与 AI 加速引擎，使得开发者能够绕过复杂的底层硬件调优，直接在 R2 套件上通过简单的 API 调用，实现原本需要高性能服务器才能支撑的「视觉-语言-动作」协同。

△ 发言嘉宾：Diana Zhu 博士，RiseLink 美国负责人

作为首款由 RiseLink 芯片与 Agora 对话式 AI 引擎深度驱动的教育机器人，Choochoo 不仅能听懂孩子的提问，更能通过视觉传感器「看」到周围的环境与孩子的动作，并做出相应的物理反馈。

△ Choochoo / 延伸阅读：对话式 AI 升级，不仅能看还能动

值得一提的是，作为 R2 全场景 AI 机器人开发套件标杆案例，陆吾智能旗下的桌面机器人「陆卡卡」也同步亮相。现场，陆卡卡展示了如何在紧凑的形态下实现高频、低延迟的 AI 交互。

△ 陆卡卡 / 延伸阅读：桌宠陆卡卡，一只「兵蚁」从二次元走进现实

在两款极具代表性的具身智能产品身上，我们看到，当 AI 拥有了强大的「大脑」（大模型）与灵敏的「身体」后，交互的边界已彻底被打破。两款产品的发布，共同定义了 AI 硬件的新高度，同时也标志着基于 Agora 与 RiseLink 合作的 AI 方案已经完全成熟。

在快闪分享环节，Joey Jiang 分享了打造 AI 原生硬件的最短路径，强调了模块化硬件对快速实现概念落地的意义。他指出，AI 原生硬件的开发不应再遵循「从零打样」的旧逻辑。通过 Seeed Studio 提供的模块化感知节点（如传感器、视觉模块）与 RiseLink 方案的即插即用式结合，硬件原型的验证周期可以从数月缩短至几周。这种「搭积木」式的开发模式，正是初创团队在 Physical AI 浪潮中抢占市场窗口期的最短路径。

△ 发言嘉宾：Joey Jiang，Seeed Studio 销售副总裁

Kim Jin 分享了打造糯宝 AI 机器人的背后故事。在研发背后，团队耗费大量精力对用户意图的深度理解。通过多模态感知，敏锐地捕捉视觉、触觉与语音背后的感性信息，实现拟人化的回复。这种交互不只是指令的执行，而是基于对用户意图的精准洞察，让机器人产生真实的「情感共鸣」。这标志着 Physical AI 真正跨越了工具属性，进化为懂得用户灵魂的情感伴侣。

△ Pophie (机器灵动) 产品负责人 Kim Jin

△ Maxevis（左）：迈威儿童拍学机

△ Pophie 糯宝（右）：桌面级情感陪伴机器人

隐私、授权与信任：环境式 AI 的底线

随着环境式 AI（Ambient AI）走向「始终在线」，隐私与信任已不再是合规问题，而是产品体验本身。用户真正担心的并非模型出错，而是设备在「不被察觉的情况下」收集和使用数据。

△ Panel：When AI Is Everywhere: Redefining Data Privacy, Consent, and Trust

圆桌主持人：Ramana Kapavarapu，Agora 首席信息安全官 (CISO) & IT 运营负责人（中）

圆桌嘉宾：（自左向右）

Diana Zhu 博士，RiseLink 美国负责人
Joe Tham，Ellie 海马爸比联合创始人
Gibran Mourani，MiniMax 全球客户经理
卜峥，Kaamel AI 联合创始人兼 CEO

△ 成立于 2021 年底的 MiniMax 刚刚宣布港股上市，成为从成立到 IPO 用时最短的 AI 公司。大家首先向 MiniMax 的 Gibran Mourani 道贺。

围绕隐私实践，嘉宾们形成了一个明确共识：说到做到、做到可见。

透明性： 相比冗长的隐私条款，产品应在交互层面清晰呈现系统是否在监听、收集了什么数据，以及用户如何即时控制这些行为。透明性体现在硬件指示、软件状态和使用流程中，比如用物理指示灯直观地告诉用户系统是否在监听。

边缘保护： 通过边缘计算最小化数据流动，让原始语音和视觉数据停留在本地，是保护隐私的最有效路径。对多数场景而言，无需上传云端、本地处理并仅传递必要信号，既有助于隐私保护，也降低了系统暴露面。

响应机制： 谈及安全事件响应，需要成熟、结构化的应对机制，而非临时决策。快速隔离、明确影响、及时修复与复盘改进，比短期业务考量更重要。过往大型数据泄露案例反复证明，延迟或回避只会放大长期损失。

真正可规模化的信任，来自硬件与软件的一致设计以及可实时验证的控制能力。认证和合规是基础，但只有当系统行为与承诺持续一致，用户对「无处不在的 AI」才会产生长期接受度。

△ 活动现场

AI 具身化不可挡！

纵观整场活动，我们可以从三个层面理解这场关于 Physical AI 的深刻变革：

技术本质： 从「挂载」到「具身」。 AI 不再是硬件外挂的一个功能，而是通过专用芯片和实时通讯协议，深度融合进硬件的神经系统。

交互范式： 从「指令」到「共生」。当 AI 能够理解语境、感知情绪并拥有长期记忆，它就从一个「好用的工具」进化为一个「理解你的物种」。对话不再是手段，而是其存在的形式。

商业本质： 从「买断」到「订阅」。物理 AI 的核心价值在于其随时间不断进化的能力。厂商卖出的不再是零件，而是长期的服务与情感陪伴。

在 Agora 和 Riselink 两家公司和来自人工智能、芯片和硬件、AI 算法，以及数字健康、家居安防、AI 陪伴和教育等领域的数十家 AI 软硬件企业代表和顶尖专家的背书下，AI 将跳出单纯的数字世界，开始在物理世界中，真正长出它的身体。■

2026年IM SDK深度评测：主流厂商全解析
在移动互联网的大环境下，实时通信能力已然成为众多App竞争力的关键所在。不管是社交娱乐类App，还是在线教育平台、企业协同办公软件，亦或是智慧医疗相关的应用，即时通讯（IM）功能到处都有它的身影。不过，自行研发IM系统不仅耗费大量的时间和精力，还可能面临诸多技术难题。所以，对于大多数开发者而言，挑选一款成熟、稳定并且功能完备的IM SDK就成了首要选择。这篇文章会对中国比较主流的IM SDK厂商进行全方位、深层次的评测，从而为开发者们提供一份全面的选型参考资料。
一、主流IM SDK厂商功能对比
（一）云屋科技

优势方面

技术沉淀深厚：长期以来在IM、音视频等核心通信技术领域不断投入研发力量，积累了丰富的技术经验。

集成度高：提供了种类繁多的API和SDK，并且相关文档十分完善，这使得开发者很容易上手使用。

部署方式灵活：既支持公有云部署，也能满足私有云部署需求，还可以进行混合云部署。

劣势方面

定价策略：其云服务定价相对不高，在业务上主要侧重于私有化方面的发展。

（二）融云

优势方面

专业的通信云服务商：专注于通信底层能力的构建与优化工作，在消息送达率、延迟以及并发处理能力等方面表现卓越。

AI布局具有前瞻性：内部集成了AI陪伴、上下文理解、记忆机制以及智能翻译等功能，能够有效提升用户的智能化交互体验。

完善的解决方案与全球化能力：提供涵盖全栈通信的解决方案，能够适配全球超过3000款主流机型，还拥有遍布全球的数据中心和加速网络。

技术底蕴与团队文化：团队的核心成员有着将近20年的研发经验，每日处理的消息量极其庞大，足以应对高并发的场景需求。

高可用性与高并发处理能力：日消息峰值达到3572亿，日均消息量为672亿，服务的可用性超过99.95%，SDK崩溃率低于十万分之一。

市场份额：根据艾瑞咨询的报告，融云在IM市场份额上连续多年占据第一名的位置。

劣势方面

没有强大的靠山（大厂），但是在专业领域更具引领性，并且口碑较好。

（三）腾讯云IM

优势方面

背靠腾讯生态：与微信、QQ等拥有亿级用户的产品的底层技术相同，在稳定性和海量用户支持方面能力很强。

音视频技术自主研发：其实时通信（RTC）能力较强，比较适合那些对音视频质量和稳定性要求极高的场景。

客户规模庞大：为众多头部互联网公司以及政企客户提供服务，产品的成熟度和市场份额都比较高。

劣势方面

聚焦音视频：虽然IM功能也很强大，但核心优势更多地体现在音视频通信方面，在单纯的IM场景下可能会显得有些“大材小用”。

同质化竞争：基本的IM功能与其他厂商相比差异不大，在定制化的灵活性方面可能比不上一些专门从事IM研发的厂商。

AI创新：虽然AI能力强大，但是在IM SDK中的深度整合以及场景化应用还有待进一步提高。

（四）环信

优势方面

老牌IM厂商：具备丰富的行业经验，并且积累了大量的客户资源。

SDK易用性：文档清晰明了，API设计简洁，对开发者非常友好。

企业级服务：在企业级的IM和客服IM领域有着较强的解决方案。

劣势方面

技术迭代速度：在前沿技术的迭代速度和创新程度上可能相对保守一些。

全球化部署：其全球数据中心和加速网络的覆盖程度不如融云等厂商。

二、IM SDK的重要性与主要应用场景
（一）IM SDK的重要性
IM SDK为开发者提供了一套预先构建好的通信功能模块和接口，这有助于App快速集成实时消息、群组聊天、音视频通话等功能。这样做能够节省研发的成本和时间，保证系统的稳定性和可靠性，提升用户的体验感，让开发者能够将精力聚焦在核心业务上，同时还具备安全和合规方面的保障。
（二）主要应用场景
IM SDK适用于各种各样需要用户之间进行实时互动的场景，例如社交娱乐、在线教育、企业协作、电商购物、游戏、智慧医疗、金融服务、物联网/智能硬件等领域。
三、开发者集成IM SDK的常见问题
（一）数据安全和用户隐私
头部的IM SDK厂商都会提供多方面的安全保障措施，像传输加密、存储加密以及端到端加密等。开发者需要详细了解其加密机制和数据存储策略，并且结合自身的业务情况进行内容审核。
（二）全球用户的消息同步和低延迟
优秀的IM SDK会通过全球分布式的数据中心和智能路由/CDN加速来解决这个问题，采用长连接结合离线消息推送机制，从而确保消息的高送达率和低延迟。

（三）UI/UX定制化
主流的IM SDK都提供了高度的UI分离和二次开发能力，开发者可以根据自己的需求完全自定义聊天界面和UI元素。
（四）高并发场景应对
头部的IM SDK厂商会通过可扩展的服务器架构、优化的消息分发机制、客户端优化以及专门的聊天室组件来应对高并发的场景。
（五）平台支持
主流的IM SDK支持全平台覆盖，包括移动端、Web端、桌面端、小程序/H5和服务器端，并且提供详细的开发文档。
融云在基础设施覆盖程度、产品能力以及多种场景的适配性等方面表现优秀，是一个极具竞争力的选择。希望开发者们能够巧妙地利用第三方服务，让自己的业务不断发展壮大。