Fun-ASR 1.5 更新:支持日韩等 30 种语言+汉语方言+多语言混合转录丨日报
开发者朋友们大家好: 这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。 本期编辑:@koki、@鲍勃 xAI 宣布推出独立的音频处理接口 Grok Speech to Text (STT) 与 Text to Speech (TTS),该技术栈此前已在 Tesla 车载语音和 Starlink 客户支持系统中验证。开发者现可通过 REST 或 WebSocket 接入,以极低成本实现毫秒级延迟的语音识别与合成。 ( @Xai) 高德发布 ABot 通用具身智能系统,构建了从数据仿真、基座模型到多机调度的全链路技术栈。该系统利用高德时空数据储备解决具身智能数据稀缺难题,实现一套模型在轮式、四足及人形机器人上的跨本体部署。 (@高德技术) 通义实验室官方正式发布 Fun-ASR 1.5 端到端语音识别模型更新。该版本基于数十万小时真实方言数据与数千万小时通用语音数据训练,实现了单模型对 30 种全球语言及汉语七大方言体系的深度覆盖,旨在解决方言长尾场景及跨语种混合识别的工业化落地难题。 试用链接: https\://modelscope.cn/studios/iic/FunAudio-ASR ( @Ali\_TongyiLab\@X,@通义实验室) 美国连锁快餐品牌 Dairy Queen 近日宣布,将在全美和加拿大多家门店的得来速车道启用由 Presto 公司开发的语音 AI 聊天机器人,用于接受点餐并进行主动加购推荐,希望借此加快点餐速度、提升客单价。 这一系统已经在部分门店完成测试,Dairy Queen 认为 AI 有助于缓解高峰期压力,并在推荐额外食品方面表现积极。Dairy Queen 此次大规模导入的技术来自专注餐饮语音 AI 的公司 Presto,该公司此前已与 Carl’s Jr、Hardee’s、Taco John’ s 和 Fazoli’s 等连锁品牌合作,在其得来速车道部署类似系统。不过,彭博社在 2023 年的一篇报道中披露,Presto 的「AI 得来速」在实际运行中可能仍有海外人类员工辅助,例如来自菲律宾等地的远程工作人员,协助处理复杂或识别困难的订单情境。 整体来看,快餐行业正加速引入 AI 技术,从语音点餐到员工辅助工具,应用形态多元,但在准确率、顾客体验、隐私与员工管理等层面仍存在广泛争议。Dairy Queen 此次与 Presto 的合作,将成为观察 AI 在得来速场景中商业可行性与社会接受度的重要案例之一,其后续表现或将影响更多连锁品牌在自动化和人工服务之间的取舍与平衡。 (@极客公园) Aryza 宣布完成对 Umbrella Tech 的收购,将其基于语音的智能体技术整合至 Aryza Engage 对话式 AI 平台。此次交易旨在通过高拟人化语音和多语言支持,实现金融催收、客户服务及合规审计的端到端自动化。 (@Pulse2.0) George Bancs,Synthan Sciences 的创始人 总部位于阿布扎比的 Synthan Sciences 宣布筹备种子轮融资,旨在为其开发的物理 AI(Physical AI)安全基础设施提供资金支持。该公司构建了一套针对自主机器(Autonomous Machines)的专有安全架构,意在为人形机器人、无人驾驶设备等硬件在现实场景的规模化部署提供信任层。 (@einpresswire) 4、POSTECH 研发光感应无声语音穿戴设备:利用 CNN-Transformer 架构实现 3ms 实时语音合成 韩国浦项科技大学(POSTECH)研究团队开发了一种颈戴式无声语音接口(SSI)。该系统通过光学传感器捕捉喉部皮肤的微小多轴形变,并利用 CNN-Transformer 混合模型将物理运动解码为合成语音,旨在解决极端噪声环境下的通信及言语障碍人士的交互需求。 ( @thebrighterside) Ming-Yu Liu 现任 NVIDIA 副总裁、Generative AI Research 负责人。在 NVIDIA GTC 2026 的演讲《How Open World Models are Powering the Next Breakthroughs in Physical AI》中,他系统介绍了 Cosmos 的最新进展,重点讨论开放世界模型如何通过生成物理数据、视频理解与未来预测,推动 Physical AI 和机器人开发。 AI 的发展正经历从「生成式 AI」到「智能体 AI」,并最终迈向「物理 AI」的演进。生成式 AI 的成功依赖于互联网上沉淀的海量文本和视觉数据,智能体 AI 的成功则得益于能够大规模生成并验证各种数字工具的使用数据。如今,物理 AI 的终极目标是让 AI 跨越数字世界,去直接控制车辆、类人机器人等真实的物理工具,这也标志着人工智能发展的下一个核心阶段。 然而,物理 AI 当前面临着一个严重的「鸡生蛋,蛋生鸡」的数据死结。以类人机器人为例,由于现实环境中部署的机器人数量远远不够,导致无法收集到海量的真实物理训练数据;没有足够的数据,就无法开发出强大的机器人模型;而模型能力不足,又直接导致市场不愿意购买和部署这些机器人。因此,要想真正开启物理 AI 革命,首要任务就是打破这个数据壁垒,设法获取初始的大规模高质量训练数据。 为了解决这一行业痛点,NVIDIA 推出了 Cosmos 计划,旨在通过构建开放世界模型来生成海量的物理 AI 数据。Cosmos 采用了一种「数据金字塔」策略:最底层先从互联网海量视频数据中吸收物理世界的动态规律,建立能够模拟现实的世界模型;中层利用该模型结合物理引擎,生成大量贴近机器人视角的合成数据;顶层再辅以少量真实的机器人操作数据,将机器人的视觉观察与具体动作精准对应。通过集齐世界模型、合成数据与真实数据,开发者就能彻底突破数据限制,构建出强大的物理智能体。 (@Z Potentials) 招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」) 最近,像豆包、千问 Omni等新一代语音对话模型的惊艳表现引发了广泛关注,它们展示了极其流畅的 语音交互能力。另一方面,具备“听、看、说”的智能眼镜也犹如雨后春笋般的越来越普及。然而,这些模型大多仍依赖于较为理想的使用环境。戴上 AI 智能眼镜,「行走的大模型」的「自然交互」还能否经受住真实世界的考验? 目前的语音处理系统在面对智能眼镜带来的独特挑战时,依然面临瓶颈:智能眼镜随佩戴者穿梭于办公室和嘈杂街头等高度动态的声学环境中;在真实的社交场景下,系统不仅要应对第一视角下的复杂非稳态噪声,更要处理频繁的抢话、重叠以及长篇幅的语用逻辑。这正是目前穿戴式语音系统从“演示”走向“商用”必须跨越的难题。 为了打破这一瓶颈,推动技术迈向真实的“类人”交互水平,由西北工业大学 ASLP 实验室联合上海交通大学、南京大学、中国科学技术大学、南洋理工大学、华为、希尔贝壳、Rokid等多家单位,发起 SmartGlasses (Egocentric Speech Interaction on AI Glasses) 挑战赛。首届挑战赛将在语音旗舰会议 IEEE SLT 2026 上举办。 https\://mp.weixin.qq.com/s/BN6My5ZPTgkuyYD9NRQlqA 阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么 写在最后: 我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。 对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。 作者提示:个人观点,仅供参考01 有话题的技术
1、xAI 推出 Grok 语音转写与合成两款音频 API:支持 WebSocket 实时流式传输,STT 定价仅为竞品 1/3
2、高德发布 ABot 具身智能全栈:采用 14B DiT 世界模型,打通导航 (ABot-N) 与操作 (ABot-M) 统一架构
3、通义实验室发布 Fun-ASR 1.5:支持 30 种语言与 20+ 方言口音+多语言混合转录
02 有亮点的产品
1、Dairy Queen 在北美多家得来速餐厅上线 AI 点餐聊天机器人
2、Aryza 收购 Umbrella Tech:集成超逼真语音智能体,实现 100+ 语言全量合规监控
3、Synthan Sciences 开启种子轮融资:构建物理 AI 多层安全架构,覆盖硬件及身份验证协议
03 有态度的观点
1、英伟达生成式 AI 研究负责人刘明宇:从生成式 AI 到 Physical AI,下一阶段正在到来
04 社区黑板报
1、IEEE SLT 2026 SmartGlasses 挑战赛盛大开启!聚焦第一视角下的真实社交语音交互
详细链接以及报名方式: