OpenAI 手机曝光:联合联发科/高通,预计 28 年量产
开发者朋友们大家好: 这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。 本期编辑:@koki、@鲍勃 1、xAI 发布 grok-voice-think-fast-1.0:τ-voice Bench 评分达 67.3%,支持零延迟背景推理 xAI 发布旗舰级语音智能体模型 grok-voice-think-fast-1.0,专门用于处理复杂、多步骤的生产级工作流。该模型在 τ-voice Bench 基准测试中显著超越 Google 与 OpenAI 的同类产品,并已在 Starlink 客服及销售系统中完成大规模生产部署。 (@marktechpost) 2、阶跃星辰发布 StepAudio 2.5 ASR:引入 MTP-5 架构实现 500TPS 推理,支持 30 分钟无切片转写 阶跃星辰推出基于 ASR+MTP-5 深度融合架构的新一代自动语音识别模型StepAudio 2.5 ASR。该模型通过将 LLM 推理加速技术引入语音领域,实现了 500 tokens/s 的峰值推理速度,并支持单次最长 30 分钟音频的原生端到端转写,旨在解决长音频转写中的上下文断裂与高推理延迟问题。 (@阶跃星辰) 3、西工大发布全双工语音评测基准:量化 AI 在真实对话中的打断响应与干扰拒绝能力 西北工业大学 ASLP 实验室联合南京大学、AISHELL 发布了 HumDial-FDBench,这是一个专门用于评估语音 AI「边听边说」能力的技术基准。它通过 100 小时真实对话数据,解决了当前语音系统在处理用户插话、背景干扰时缺乏统一量化标准的问题。 GitHub 链接: https://github.com/ASLP-lab/HumDial-FDBench (@模型之声) 1、华为发布鸿蒙座舱 AI 机器人 HAMOMO:支持跨场景物理联动与小艺大模型深度集成 近日,在华为乾崑技术大会上,华为发布了一款鸿蒙座舱 AI 陪伴机器人「HAMOMO 哈蒙蒙」,这是华为在车载 AI 交互领域的一次新尝试。 从外观来看,「哈蒙蒙」软萌可爱。据介绍,「哈蒙蒙」能和华为小艺实时进行联动,产生丰富有趣的表情。在车上,「哈蒙蒙」可以吸附在车机屏幕上,能转动脑袋。 此外,「哈蒙蒙」还能随身携带,可以作为一个独立的 AI 陪伴机器人继续使用,是一个具备跨场景能力的 AI 陪伴设备。这一设计也降低了用户付费决策的心理门槛。 从早期的导航、音乐、电话等基础功能,到能够理解自然语言的智能语音助手,再到如今提供情感交互的 AI 陪伴机器人/AI 陪伴玩偶,车载智能系统正经历着一场深刻的进化。 作为这一趋势下「从功能性工具向情感化伙伴演进」的代表性产品,车载 AI 陪伴机器人正受到越来越多厂商的重视。 (@多知) 2、Sinai.ai 获 145 万美元 Pre-seed 轮融资:推出专利 aiBooks™格式,实现 100% 授权内容的实时交互与多模态转换 埃及 AI 阅读平台 Sinai.ai 近日完成 145 万美元 Pre-seed 轮融资,由 KAUST Innovation Ventures 和 DisrupTech Ventures 领投。该公司通过其专利 aiBooks™ 格式,将传统静态书籍转化为支持多模态交互、语义检索及个性化内容生成的动态平台,旨在解决 AI 阅读中的版权合规与交互深度问题。 (@多知) 3、彼岸心智发布「美刻」AI 冥想坐垫:基于高精度生物反馈,实现冥想状态的全程可视化交互 中科院心理所孵化团队「彼岸心智」推出自研硬件「美刻 AI 冥想坐垫」。该产品通过高精度生物传感器捕捉呼吸节律与自主神经信号,改变了传统冥想「无反馈、难量化」的黑盒状态,通过数据可视化构建起「生理采集-状态评估-视觉反馈」的闭环交互链路。 (@后浪 new) 4、OpenAI 自研手机处理器与硬件矩阵曝光:联合联发科/高通开发,预计 2028 年量产 OpenAI 正通过垂直整合策略进入硬件市场,联合联发科、高通研发定制化手机处理器,并由立讯精密负责独家设计与制造。该计划旨在打破现有移动操作系统(iOS/Android)对智能体(agent)调用的权限沙箱限制,构建以 AI 为核心底层的全新硬件生态,手机量产节点定于 2028 年。 (@APPSO) 1、美联储研究:自 ChatGPT 上线以来,美国编程岗位三年少了 50 万 美联储理事会日前发布的一项工作论文显示,自 2022 年 11 月 ChatGPT 上线以来,美国编程相关岗位的就业增速已近乎腰斩。 研究团队将劳工部职业数据库与住户就业调查交叉比对,锁定约占全美劳动力 3.7% 的编程密集型岗位。ChatGPT 上线前,此类岗位年增速接近 5%;上线后急剧下滑,IT 服务与软件开发行业就业增长几近停滞。 研究者构建「反事实就业曲线」排除宏观干扰后发现,程序员就业仍以每年约 3 个百分点的速度收缩 —— 企业正在主动压缩编程岗位占比,三年累计缺口约达 50 万个岗位。 「就业缺口要到 2024 年中期才显著扩大,暗示企业需要足够时间观察模型能力的实际改善,才会将其转化为招聘收缩决策。」 研究同时指出,目前程序员薪资并未出现明显下滑,冲击主要体现在岗位数量层面。作者也审慎强调,50 万缺口不等同于 50 万人失业,AI 之外的税务政策变化亦可能是干扰变量。 ( @APPSO) 阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么 写在最后: 我们欢迎更多的小伙伴参与「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。 对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。 作者提示: 个人观点,仅供参考
01 有话题的技术

02 有亮点的产品








03 有态度的观点



