Sakana AI 开源 KAME 双轨语音架构,实现「边想边说」
开发者朋友们大家好: 这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。 本期编辑:@koki、@鲍勃 1、OpenBMB 发布 MiniCPM-o 4.5:9B 规模原生全双工多模态模型,支持毫秒级流式交互 OpenBMB 发布 MiniCPM-o 4.5 技术报告,推出基于 Omni-Flow 框架的原生全双工流式交互范式。该模型在 9B 参数规模下,通过统一的时间轴对齐技术取代传统 VAD 方案,实现了具备主动交互能力的实时音视频对话,并在多项多模态基准测试中对标 Gemini 1.5 Flash。 GitHub: https://github.com/OpenBMB/MiniCPM-o-Demo HuggingFace: https://huggingface.co/openbmb/MiniCPM-o-4\_5 ( @OpenBMB\@X) 2、Deepgram 发布 Flux Multilingual:支持 10 种语言原生语码转换,话轮检测延迟低于 400ms Deepgram 宣布其对话式语音识别(CSR)模型Flux Multilingual 正式商用(GA)。该模型支持在单次对话中自动检测并切换 10 种语言,旨在消除全球化语音智能体在多语言环境下的识别延迟与架构复杂性。 (@deepgram) 3、Sakana AI 开源 KAME 语音架构:采用 S2S 与异步 LLM 双轨并行,实现「边想边说」 Sakana AI 推出名为 KAME 的新型双轨(Tandem)语音交互架构,相关论文已被 ICASSP 2026 接收。该架构通过分离低延迟的前端与高推理能力的后端,使系统能够在输出语音的同时异步接收逻辑注入。此设计直接打破了传统实时语音模型在「极低延迟」与「深度推理」之间的硬性权衡,实现了「边想边说」。 推理与微调代码已在 GitHub 开源,前端模型权重已上线 Hugging Face 提供下载。 https://huggingface.co/SakanaAI/kame (@Sakana AI Blog) 4、NVIDIA 发布 Nemotron 3 Nano Omni:采用 Mamba-Transformer 混合 MoE 架构,多模态推理吞吐量提升 9 倍 英伟达(NVIDIA)正式推出原生多模态推理模型 Nemotron 3 Nano Omni,通过单一模型体系深度整合文本、视觉与语音处理能力。该模型旨在通过混合专家架构(MoE)优化边缘与端侧部署,在保持高精度感知的同时,实现数倍于同类开放模型的推理吞吐量。 (@智东西) 1、Thoughtly 获 550 万美元种子轮融资:发布 CRM 原生全渠道 AI 智能体,支持 60s 内自动化触达 AI 互动平台 Thoughtly宣布完成 550 万美元种子轮融资,并同步推出全渠道 AI 平台。该平台将 AI 智能体(agent)直接嵌入 CRM 原生工作流,使营收团队能在潜客提交信息后的 60 秒内通过语音、短信或邮件自动发起互动,将潜在客户覆盖率提升至 100%。 ( @thoughtly) 2、DeepSeek 内测「识图模式」,多模态新模型或将发布 DeepSeek 昨日开启「识图模式」测试,与现有的「快速模式」、「专家模式」并列,具备完整的多模态图像理解能力,并非简单的 OCR 文字识别。 从实测表现来看,DeepSeek 识图模式的整体准确率较高,在不开启思考模式的情况下,最快半秒即可给出回答。对于电影剧照、抽象图片、商品图等常见场景,识别与理解表现良好。 更值得关注的是其思考过程:在描述画面内容之外,还会主动追问发布者身份、图像隐喻与潜台词,并在推理过程中多次自我纠正,甚至在给出结论前,自发列出问题逐一验证前提假设,呈现出接近人类阅读习惯的推理逻辑。 不过,识图模式目前仍存在明显局限。经典的「数手指」测试中,DeepSeek 首次作答出错,自称「数晕了」,但在用户引导或提示后能够给出正确答案。 此外,识图过程暂不支持联网搜索,仅依赖模型自身知识库作答,对于较新的事物,如苹果今年推出的吉祥物「Finder 酱」,无法识别。而就在昨天,DeepSeek 多模态团队研究员 Xiaokang Chen 在 X 上发文「Now, we see you。👀」,并配图 DeepSeek 鲸鱼吉祥物从「蒙眼」到「睁眼」的对比,外界普遍将其解读为多模态新模型即将上线的预告。 ( @APPSO) 1、山姆 · 奥特曼:按 token 计价终将过时,OpenAI 要做的是「智力工厂」 OpenAI CEO Sam Altman 近日在接受科技评论人 Ben Thompson 采访时表示,按 token 计价的 AI 定价模式长期来看难以为继,行业最终将转向以「任务完成」为单位的定价体系。 Altman 以最新的 GPT-5.5 模型为例说明这一判断:GPT-5.5 的单 token 价格高于上一代 GPT-5.4,但完成同一任务所消耗的 token 数量大幅减少。他认为,用户从未真正关心 token 消耗量: 你实际上根本不在乎答案用了多少 token,你只想把这件事做完;你只关心总价是多少,以及需要的时候能不能随时调用到。 在此基础上,Altman 将 OpenAI 的定位从「token 工厂」修正为「智力工厂」。其核心目标是以尽可能低的价格交付尽可能多的智能,至于底层跑的是大模型还是小模型、用了多少 token、跑在 GPU 还是亚马逊自研的 Trainium 芯片上,用户都不需要关心。 Altman 同时透露,目前 OpenAI 客户中要求追加算力容量的人远多于谈判压价的人。他将 AI 与水、电等传统公用事业进行类比,并指出两者存在本质区别: 如果你把智能看作一种「公用事业」(像水电一样的东西),我不知道还有哪种公用事业让我觉得 —— 只要价格够低,我就会一直用、一直用更多。没有任何一种公用事业是这样的。 AWS CEO Matt Garman 对此补充称,过去 30 年算力单价已下降了若干个数量级,但今天卖出去的算力总量却比任何时候都多,AI 需求的增长逻辑与此高度相似。 ( @APPSO) 阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么 写在最后: 我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。 对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。 作者提示: 个人观点,仅供参考
01 有话题的技术


02 有亮点的产品


03 有态度的观点



