2026年5月

Sakana AI 开源 KAME 双轨语音架构，实现「边想边说」

作者: 纯情
时间: 2026-05-01
分类:
评论

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、OpenBMB 发布 MiniCPM-o 4.5：9B 规模原生全双工多模态模型，支持毫秒级流式交互

OpenBMB 发布 MiniCPM-o 4.5 技术报告，推出基于 Omni-Flow 框架的原生全双工流式交互范式。该模型在 9B 参数规模下，通过统一的时间轴对齐技术取代传统 VAD 方案，实现了具备主动交互能力的实时音视频对话，并在多项多模态基准测试中对标 Gemini 1.5 Flash。

Omni-Flow 原生全双工架构：不同于传统基于 VAD（语音端点检测）的延迟方案，该框架在毫秒级时间线上同步对齐视频、音频和文本流，支持模型在感知输入的同时进行实时响应。
具备主动交互与轮换管理能力：模型无需外部模块即可原生处理对话轮换（Turn-taking），支持在交互过程中主动发起提醒，显著提升智能体的自然交互感。
9B 规模性能表现：在 MMBench EN（87.6）和 MathVista（80.1）测试中表现接近 Gemini 系列模型；在 LiveSports-3K-CC 流式评估中取得 54.4% 的胜率，优于同类专项模型。
全本地边缘端部署优化：支持 Windows（需 12G 显存）及 macOS（M1-M5 系列芯片）一键部署，提供本地 API 接口，实现 100% 本地化运行以保障数据隐私。

GitHub:

https://github.com/OpenBMB/MiniCPM-o-Demo

HuggingFace:

https://huggingface.co/openbmb/MiniCPM-o-4\_5

( @OpenBMB\@X)

2、Deepgram 发布 Flux Multilingual：支持 10 种语言原生语码转换，话轮检测延迟低于 400ms

Deepgram 宣布其对话式语音识别（CSR）模型Flux Multilingual 正式商用（GA）。该模型支持在单次对话中自动检测并切换 10 种语言，旨在消除全球化语音智能体在多语言环境下的识别延迟与架构复杂性。

从 ASR 转向 CSR 架构：不同于仅负责文本转录的传统自动语音识别（ASR），Flux 原生支持基于模型的话轮检测（Turn Detection）和打断处理，而非简单的静音检测，确保对话流的自然轮转。
400ms 级实时响应：模型对话轮结束（End-of-turn）的决策延迟低于 400 毫秒，支持超低延迟流式转录，满足高频交互场景。
原生支持语码转换（Code-switching）：支持在单一会话中实时、动态地在英语、西班牙语、日语、印地语等 10 种语言间切换，开发者可通过 API 发送语言提示（Language Hints）或使用自动检测模式。
架构简化与单语级精度：通过单一模型和 API 替代了传统需拼接多个模型与路由逻辑的方案，在多语言并发场景下维持单语级别的识别准确率。
全环境部署支持：兼容现有 Flux API 接入，支持 Deepgram Cloud、欧盟终结点（EU endpoints）以及私有化/本地化（Self-hosted/On-premises）部署。

(@deepgram)

3、Sakana AI 开源 KAME 语音架构：采用 S2S 与异步 LLM 双轨并行，实现「边想边说」

Sakana AI 推出名为 KAME 的新型双轨（Tandem）语音交互架构，相关论文已被 ICASSP 2026 接收。该架构通过分离低延迟的前端与高推理能力的后端，使系统能够在输出语音的同时异步接收逻辑注入。此设计直接打破了传统实时语音模型在「极低延迟」与「深度推理」之间的硬性权衡，实现了「边想边说」。

异步双轨架构（Tandem Architecture）：前端采用 S2S 模型维持极低延迟的响应循环并立即开始对话；后端 LLM 异步运行，基于动态扩展的用户部分转录文本（partial transcript），生成候选回复作为「预言」（oracle）信号，并在生成后实时注入前端。
后端 LLM 接口完全解耦：系统支持不同 LLM 之间的无缝切换。开发者可在不修改前端 S2S 架构的情况下，直接热插拔接入 GPT-4.1、Claude Opus 4.1 或 Gemini 2.5 Flash 等不同模型以适应特定任务。
MT-Bench 评测模型能力偏好：在前端固定为 Moshi 基础模型的情况下，测试表明接入 Claude 后端在逻辑推理（Reasoning）任务中得分更高，而接入 GPT-4.1 后端在人文类（Humanities）问答中表现更优。
针对性前端微调（SFT）：作为基准测试的 Moshi 为标准 SFT 模型，而 KAME 的 Moshi 前端模型则经过专门微调，其核心训练目标转变为接收并解析后端模型传递的 oracle 信号，以维持前后台输出同步。

推理与微调代码已在 GitHub 开源，前端模型权重已上线 Hugging Face 提供下载。

https://huggingface.co/SakanaAI/kame

（@Sakana AI Blog）

4、NVIDIA 发布 Nemotron 3 Nano Omni：采用 Mamba-Transformer 混合 MoE 架构，多模态推理吞吐量提升 9 倍

英伟达（NVIDIA）正式推出原生多模态推理模型 Nemotron 3 Nano Omni，通过单一模型体系深度整合文本、视觉与语音处理能力。该模型旨在通过混合专家架构（MoE）优化边缘与端侧部署，在保持高精度感知的同时，实现数倍于同类开放模型的推理吞吐量。

Mamba-Transformer 混合 MoE 架构：创新性融合 Mamba 层（优化序列处理与内存效率）与 Transformer 层（保障推理精度），使内存和计算效率最高提升 4 倍，并支持根据任务模态动态激活专家网络。
高密度吞吐性能：在相同交互阈值下，视频推理的总吞吐量达同类开放全向模型的9.2 倍，多文档推理吞吐量提升约 7.4 倍，显著降低了视频级标注等长上下文任务的推理成本。
多项基准测试登顶：在 DailyOmni（全向理解）与 VoiceBench（语音理解）榜单排名第一，性能数据超越 Qwen3-Omni-30B-A3B-Thinking 及 Gemini 2.5 Flash；在 MMlongbench-Doc 等文档智能榜单进入前五。
跨模态持续记忆与检索：支持对 3 分钟以上长视频的秒级解析与跨模态提炼，具备在同一推理框架下无缝切换处理视频、专业技术文档及图形界面（GUI）的能力。
知识蒸馏与改进：模型基于 Qwen3/3.5 系列（最高 397B 规格）及 gpt-oss-120b 等高性能模型生成的合成数据进行改进，强化了硬核技术文档的逻辑梳理能力。

（@智东西）

02 有亮点的产品

1、Thoughtly 获 550 万美元种子轮融资：发布 CRM 原生全渠道 AI 智能体，支持 60s 内自动化触达

AI 互动平台 Thoughtly宣布完成 550 万美元种子轮融资，并同步推出全渠道 AI 平台。该平台将 AI 智能体（agent）直接嵌入 CRM 原生工作流，使营收团队能在潜客提交信息后的 60 秒内通过语音、短信或邮件自动发起互动，将潜在客户覆盖率提升至 100%。

CRM 原生全渠道架构：该平台打破了单一语音交互限制，在 CRM 内部统一调度语音、SMS 和 Email 渠道。AI 智能体直接在现有 CRM 逻辑中运行，无需额外开发呼叫中心基础设施或调用复杂 API。
「Speed-to-lead」缩短至 60 秒内：通过自动化触发机制，系统可在潜客提交表单后 1 分钟内发起实时对话。实测数据显示，该响应速度将低分潜客的成交率从 16% 提升至 38%。
无代码工作流构建器与沙盒环境：提供可视化配置界面，允许非技术人员（如 RevOps、CMO）实时调整 AI 语气、话术逻辑和营销活动，并支持在部署前通过沙盒进行回归测试。
20x 成本效率与 100% 覆盖率：在教育与租赁管理等垂直行业应用中，AI 智能体处理了约 23% 的呼入流量，且覆盖了传统人工团队无法触达的 90% 以上长尾潜在客户，年度人力成本节省可达 40 万美元。

( @thoughtly)

2、DeepSeek 内测「识图模式」，多模态新模型或将发布

DeepSeek 昨日开启「识图模式」测试，与现有的「快速模式」、「专家模式」并列，具备完整的多模态图像理解能力，并非简单的 OCR 文字识别。

从实测表现来看，DeepSeek 识图模式的整体准确率较高，在不开启思考模式的情况下，最快半秒即可给出回答。对于电影剧照、抽象图片、商品图等常见场景，识别与理解表现良好。

更值得关注的是其思考过程：在描述画面内容之外，还会主动追问发布者身份、图像隐喻与潜台词，并在推理过程中多次自我纠正，甚至在给出结论前，自发列出问题逐一验证前提假设，呈现出接近人类阅读习惯的推理逻辑。

不过，识图模式目前仍存在明显局限。经典的「数手指」测试中，DeepSeek 首次作答出错，自称「数晕了」，但在用户引导或提示后能够给出正确答案。

此外，识图过程暂不支持联网搜索，仅依赖模型自身知识库作答，对于较新的事物，如苹果今年推出的吉祥物「Finder 酱」，无法识别。而就在昨天，DeepSeek 多模态团队研究员 Xiaokang Chen 在 X 上发文「Now， we see you。👀」，并配图 DeepSeek 鲸鱼吉祥物从「蒙眼」到「睁眼」的对比，外界普遍将其解读为多模态新模型即将上线的预告。

( @APPSO)

03 有态度的观点

1、山姆 · 奥特曼：按 token 计价终将过时，OpenAI 要做的是「智力工厂」

OpenAI CEO Sam Altman 近日在接受科技评论人 Ben Thompson 采访时表示，按 token 计价的 AI 定价模式长期来看难以为继，行业最终将转向以「任务完成」为单位的定价体系。

Altman 以最新的 GPT-5.5 模型为例说明这一判断：GPT-5.5 的单 token 价格高于上一代 GPT-5.4，但完成同一任务所消耗的 token 数量大幅减少。他认为，用户从未真正关心 token 消耗量：

你实际上根本不在乎答案用了多少 token，你只想把这件事做完；你只关心总价是多少，以及需要的时候能不能随时调用到。

在此基础上，Altman 将 OpenAI 的定位从「token 工厂」修正为「智力工厂」。其核心目标是以尽可能低的价格交付尽可能多的智能，至于底层跑的是大模型还是小模型、用了多少 token、跑在 GPU 还是亚马逊自研的 Trainium 芯片上，用户都不需要关心。

Altman 同时透露，目前 OpenAI 客户中要求追加算力容量的人远多于谈判压价的人。他将 AI 与水、电等传统公用事业进行类比，并指出两者存在本质区别：

如果你把智能看作一种「公用事业」（像水电一样的东西），我不知道还有哪种公用事业让我觉得 —— 只要价格够低，我就会一直用、一直用更多。没有任何一种公用事业是这样的。

AWS CEO Matt Garman 对此补充称，过去 30 年算力单价已下降了若干个数量级，但今天卖出去的算力总量却比任何时候都多，AI 需求的增长逻辑与此高度相似。

( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考

想问下大家都在用什么路由器？

作者: 纯情
时间: 2026-05-01
分类:
评论

现役是红米 AX6000 24 年京东 274 拿下一台后直接停产停售现在挂🐟还能小赚
因为后续涉及到换城市搬家这个就想留给老家的屋子
但是现在看来看去好像直接能刷 openwrt 的很少
不刷直接接入猫咪的也不常见
不是很想布置软路由……

holafly esim 在国内数据漫游

作者: 纯情
时间: 2026-05-01
分类:
评论

手机是日版 iphone ，长期在国内用 holafly esim 数据漫游，国内主号用来接打电话，上网用 Holafly ，这样安全吗，会被喝茶吗？另外打开国内银行 app 有没能快速切换网络的

NVDA、TSM 已在手？那 SOXX 可能是你的隐藏宝藏

作者: 纯情
时间: 2026-05-01
分类:
评论

半导体美股有两大 ETF ，SMH 和 SOXX 。它们的区别是 SMH

重仓 NVDA 和 TSM ，行业集中度很高，而 SOXX

相对更均匀，覆盖整个半导体行业。

如果已经配置了 NVDA 和 TSM ，可以考虑 soxx ，同时吃 GPU 、CPU 、ASIC 和存储。如果没有英伟达和台积电，可以优先考虑 smh 。半导体作为 AI 的最强主线，在 Capex 突破 7000 亿美元的背景下，增长持续性会非常长。ETF 比个股的持股体验会更好，半导体 ETF 值得重仓，即便是现在。

授权登录页面展示问题

作者: 纯情
时间: 2026-05-01
分类:
评论

授权登录页面也显示了左侧边栏，是不是不太对。

开了 DMZ, 一切测试都没问题, 但基于 ddns 访问内网 ipv6 的域名就失败了, 但是 ipv6 在内网可以访问, 从外网用 ipv6 /域名直接访问都不行.

比如用域名:aHR0cDovL3h0Lm5pdmtrYS5jb206NTU1NTUvbml2a2thLw== 从外面无法访问

用 ipv6 也无法访问: aHR0cDovL1syNDBlOjNiNDoyYzQxOjg3NDA6Ojc3YV06NTU1NTUvbml2a2thLw==

五一签到 1800 金币

作者: 纯情
时间: 2026-05-01
分类:
评论

检定结果（签到勤勉检定大成功，获得 1800 金币。投掷点数：20，勤勉属性修正：5，难度：11，总点数：25。）

兄弟们不要错过啊！

有没有在中继模式下还支持 uu 加速器的路由器？

作者: 纯情
时间: 2026-05-01
分类:
评论

如题，家里主路由不能换，又需要加速主机游戏，希望有能在中继模式下还支持游戏加速器插件的路由器。现在的无线路由器开了中继模式当 ap 就不能用 uu 功能了，只有当主路由的时候才能用？

又不希望把无线路由器改成二级路由形式，影响其他设备互联互通还增加 nat 。如果单独再买一个路由器的话推荐买哪个路由器，只考虑游戏加速器功能？不太想买 uu 出的专门加速器路由器，一方面价格，另一方面只能用 uu 加速器。

家在小县城的农村，老婆在省会的郊区，如果把我的户口迁过来是不是违背祖宗了？

作者: 纯情
时间: 2026-05-01
分类:
评论

我家是一个小农村，基本上没啥发展的那种，房子在乡里边，有几亩田地，基本上没啥征收的可能

媳妇儿家是在省会的郊区，周边不少地方都征收了，传了挺久要征收了，估计后续征收的可能性确实也比较大

后面小孩为了教育问题，小孩肯定是想落省会的户口了，可能落到老妈那边去？不然的话怎么操作？

又考虑是不是一般娃娃户口都跟爹走？不知道家里会不会有意见？我情况还比较特殊，父亲不在了，独生子，还没开口跟家里提过，也不知道该找谁聊聊

进一步的，我那户口是不是也可以迁出来？迁到老婆这边是不是违背祖宗了，一般印象会认为与入赘一样么？像我这种单亲，如果我迁出来了，百年后母上大人也不在了，房子和土地怎么办？收归集体了？

V 友们有没有想法的，可否交流一下，哪怕想法不妥，就骂上两句也行

做了一个「只需要给它起个名字」就能开始记录的 App

作者: 纯情
时间: 2026-05-01
分类:
评论

起因是老婆一直想找一个能记录日常的工具，找了很多 app ，对 p 人来说都记录得太具体了。健身的要记具体做了多少，感受怎么样；习惯类要记具体做了多少时间之类的。她就是想很简单记一下自己做了什么吃了什么，不需要具体数值，具体时间，然后之后有需要可以回去看看数据。

于是 vibe 了 TagFlow 。核心逻辑很简单：

创建一个 tag ，起个名字
点一下记录，长按删除
日历页回顾历史，数据页看规律

也可以给 tag/category 设频次/种类目标（比如「 7 天内至少 3 次」），app 会根据你的完成情况在首页推荐 tag 方便记录。比如最近在给自己做一些健康管理，一周最少吃几种杂粮，几种水果，最多喝 1 杯奶茶，3 天最少运动一次，记下来后就会有个直观的参考。

支持中文、英文、日语。免费下载，Pro 功能一次性购买（无限 tag + 具体 tag 的数据）。
App Store： https://apps.apple.com/us/app/tagflow-daily-life-tracker/id6760473913

欢迎体验，有什么问题或建议直接回帖。