Fish Audio 开源 S2：支持多角色多轮对话和长上下文推理；Hume AI 开源新语音模型：超低延迟零幻觉率丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、杨立昆创办，世界模型公司 AMI 完成超 10 亿美元融资

3 月 10 日，世界模型研究所/创业公司 AMI 已完成 10.3 亿美元融资，投前估值 35 亿美元。

该公司由图灵奖得主、前 Meta 首席 AI 科学家杨立昆（Yann LeCun）创办。

据悉，AMI 全称 Advanced Machine Intelligence「先进机器智能」，以世界模型（world models）为主要研发方向，力求开发出能够从真实世界中学习抽象表征的世界模型。

AMI 本轮融资得到了多个极为重要的投资方支持：

本轮融资凯辉创新、Greycroft、Hiro Capital、HV Capital、贝索斯远征共同领投；
战略投资人当中包括英伟达、丰田创投、淡马锡、软银、马克·库班、穆里耶家族等；
跟投方包括埃里克·施密特、阳狮集团、三星、蒂姆·博纳斯·李等。

值得一提的是：谢赛宁，AI 基础研究方面的顶级专家，也是杨立昆的老朋友、学校同事，已经正式加入了 AMI 担任首席科学官。

根据融资纪要，AMI 本轮融资将用于支持长期科研、全球范围招聘工作，以及世界模型方向上的可靠产品。

(@APPSO)

2、Hume AI 开源 TADA：基于文本-声学双向对齐架构的实时语音合成模型，超低延迟零幻觉率

Hume AI 正式开源 TADA （Text-Acoustic Dual Alignment） ，核心突破在于通过一种新型 Tokenization 方案实现了文本与音频符号的 1:1 同步对齐。该架构解决了传统 LLM-based TTS 系统中音频 Token 数量远超文本 Token 导致的上下文窗口耗尽与幻觉问题，其轻量化特征支持在移动端及边缘设备实现低延迟的非云端部署。

核心技术参数与性能指标

同步机制 ：采用单文本 Token 对应单连续声学向量的流式处理，使每秒音频仅需 2-3 个帧（Tokens）处理，远低于同类系统的 12.5-75 Tokens。

推理速度 ：实时率（RTF）达到 0.09 ，较同级别 LLM-based TTS 提升 5 倍以上。

可靠性 ：通过物理架构强制映射，在 LibriTTSR 测试集中幻觉率 （CER \> 0.15）为 0。
上下文效率 ：在 2048 Token 窗口内可容纳约 700 秒音频，处理效率较传统方案提升 10 倍。
生成质量 ：基于 Flow-matching 头部生成声学特征，说话人相似度 4.18/5.0 ，自然度 3.78/5.0。

在工程实践中，TADA 的轻量化架构使其能够脱离云端 API 依赖，直接在终端设备运行，极大降低了推理成本并提升了隐私性；同时，其极高的内容一致性使其适用于医疗、金融等对「幻觉」零容忍的严苛场景。

但开发者仍需注意，目前开源的模型主要针对语音续写（Speech Continuation）场景，若应用于智能助手则需进行下游微调，且在处理超过 10 分钟的长文本时，建议通过重置上下文来规避潜在的音色漂移（Speaker Drift）问题。

Huggingface 链接：

https://huggingface.co/collections/HumeAI/tada

Blog 链接：
https://www.hume.ai/blog/opensource-tada

( @hume_ai@X)

3、Fish Audio 开源 S2：Dual-AR 架构实现 \<100ms 延迟与多角色长语音生成

Fish Audio 正式开源 S2 文本转语音模型，基于 4.4B 参数的双自回归（Dual-AR）架构与 1000 万小时音频数据。该模型实现了生产级的低延迟流式推理，并支持通过自然语言标签进行词级情感控制，以及多角色、跨段落的长音频生成。

自然语言精细化行内控制 ：支持在文本中嵌入自由格式的指令标签（如 [astonished]、[voice up]），实现词级的音调、情感和语速控制。在 EmergentTTS-Eval 中，副语言控制胜率达 91.61%，优于 GPT-4o-mini-tts。
多角色多轮对话支持 ：通过 <speaker:0>、<speaker:1> 等标签语法，支持一键生成复杂的多人对话。系统支持多 Prompt 音频输入，可快速完成多音色的克隆与切换。
高效率流式推理性能：实测首包延迟（TTFT）小于 100ms，实时因子（RTF）低于 0.195。在单张 NVIDIA H200 上，系统可在维持 RTF \< 0.5 的前提下，实现每秒 3000+ 声学 token 的吞吐量。
长文本上下文推理稳定性：支持长上下文推理（Long Context Inference），确保在生成跨段落的长文本故事或演讲时，音色与语气保持一致，避免传统 TTS 模型在长序列下的质量衰减。
Dual-AR 非对称架构优化：采用 4B 参数的 Slow AR 处理语义 codebook，400M 参数的 Fast AR 处理残差声学细节。该设计与标准 LLM 同构，可无缝利用 SGLang 的连续批处理、RadixAttention（前缀缓存命中率达 86.4%）等优化手段。

模型权重、微调代码及 SGLang 推理栈已在 GitHub 和 Hugging Face 开源；S2 Pro 版本已在官方平台上线。

GitHub：
https://github.com/fishaudio/fish-speech/

HF：
https://huggingface.co/fishaudio/s2-pro

官网 blog：
https://fish.audio/zh-CN/blog/fish-audio-open-sources-s2/

信息来源：

（@Fish Audio Blog）

（@Fish Audio Blog / arXiv:2603.08823）

GitHub 链接：
https://github.com/fishaudio/fish-speech/?tab=License-1-ov-file#readme

( @FishAudio@X)

02 有亮点的产品

1、「幕间」连续完成两轮千万美元融资，用「世界模拟器」突围 AI 娱乐

AI 互动娱乐平台「幕间」已于近期连续完成两轮融资，累计融资金额达千万美元。两轮融资分别由锦秋基金、云九资本领投，包括前网易副总裁少云、原沐瞳 CEO 袁菁（Justin）在内的多位游戏行业资深人士跟投。

创始人 Roi 曾任职于乐元素、莉莉丝；随后进入字节跳动教育线，负责游戏化产品设计。在创办「幕间」之前，她的身份是 LiblibAI 的联合创始人及产品负责人。在那里，她亲历了 AI 工具从 0 到 1 的爆发与激烈的算力补贴战，并主导开发了早期的 AI 自由画布设计工具。

她认为，做「幕间」是对** AI 如何服务于人类娱乐进一步思考后做出的选择**。

离开 LiblibAI 后，Roi 希望通过「幕间」，以一个更具感性色彩与想象力的方式切入人类与 AI 之间的互动关系：基于 UGC 的 AI 模拟器平台。有些类似刚获得 1 亿美元融资、基于「斯坦福小镇」逻辑的社交沙盒 Simile，让用户作为「上帝」观察 Agent 在系统规则下的自主演化。

用一种更好理解的方式来解释「幕间」到底是什么，可以说，**它并非传统意义上的游戏，更像是一个集成密室、剧本杀、短剧、游戏的线上综合游乐园。平台上的创作者通过使用提供的 AI 制作工具创造不同的世界，用户通过平台选择、进入、并沉浸其中。**较传统游戏来说，「幕间」更轻量、更碎片，也更强调完全个性化的反馈。

**「和 AI 聊天久了会乏味，而互动剧、互动小说的选项又太过单调。」**因此，她希望打造一个人类与 AI 新的互动娱乐系统。

最出乎 Roi 意料的是，平台很快凝聚起来的、最核心的一批创作者并非专业游戏从业者或程序员，竟然多是来自一二线城市的「00 后」女生。与此同时，这些创作者也是玩家。

为了能够凝聚这群创作动力蓬勃的核心资产，「幕间」为这些创作者提供了一整套工具链，使其能像搭建乐高积木一样搭建 Agent：用户可以基于 Producer Agent，通过组合导演、玩法、交互等多种 Skills 构建高可玩性的系统。同时，幕间为 Agent 提供了多模态渲染、MJV 变量、跨端的 LUI、Cloud Identity 等工具，让 Agent 可以创造出惊艳的多模态体验和易用的交互方式。

在即将到来的 3 月中下旬，「幕间」计划开启更大规模的测试和模拟器开发大赛，世界模拟器的「品类」也将拓宽至修仙、职场、历史演化等更广泛的领域。

（@锦秋集）

2、Intercom 融资 2.5 亿美元发力「客户智能体」：基于自有模型与服务栈的架构演进

Intercom 宣布通过 Hercules Capital 完成 2.5 亿美元债务融资 。此轮资金将专项用于研发其下一代 Customer Agent（客户智能体），旨在将 AI 从单一的 FAQ 检索工具升级为具备销售、顾问及专家职能的端到端业务模块。

技术差异化与工程路径

垂直领域大模型（Proprietary AI） ：不同于依赖通用底座的竞争对手，其智能体运行在基于数十亿级专有客户体验数据训练的自有模型之上。该模型由其 60 人规模的 AI 实验室开发，针对客服场景的响应精度与业务对齐进行了深度优化。
产品形态：平台化而非顾问模式 ：区别于传统的交付型服务，提供标准化、自助化的 Purpose-built Platform。支持企业自主管理 Agent 逻辑，通过 API 与现有服务栈（如 Zendesk、Service Cloud 等）或原生 Intercom + Fin 组合进行深度集成。
新型对话范式：引入全新的交互逻辑，支持智能体记忆用户全生命周期的上下文，实现从简单的「单次交互」向长程业务逻辑处理的跨越。
业务闭环能力：支持智能体执行复杂动作，如 Pipeline 自动生成。目前已有企业通过该系统实现数千万美元规模的销售增量。

Intercom 正通过「自有数据+自有模型+自有 Help Desk 栈」的垂直集成，试图建立起相对于基于 OpenAI/Anthropic 开发的薄层 Agent 的技术壁垒。

据悉，该项投资将直接对标初创公司数亿美元级的研发投入，重点攻关「Customer Agent」在复杂决策、多轮对话稳定性及业务自动化方面的能力。

( @egohan@X)

3、Dify 完成 3000 万美元 Pre-A 轮融资：加速生产级 Agentic Workflow 平台建设