Fish Audio 开源 S2:支持多角色多轮对话和长上下文推理;Hume AI 开源新语音模型:超低延迟零幻觉率丨日报
开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术 」、「有亮点的产品 」、「有思考的文章 」、「有态度的观点 」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。 本期编辑:@koki、@鲍勃 1、杨立昆创办,世界模型公司 AMI 完成超 10 亿美元融资 3 月 10 日,世界模型研究所/创业公司 AMI 已完成 10.3 亿美元融资,投前估值 35 亿美元。 该公司由图灵奖得主、前 Meta 首席 AI 科学家杨立昆 (Yann LeCun) 创办。 据悉,AMI 全称 Advanced Machine Intelligence「先进机器智能」,以世界模型 (world models) 为主要研发方向,力求开发出能够从真实世界中学习抽象表征的世界模型。 AMI 本轮融资得到了多个极为重要的投资方支持: 值得一提的是:谢赛宁,AI 基础研究方面的顶级专家,也是杨立昆的老朋友、学校同事,已经正式加入了 AMI 担任首席科学官。 根据融资纪要,AMI 本轮融资将用于支持长期科研、全球范围招聘工作,以及世界模型方向上的可靠产品。 (@APPSO) 2、Hume AI 开源 TADA:基于文本-声学双向对齐架构的实时语音合成模型,超低延迟零幻觉率 Hume AI 正式开源 TADA (Text-Acoustic Dual Alignment) ,核心突破在于通过一种新型 Tokenization 方案实现了文本与音频符号的 1:1 同步对齐。该架构解决了传统 LLM-based TTS 系统中音频 Token 数量远超文本 Token 导致的上下文窗口耗尽与幻觉问题,其轻量化特征支持在移动端及边缘设备实现低延迟的非云端部署。 核心技术参数与性能指标 在工程实践中,TADA 的轻量化架构使其能够脱离云端 API 依赖,直接在终端设备运行,极大降低了推理成本并提升了隐私性;同时,其极高的内容一致性使其适用于医疗、金融等对「幻觉」零容忍的严苛场景。 但开发者仍需注意,目前开源的模型主要针对语音续写(Speech Continuation)场景,若应用于智能助手则需进行下游微调,且在处理超过 10 分钟的长文本时,建议通过重置上下文来规避潜在的音色漂移(Speaker Drift)问题。 Huggingface 链接: https://huggingface.co/collections/HumeAI/tada Blog 链接: ( @hume_ai@X) 3、Fish Audio 开源 S2:Dual-AR 架构实现 \<100ms 延迟与多角色长语音生成 Fish Audio 正式开源 S2 文本转语音模型,基于 4.4B 参数的双自回归(Dual-AR)架构与 1000 万小时音频数据。该模型实现了生产级的低延迟流式推理,并支持通过自然语言标签进行词级情感控制,以及多角色、跨段落的长音频生成。 模型权重、微调代码及 SGLang 推理栈已在 GitHub 和 Hugging Face 开源;S2 Pro 版本已在官方平台上线。 GitHub: HF: 官网 blog: 信息来源: (@Fish Audio Blog) (@Fish Audio Blog / arXiv:2603.08823) GitHub 链接: ( @FishAudio@X) 1、「幕间」连续完成两轮千万美元融资,用「世界模拟器」突围 AI 娱乐 AI 互动娱乐平台「幕间」已于近期连续完成两轮融资,累计融资金额达千万美元。两轮融资分别由锦秋基金、云九资本领投,包括前网易副总裁少云、原沐瞳 CEO 袁菁(Justin)在内的多位游戏行业资深人士跟投。 创始人 Roi 曾任职于乐元素、莉莉丝;随后进入字节跳动教育线,负责游戏化产品设计。在创办「幕间」之前,她的身份是 LiblibAI 的联合创始人及产品负责人。在那里,她亲历了 AI 工具从 0 到 1 的爆发与激烈的算力补贴战,并主导开发了早期的 AI 自由画布设计工具。 她认为,做「幕间」是对** AI 如何服务于人类娱乐进一步思考后做出的选择**。 离开 LiblibAI 后,Roi 希望通过「幕间」,以一个更具感性色彩与想象力的方式切入人类与 AI 之间的互动关系:基于 UGC 的 AI 模拟器平台。有些类似刚获得 1 亿美元融资、基于「斯坦福小镇」逻辑的社交沙盒 Simile,让用户作为「上帝」观察 Agent 在系统规则下的自主演化。 用一种更好理解的方式来解释「幕间」到底是什么,可以说,**它并非传统意义上的游戏,更像是一个集成密室、剧本杀、短剧、游戏的线上综合游乐园。平台上的创作者通过使用提供的 AI 制作工具创造不同的世界,用户通过平台选择、进入、并沉浸其中。**较传统游戏来说,「幕间」更轻量、更碎片,也更强调完全个性化的反馈。 **「和 AI 聊天久了会乏味,而互动剧、互动小说的选项又太过单调。」**因此,她希望打造一个人类与 AI 新的互动娱乐系统。 最出乎 Roi 意料的是,平台很快凝聚起来的、最核心的一批创作者并非专业游戏从业者或程序员,竟然多是来自一二线城市的「00 后」女生。与此同时,这些创作者也是玩家。 为了能够凝聚这群创作动力蓬勃的核心资产,「幕间」为这些创作者提供了一整套工具链,使其能像搭建乐高积木一样搭建 Agent:用户可以基于 Producer Agent,通过组合导演、玩法、交互等多种 Skills 构建高可玩性的系统。同时,幕间为 Agent 提供了多模态渲染、MJV 变量、跨端的 LUI、Cloud Identity 等工具,让 Agent 可以创造出惊艳的多模态体验和易用的交互方式。 在即将到来的 3 月中下旬,「幕间」计划开启更大规模的测试和模拟器开发大赛,世界模拟器的「品类」也将拓宽至修仙、职场、历史演化等更广泛的领域。 (@锦秋集) 2、Intercom 融资 2.5 亿美元发力「客户智能体」:基于自有模型与服务栈的架构演进 Intercom 宣布通过 Hercules Capital 完成 2.5 亿美元债务融资 。此轮资金将专项用于研发其下一代 Customer Agent(客户智能体),旨在将 AI 从单一的 FAQ 检索工具升级为具备销售、顾问及专家职能的端到端业务模块。 技术差异化与工程路径 Intercom 正通过「自有数据+自有模型+自有 Help Desk 栈」的垂直集成,试图建立起相对于基于 OpenAI/Anthropic 开发的薄层 Agent 的技术壁垒。 据悉,该项投资将直接对标初创公司数亿美元级的研发投入,重点攻关「Customer Agent」在复杂决策、多轮对话稳定性及业务自动化方面的能力。 ( @egohan@X) 3、Dify 完成 3000 万美元 Pre-A 轮融资:加速生产级 Agentic Workflow 平台建设 开源 AI 应用开发平台 Dify 宣布完成 3000 万美元 Pre-A 轮融资,由红杉领投,GL Ventures、Alt-Alpha Capital(Bessemer Venture Partners 新孵化基金)、五源资本、瑞穗力合投资和 NYX Ventures 跟投。 作为目前 GitHub 星标排名第 51 位的开源项目,Dify 已在全球超过 140 万台机器上运行,核心定位于模型层与业务系统之间的「逻辑层」,提供可视化编排与生产级基础设施。 本轮融资将专项用于提升 Agentic Workflow 的生产可靠性,重点优化构建块(Building Blocks)的可预测性及长链路调试机制。研发方向涵盖企业级基础能力的强化,包括高并发性能调优、合规性审计及精细化权限控制。 同时,Dify 将进一步降低构建门槛,使非开发背景的领域专家能直接编排业务逻辑,并持续扩展插件、连接器及社区模版生态。 ( @Dify) 1、黄仁勋:AI 与电力一样同等重要 昨天,英伟达公布了 CEO 黄仁勋发表署名文章提出 AI 「五层蛋糕」架构模型,并明确将 AI 定性为与电力同等重要的现代基础设施。 黄仁勋在文章中指出,计算技术正从传统的预制软件向实时生成的智能转变,这种底层逻辑的演进要求整个计算架构进行彻底重构。他将工业视角的 AI 架构自下而上拆解为五个层级:能源、芯片、基础设施、模型与应用。 文中强调,能源是制约智能系统产出规模的首要瓶颈;芯片层决定了 AI 的扩展速度与效率;基础设施层表现为旨在「制造智能」的 AI 工厂;模型层正从语言扩展至生物化学、物理模拟等前沿领域;顶层的应用层(如自动驾驶、人形机器人)则负责创造经济价值。 这五个层级相互强化,任何顶层应用的成功都会对底层设备与能源产生强烈的需求拉动。 在行业动向层面,该文章肯定了开源模型对激活全栈算力需求的关键作用。黄仁勋以 DeepSeek-R1 为例指出,高性能推理模型的广泛开放直接加速了应用层的普及,并逆向带动了底层训练、算力设施及能源的规模化增长。 (@APPSO) 招聘、项目分享、求助......任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」) 1、Physical AI 系列活动硅谷站!探讨和上手全模态与硬件智能丨 Meetup+Workshop,3 月 19 日 湾区硅谷的开发者和创业者们,3 月 19 日见! GTC 期间,来一场动脑又动手的 Physical AI 全天候嘉年华!同一场地,两场硬核活动无缝衔接: 🌅 上午 09:30|Meetup:对话真实世界 Agora | RiseLink | MiniMax | HumanTouch | EverMind | Resonance Ventures 等大咖齐聚,拆解全模态与端侧智能的机会与未来。 🛠 下午 13:30|Workshop:手搓语音 AI 硬件 基于 TEN 框架,实操接通语音 AI Agent。重点来了👉现场备有 40 套 Agora R1 开发板,代码跑通直接把硬件带回家! 上下午活动需分开独立报名,名额有限,拼手速: 上午 Meetup 报名: 下午 Workshop 报名: 地点: Sunnyvale (审核后发具体定位) 阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么 写在最后: 我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。 对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。 作者提示: 个人观点,仅供参考
01 有话题的技术



https://www.hume.ai/blog/opensource-tada
[astonished]、[voice up]),实现词级的音调、情感和语速控制。在 EmergentTTS-Eval 中,副语言控制胜率达 91.61%,优于 GPT-4o-mini-tts。<speaker:0>、<speaker:1> 等标签语法,支持一键生成复杂的多人对话。系统支持多 Prompt 音频输入,可快速完成多音色的克隆与切换。
https://github.com/fishaudio/fish-speech/
https://huggingface.co/fishaudio/s2-pro
https://fish.audio/zh-CN/blog/fish-audio-open-sources-s2/
https://github.com/fishaudio/fish-speech/?tab=License-1-ov-file#readme02 有亮点的产品



03 有态度的观点

04 社区黑板报




