标签 语音合成 下的文章

起因:连续讲了 30 多分钟故事,她还是不睡

每天晚上 9 点半是我家的固定节目:女儿洗完澡,躺在床上,把她最爱的几本绘本摆成一排。

"爸爸,今天讲这本小兔子,还有恐龙的,还有..."

通常的流程是

  • 9:30 开始讲第一本绘本
  • 9:45 "爸爸再讲一个"
  • 10:00 "这个讲过了,编一个新的"
  • 10:15 我开始口干舌燥,她开始挑刺:"爸爸你昨天说小熊是红色的"
  • 10:30 她终于睡着,我瘫在床边刷手机缓一会儿

有天晚上特别崩溃:讲完三本绘本,她说"爸爸你编一个恐龙和兔子一起玩的故事"。

我临时编了个"霸王龙帮小兔子找萝卜",讲到一半自己都接不下去了,因为前面埋的坑忘了怎么圆。

她睁着大眼睛看着我:"然后呢?萝卜找到了吗?"

那一刻看着她期待的眼神,突然有点心酸。

不是不想讲,是真的每天都在掏空脑子,还得记住前面自己说过什么。

更难受的是,有时候加班晚了,或者状态不好,讲着讲着就敷衍了,她能听出来。会小声说:"爸爸今天讲得不好玩。"

我当时就想:能不能有个东西,让我即使累到说不出话,也能给她讲一个像样的故事?


程序员的痛点,可能也是你的痛点

说实话,在我做这个东西之前,试过市面上所有能找到的方案:

  • 故事 App: 凯叔、口袋故事都买了会员,但听多了不光无趣,也没有个性化
  • GPT 生成: 文本确实能定制,但 TTS 合成音就像客服机器人,毫无感情
  • 录音: 自己录了 20 多个故事,但每次要翻半天找文件,而且孩子总想听"新的"

这些方案单独看都没问题,但放到每天晚上十点半这个场景里,就全都不太行。

最崩溃的是某天晚上:

  • 22:30 讲了三只小猪
  • 23:00 她说"再讲一个有兔子的"
  • 23:20 编到词穷,开始重复情节
  • 23:45 她睁着大眼睛说"爸爸你刚才讲过了"

我坐在床边看着天花板,想着明天还有早会,突然冒出个念头:能不能让 AI 用我的声音讲?

顺便说下我是怎么折腾这个东西的(技术相关,可跳)

1. 故事生成不是调 API 那么简单

  • 一开始直接用 GPT 生成,结果经常前后打架,只好自己加了一层检查,避免讲着讲着把前面的设定忘了。(避免重复/逻辑 bug )
  • 分龄模板: 2-3 岁重复句式多,4-5 岁加入简单因果,6+开始有小反转
  • 安全过滤: 硬编码了很多禁用词库(包括"死亡""分离"等敏感词)

2. 音色克隆的坑

  • 最开始用开源 TTS ,效果像变声器
  • 后来接了某云的语音定制 API ,需要录多句话做训练
  • 真正的难点是韵律: 同样的文本,讲给 3 岁和 6 岁要用不同的停顿节奏

3. 成本控制

  • 大模型生成一个故事约 0.2 元(目前提示词就几千 token )
  • 音频克隆+合成约 0.4 元
  • 单张图片 0.2-0.4 元
  • 算上服务器和存储,也就是说,这玩意儿要是真被孩子天天听,其实还挺烧钱的。

对用户来说只要三步:

  1. 使用官方音色或者录一句话( 15 秒左右)
  2. 填孩子的基本信息(年龄、爱好、最近关注的事)
  3. 自己可以定制场景、故事
  4. 点生成,1-2 分钟后收到一个 5-8 分钟的音频故事


真实效果:一些意外的反馈

我家的变化

  • 女儿的入睡时间从原来的 40 分钟缩短到 20 分钟
  • 有天她指着我说: "爸爸你今天声音怎么跟手机里不一样?" (我感冒了)
  • 现在有时候出差也不焦虑了,每天睡前会提前生成好第二天的故事

朋友的案例(他们催我做出来的)

  • @老王: 双胞胎爸爸,每天要讲两遍不同的故事,现在各生成一个,省了一半时间
  • @小林: 孩子有语言发育迟缓,医生建议多输入,他用这个每天给孩子听 3 个故事

最触动我的是有一位朋友的反馈,她说:"技术能做的不只是效率,还有情感的延续。"


目前的纠结:三个灵魂拷问

1. 这需求到底有多普遍?

我的假设是:

  • ✅ 认同"父母声音对孩子重要"
  • ✅ 工作忙/经常出差/没空编故事
  • ❓ 愿意为此付费(而不是凑合用免费 App )

V2EX 的各位宝爸宝妈,你们会为这种服务付费吗?你们觉得合理价格是多少?

2. 音色克隆是噱头还是刚需?

有朋友直言:"孩子听谁讲不是一样?"

但我观察女儿的反应,她听到"爸爸的声音"时,真的会下意识抱紧小枕头,这和听凯叔讲故事的状态完全不同。

可能儿童心理学上有答案?有相关背景的朋友求指点。

3. 定位是"解放家长"还是"陪伴工具"?

  • 如果定位成"让家长省时间",很容易被批"用技术逃避责任"
  • 但如果定位成"让陪伴更高质量",又显得太虚

我现在的想法是: 这不是替代父母讲故事,而是在父母不在场/不方便时,提供一种接近真人的补充方案

就像视频通话不能替代见面,但总比完全失联好。


想听听大家的真实想法

如果你是家长:

  • 每天哄睡要花多长时间?
  • 试过哪些方案?痛点在哪?
  • 如果有这个工具,最看重什么(声音相似度/故事质量/价格)?

如果你做过类似产品:

  • 定价策略怎么定的?(订阅制 vs 按次付费)
  • 怎么平衡"商业化"和"不制造焦虑"?
  • 推广渠道主要靠什么?


最后

这个东西现在还很粗糙,甚至都不确定该不该做成产品。

但每次看到女儿听着"爸爸"讲的新故事安静入睡,会觉得这件事可能有点意义。

不是为了让父母逃避陪伴,而是让那些想陪但确实分身乏术的爸妈,多一种选择。

如果你有想法,无论是吐槽还是建议,都欢迎留言。

先谢过各位。


留言区如果超过 50 楼,随机抽取 5 位送年度会员


P.S. 如果有宝爸宝妈想试用,可以留言或私信。目前还在内测阶段,大家可以多提意见。

附上小程序码(微信搜:妈咪故事屋):
地址: https://imgur.com/hMjpDCr (图片无法显示,尴尬)

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、Microsoft 开源 VibeVoice-ASR 语音识别模型:支持 60 分钟单次长音频处理,集成 64K 上下文与热词自定义

Microsoft 发布「VibeVoice-ASR」语音识别模型,突破了传统 ASR 依赖短音频切片的限制,支持单次处理长达 60 分钟的连续音频。该模型通过 64K token 上下文窗口,在单一推理过程中联合完成识别、说话人日志与时间戳生成。

  • 60 分钟单次推理能力:放弃传统的短音频切片模式,避免了因切片导致的全局语义丢失和跨片段说话人追踪失败问题。
  • 64K Token 级长上下文支持:利用超长上下文窗口,实现 ASR、Diarization(说话人日志)与 Timestamping(时间戳)的端到端联合输出,生成包含「Who, When, What」的结构化转录文本。
  • Customized Hotwords 动态引导:允许用户在识别时注入特定专有名词、技术术语或背景词汇,显著提升特定领域或低频词的识别准确率。
  • DER 与 cpWER 综合性能优化:通过联合训练,模型在说话人错误率和带时间戳的字错误率等指标上具备竞争优势。
  • 标准化部署环境:支持 NVIDIA PyTorch Container(验证版本 24.07 至 25.12),核心计算依赖 Flash-Attention 以优化超长序列的推理效率。

已在 Hugging Face 开源并提供测试 Demo,采用 MIT 开源协议。

HuggingFace:
https://huggingface.co/microsoft/VibeVoice-ASR

GitHub:
https://github.com/microsoft/VibeVoice

( @GitHub)

2、FlashLabs 发布 Chroma 1.0:开源原生 Speech-to-Speech 模型,TTFT 降低至 135ms

FlashLabs 推出「Chroma 1.0」开源端到端的 Speech-to-Speech 大模型。该模型跳过了传统的语音识别(ASR)与合成(TTS)阶段,直接在音频 Token 维度完成推理,为开发者提供了一个可私有化部署的 OpenAI Realtime 模型替代方案。

  • 原生端到端语音架构:弃用「ASR → LLM → TTS」的级联管道,采用单一闭环处理音频 Token。该架构原生支持全双工中断,并能完整保留对话中的语调、情感和节奏。
  • 135ms 极低响应延迟:模型 TTFT(首字音频延迟)小于 150ms;在启用 「SGLang」 优化后,TTFT 进一步降低至 135ms,实时系数保持在 0.47–0.51 之间,推理速度达实时语速的 2 倍以上。
  • 4B 参数量与高保真克隆:模型基于 「Qwen 2.5-Omni-3B」 与 「Mimi」 构建,仅需数秒音频样本即可实现高保真语音克隆。其相似度指标 SIM 达到 0.817,较人类基准(0.73)提升约 11%。
  • 集成双层 RAG 架构:内置双层 RAG 机制,可直接挂载向量数据库与知识图谱,实现由智能体驱动的事实检索与语音生成分离,提升对话准确性。

模型权重(Chroma-4B)与推理代码已在 Hugging Face 和 GitHub 全面开源,支持通过 FlashAI 平台直接部署。

相关链接:
https://www.flashlabs.ai/flashai-voice-agents

HuggingFace:
https://huggingface.co/FlashLabs/Chroma-4B

( @flashlabsdotai\@X)

3、Inworld AI 发布 TTS-1.5 语音模型:P90 延迟降至 130ms,推理成本仅为同类产品 1/25

「Inworld AI」正式推出 TTS-1.5 语音合成模型,旨在解决实时语音交互中的延迟与成本瓶颈。通过优化强化学习算法,该版本在显著提升表现力的同时,将 P90 延迟压缩至 250ms 以内,并实现了极低廉的定价策略,直接面向大规模商用语音智能体市场。

  • 生产级实时延迟:TTS-1.5 Mini 模型的 P90 首包延迟低于 130ms,Max 模型低于 250ms,响应速度较前代提升约 4 倍,突破了人类自然对话约 300ms 的感知间隔。
  • 稳定性与表现力优化:通过规模化强化学习训练,词错率降低 40%,大幅减少了长文本合成中的幻觉、断句和杂音;同时语音表现力提升 30%。
  • 极具竞争力的定价结构:交互成本低至 0.5 美分/分钟,每百万字符定价为 $5-$10,对比行业头部方案($120+/百万字符)成本降低逾 25 倍。
  • 扩展功能与部署灵活性:支持 15 种语言(重点优化了印地语);专业级声音克隆功能正式开放 API 调用;并为企业用户提供 On-prem(本地化)部署选项。
  • API 平滑迁移:现有开发者可通过更改 modelId 为 inworld-tts-1.5-mini 或 max 实现快速接入,已整合至 Voximplant 等第三方平台。

已正式上线,开发者可通过 「Inworld AI」 官网 API 或集成合作伙伴平台接入;提供开源/闭源方案及企业级私有化部署。

相关链接:
https://inworld.ai/tts

( @inworld\_ai\@X)

4、DeepSeek 新模型「MODEL1」曝光

1 月 21 日下午消息,DeepSeek 于官方 GitHub 仓库更新了一系列 FlashMLA 代码,在这些更新中,一个名为 「Model 1」的模型 引起了广泛关注。

据悉,目前这个还很神秘的 Model1 不仅出现在了代码与注释中,甚至还有与 DeepSeek-V3.2 并驾齐驱的文件。这也不禁引发广大网友猜测,认为 Model 1 很可能就是传闻中 DeepSeek 将于春节前后发布的新模型代号。

最新消息显示,Model1 是 DeepSeek FlashMLA 中支持的两个主要模型架构之一,另一个是 DeepSeek-V3.2。

据推测,MODEL1 很可能是一个高效推理模型,相比 V3.2,内存占用更低,适合边缘设备或成本敏感场景。它也可能是一个长序列专家,针对 16K+序列优化,适合文档理解、代码分析等长上下文任务。它也可能是一个长序列专家,针对 16K+序列优化,适合文档理解、代码分析等长上下文任务。

另外,MODEL1 的硬件实现跨越多个 GPU 架构。在英伟达 H100/H200(SM90 架构)上有两个版本:model1\_persistent\_h64.cu 用于 64 头配置,model1\_persistent\_h128.cu 用于 128 头配置。在最新的 B200(SM100 架构)上有专门的 Head64 内核实现,而 SM100 的 Head128 实现仅支持 MODEL1,不支持 V3.2,有人猜测 DeepSeek 为适配英伟达新一代 GPU,专门优化了 MODEL1 的架构。

(@雷锋网)

02 有亮点的产品

1、苹果首款 AI 穿戴设备曝光:AirTag 尺寸胸针,双摄、三麦克风

1 月 22 日消息,科技媒体 The Information 发布博文,报道称苹果正在研发一款尺寸类似 AirTag 的「AI 佩戴式胸针」,计划最早于 2027 年发布。

这款设备目前的开发代号尚未公开,但其形态被描述为「类似 AirTag 大小的圆形圆盘」。项目仍处于早期阶段且存在取消风险,不过消息称苹果工程师正全力推进,目标定于 2027 年推向市场。

在硬件规格方面,这款 AI 胸针混合铝合金与玻璃外壳材质,厚度略高于 AirTag。为了实现环境感知,该设备正面集成了两颗摄像头(标准镜头与广角镜头),不仅能拍摄照片,还能实时捕捉用户周边的视频信息。

设备内置了三个麦克风用于精准收音,配备了一个扬声器进行语音反馈,并在边缘设置了一枚实体按键,背部采用了与 Apple Watch 相似的磁吸感应充电接口。

(@IT 之家)

2、苹果首款 AI 智能家居中枢爆料:带屏幕、会转头,最早今春登场

科技媒体 The Information 今天发布博文,爆料称苹果计划最快今年春季发布新款智能家居中枢(Home Hub),采用「机器人旋转底座」设计,根据声音或动作让设备自动转向用户。

消息称这款智能家居中枢不仅配备了小型显示屏和高保真扬声器,更引入了具身智能的关键组件「机器人旋转底座」,让设备能够物理转动,改变传统智能音箱被动静止的交互模式。

尽管爆料未详细阐述旋转底座的技术原理,但科技媒体 MacRumors 认为其核心目的是实现「视觉追随」。结合苹果在传感器领域的布局,该设备预计将搭载阵列式传感器,用于精准识别用户在房间内的位置。

例如用户发出语音指令或移动后,底座驱动屏幕自动转向用户,不仅能提供更好的视频通话视角,还能通过物理动作模拟注视感,赋予 AI 助手一种「视觉人格」,从而提升交互的沉浸感与自然度。

发布日期方面,供应链消息指出,其上市时间窗口将与 iOS 26.4 的发布时间高度重合。硬件上的灵动转向配合软件上的更智能 Siri,苹果有望重新定义智能家居的控制中心。

(@IT 之家)

3、字节 AI 硬件传人事变动:Oladance 创始人李浩乾或离职,新一代耳机与眼镜曝光

据蓝鲸新闻消息,字节跳动 Flow 旗下 Ocean 团队核心骨干、原 Oladance 创始人李浩乾或将离职。知情人士透露,目前内部人事调整仍存变数,不排除转岗等可能。 李浩乾曾任职于 Bose 并带领研发 QC35,后于 2019 年创立 Oladance 主攻开放式耳机。2024 年中旬,字节跳动以约 5000 万美元全资收购 Oladance,李浩乾随团队加入字节,职级定为 5-1,负责代号为「D 线」的 AI 可穿戴设备业务。

在收购完成后,字节跳动迅速整合资源,于 2024 年 10 月推出了首款搭载豆包大模型的智能耳机 Ola Friend,预售价 1199 元。该产品深度集成了豆包的语音交互能力,并于 2025 年 5 月上线了 AI 外教智能体「Owen」,支持英语对话、双语点评及职场模拟等功能,试图通过垂直场景切入教育硬件市场。然而,有消息显示该产品后期的市场反响未达团队预期。

面对硬件赛道的挑战,字节跳动正在加速调整产品布局。供应链信息指出,字节正研发新一代豆包 AI 耳机,由歌尔股份专门设立事业群负责代工,产品核心思路将转向与手机的深度协同。此外,豆包 AI 眼镜(无屏版)预计将于 2026 年第一季度面世,首批规划量约 10 万台,将采用邀请制发售。

(@多知)

03 有态度的观点

1、马斯克喊话「不要让亲人用 ChatGPT」,奥特曼回应:超过 50 人死于 Autopilot

昨天,特斯拉 CEO 伊隆 · 马斯克在 X 转发一则帖子,直言「不要让你的亲人使用 ChatGPT」。该帖子声称 ChatGPT 自 2022 年发布以来,已与 9 起死亡案例相关联。

OpenAI CEO 山姆 · 奥特曼随后对此进行回应,强调 OpenAI 在保护脆弱用户与确保产品可用性之间面临艰难平衡。

他表示「我们需要保护脆弱用户,同时确保所有用户都能从工具中受益」,并指出马斯克此前曾抱怨 ChatGPT 的内容审核「过于严格」。

在回应中,奥特曼还回击了特斯拉汽车的 Autopilot 自动驾驶功能。

他表示,自己曾乘坐搭载该系统的车辆,「第一反应是这远不是特斯拉应该发布的安全产品」,并暗示马斯克旗下 xAI 的 Grok 在内容安全上也存在争议。

《商业内幕》报道指出,围绕 ChatGPT 的安全性,OpenAI 目前已面临至少 8 起与心理健康恶化、自杀或暴力事件相关的诉讼;

而特斯拉 Autopilot 也卷入多起致死事故诉讼,包括一起发生于 2019 年、最终由陪审团裁定特斯拉承担 33% 责任的案件。

这场公开争执发生在双方长期法律纠纷的背景下。马斯克此前起诉了奥特曼及 OpenAI 高层,指控其偏离最初的非营利使命,并称自己曾为 OpenAI 的早期发展投入 3800 万美元。

( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考​

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、无界方舟 AutoArk-AI 发布 GPA 语音大模型:0.3B 轻量化架构实现 ASR/TTS/VC 统一建模

在克隆参考音频样本的音色的同时,从文本合成语音。

无界方舟 AutoArk-AI 正式推出通用音频模型「GPA」。该模型基于统一的自回归 Transformer 架构,在单一的大语言模型框架下,集成了语音识别(ASR)、语音合成(TTS)和语音转换(VC)三大核心任务

该模型的设计初衷在于改变传统语音系统碎片化的 Pipeline 设计模式。通过 0.3B 的轻量化参数量级,GPA 旨在实现端侧的高效部署以及跨任务的泛化能力

在技术架构上,GPA 放弃了任务特定的输出头,转而采用统一的离散音频 Token 空间。这一设计将理解、生成与编辑任务收敛至单一自回归模型中,从而减少了跨任务处理过程中的性能损耗。

交互方式上,模型采用指令驱动机制,通过文本指令来引导任务行为。它支持零样本语音克隆,用户无需调整架构或进行针对性微调,即可在 ASR、TTS 和 VC 之间进行动态切换。

针对边缘计算场景,官方提供了优化的 0.3B 参数版本。该版本兼容性广泛,支持 vLLM、llama.cpp、SGLang、MLX-LM 以及端侧硬件框架 RKNN。

在流式推理的延迟指标方面,测试数据显示:在 TTS 任务中,单并发平均 TTFC(首包延迟)为 258.8ms,RTF(实时率)为 0.197;在 ASR 任务中,单并发平均 TTFT(首 Token 延迟)为 157.5ms,能够支持高并发吞吐场景。

在性能对标测试中,针对中文 SEED 数据集的 TTS 零样本测试显示,GPA-0.3B 的 CER(字符错误率)为 0.95%。数据显示,该成绩优于同参数量级的 F5-TTS 模型。

目前,该模型的代码已开源,相关论文与 Demo 即将上线。使用许可方面,模型目前仅供学术研究与个人教育使用。

GitHub:
https://github.com/AutoArk/GPA

( @GitHub)

2、ElevenLabs 洽谈新一轮融资:估值或达 110 亿美元,有望成英国最有价值 AI 初创公司

据英国《金融时报》报道,AI 语音生成公司 ElevenLabs 正洽谈新一轮融资,计划从投资者处募集数亿美元资金。若交易达成,其估值或将在数月内翻倍至 110 亿美元

这一跃升将使 ElevenLabs 超越估值约 80 亿美元的自动驾驶公司 Wayve,成为英国最有价值的人工智能初创公司;同时,也将使其跻身欧洲顶尖行列,逼近法国 AI 模型公司 Mistral 约 120 亿美元的估值水平。

此次融资谈判距离公司上一次二级股份出售仅过去四个月,当时的估值为 66 亿美元。据悉,目前的会谈仍处于早期阶段,具体情况可能存在变数。

ElevenLabs 于 2022 年由波兰企业家 Mati Staniszewski 和 Piotr Dabkowski 在伦敦创立,目前已获得红杉资本(Sequoia)、Iconiq、Andreessen Horowitz、NEA 及 FT Ventures 等多家知名风投机构的支持。为了便于获取美国资本,公司已在美国注册,并在伦敦和纽约设有双总部。

在业务层面,ElevenLabs 专注于利用 AI 生成逼真的语音,广泛应用于客服、文本转语音及多语言配音等场景。公司业绩增长迅猛,去年年度经常性收入(ARR)已达到 3.3 亿美元,较 9 月份公布的 2 亿美元有显著提升。

宏观来看,尽管全球投资者对 AI 初创企业的兴趣持续高涨,但欧洲公司在募资规模上仍滞后于美国。作为对比,美国巨头 OpenAI 据传估值已达 5000 亿美元,并正商谈最高达 800 亿美元的新一轮融资,投后估值可能突破 8000 亿美元。

( @Benchmark Studio)

3、红杉资本「覆盖赛道」押注 Anthropic,新一轮融资目标约 250 亿美元,预计最快今年 IPO

据《金融时报》报道,红杉资本计划加入对 AI 初创公司 Anthropic 的新一轮重磅融资。此举打破了风险投资界通常避免在同一领域支持竞争对手的传统惯例,因为红杉此前已同时投资了 OpenAI 和埃隆·马斯克的 xAI。

本轮融资由新加坡政府投资公司(GIC)和美国投资机构科图(Coatue)领投。 据报道,两家机构各出资 150 亿美元。Anthropic 计划以 3500 亿美元的估值筹集 250 亿美元或更高资金,这一估值较四个月前的 1700 亿美元已翻了一番以上。此外,微软和英伟达据称已承诺共同出资最高 1500 亿美元。

红杉此次的投资时机颇受外界关注。OpenAI CEO 萨姆·奥尔特曼此前曾明确表示,虽然不禁止投资者投资竞品,但若投资者对竞争对手进行「非被动投资」,其接触 OpenAI 机密信息的权限将被终止。

尽管面临潜在的利益冲突,红杉仍选择进一步深化在 AI 领域的布局。 此前,红杉不仅支持了奥尔特曼创立的 Loopt 和其引荐的 Stripe,也通过投资 xAI、X、SpaceX 及 Neuralink 等公司与马斯克建立了广泛联系。

这一策略转变发生在该机构经历戏剧性的管理层变动之后。近期,红杉全球掌门人罗洛夫·博塔(Roelof Botha)离职,由林君睿(Alfred Lin)和帕特·格拉迪(Pat Grady)接手。这种多点押注的策略,与 2020 年红杉因利益冲突而放弃 Finix(Stripe 竞对)投资的历史立场形成了鲜明对比。

此外,报道还透露,Anthropic 正在积极筹备首次公开募股(IPO),最快可能在今年年内进行。

( @Z Potentials、@TechCrunch)

4、NVIDIA 发布 PersonaPlex:基于 Moshi 架构的 7B 全双工对话模型,支持混合 Prompt 定制

NVIDIA ADLR 团队近日正式发布了 PersonaPlex,这是一个参数量为 7B 的原生全双工语音对话模型。该模型通过摒弃传统的 ASR→LLM→TTS 级联架构,实现了超低延迟的实时语音交互,并着重解决了全双工模型在角色与音色自定义方面的局限性

在架构设计上,PersonaPlex 基于 Kyutai 的 Moshi 架构及 Helium 语言模型构建,并采用了 24kHz 采样率的 Mimi 神经音频编解码器。该架构支持模型同时处理音频输入流与输出流,从而具备了实时打断、背向渠道(Backchanneling,如「嗯」、「噢」)以及自然的轮替节奏等全双工特性。

为了提升定制化能力,模型引入了混合提示机制。 该机制包含双路输入控制:通过音频嵌入提取参考音频的声学特征,以控制发音风格与韵律;同时利用文本指令来定义角色的设定、背景知识及交互逻辑。

在训练数据方面,团队采用了脱耦与融合策略。模型使用了 1,217 小时的 Fisher English 真实对话语料来学习打断、情绪反馈等交互行为,并结合了约 2,250 小时由 Qwen3-32B 和 Chatterbox TTS 生成的合成数据,以强化指令遵循能力。

评测结果显示,在 FullDuplexBench 及新增的 ServiceDuplexBench 测试中,PersonaPlex 在顺滑轮替和暂停处理等指标上优于 Gemini 2.0 Flash Live 等商业模型。此外,在未见过的极端场景(如太空紧急状况响应)中,模型也展现出了技术推理与情绪同步能力

目前,该项目的代码采用 MIT 开源协议,模型权重则采用 NVIDIA Open Model License 协议。相关的测试集 ServiceDuplexBench 也将于近期开放。

HuggingFace:

https://huggingface.co/nvidia/personaplex-7b-v1

( @NVIDIA ADLR Blog)

02有亮点的产品

1、飞书发布首款硬件「AI 录音豆」:联手安克创新,争夺更近的上下文入口

据「智能涌现」报道,飞书联合安克创新发布首款智能硬件产品「AI 录音豆」,这也是飞书自 2017 年成立以来的首次硬件尝试。该产品被定义为飞书内部的探索性项目,由飞书团队负责软件部分的研发。

在此次合作中,飞书团队主要负责软件层面的研发。该设备通过极轻量化的设计捕捉物理场景语音,并结合豆包大模型,旨在实现办公上下文的自动化沉淀与结构化处理

在硬件形态上,AI 录音豆单体重量仅为 10g,含充电仓总重 48g,内部搭载了双 MEMS 麦克风阵列。产品采用了豆状设计,支持背夹或磁吸佩戴。这一设计旨在降低录音过程中的仪式感,以便更好地覆盖通勤、拜访等碎片化使用场景。

在续航与存储配置方面,配合充电舱使用,该设备可提供 32 小时的总续航时间,并支持快充技术,充电 10 分钟即可录音 2 小时。机身内置 8GB 存储空间,可存储约 250 小时音频,并支持蓝牙与 Wi-Fi 双模式传输。

核心功能方面,设备内置了豆包大模型,支持实时多模态纪要。具体能力涵盖发言人识别、待办事项自动提取以及柱状图等图例的可视化生成,用户可在录音过程中实时查看 AI 总结。

此外,该产品实现了与飞书生态的闭环打通。录音内容会自动沉淀至飞书知识库,用户随后可通过 AI 助手,以自然语言交互的方式对历史音频记录进行语义检索、提问及二次创作。

目前,该产品被定位为飞书内部的探索性项目,具体定价及正式发售日期暂未披露。

(@36 氪)

2、银河通用发布重载机器人 Galbot S1:50kg 双臂负载突破瓶颈,零遥操切入核心产线

「银河通用」正式发布工业级具身智能重载机器人「Galbot S1」。该机器人实现了 50kg 的双臂持续作业负载,并搭载全自主、零遥操的「具身搬运模型」。目前,产品已成功进入宁德时代等头部企业的核心产线,承担重型物料搬运及部件装配任务。

在负载能力上,Galbot S1 实现了显著突破。它拥有 50kg 的双臂持续负载能力,不仅对标人力搬运的极限,更突破了具身智能机器人普遍低于 10kg 的负载瓶颈,有效填补了轻型协作机器人与大型固定吊装设备之间的重载作业空白。

技术层面,该机器人采用了全自主的具身搬运模型。基于纯视觉感知方案,Galbot S1 无需依赖二维码或反光板等外部标记,即可支持动态光照、局部遮挡及人机混行等复杂工况,实现了零遥操下的端到端作业。

针对工业环境的适配性,整机具备 IP54 防水防尘等级,作业高度覆盖 0 至 2.3 米区间,能够适配从地面物料到高位货架的全场景搬运需求。

在续航与安全性方面,Galbot S1 支持 8 小时单次续航及自主换电功能,可实现 7×24 小时连续运转。同时,系统配备了毫秒级安全响应机制与 360° 全向避障能力,确保作业安全。

此外,银河通用通过在宁德时代、博世、丰田等真实产线的长期运行,构建了场景数据闭环,持续强化具身智能大脑在严苛节拍下的稳定性。

目前,公司已完成 21 亿元融资,估值突破 200 亿元,正积极推进千台级的工业部署。

(@量子位)

3、全球首个全年龄段覆盖,京东京造第二批 AI 玩具上线

近日,京东京造正式宣布上线第二批自研 AI 玩具。此次发布的新品在此前针对儿童开发的陪伴玩具基础上,进一步推出了面向年轻人及老年群体的 AI 玩具,实现了全球首个全年龄段用户需求的覆盖

京东 JoyInside 为硬件注入了「长期记忆」与「情境感知」能力,能够理解对话的上下文,也成为首个根据不同年龄段用户的偏好与习惯进行优化的系统平台。

这项能力被深度应用于不同年龄层的需求设计中:系统能识别婴幼儿的哭声并给予安抚,为儿童提供启蒙引导并识别潜在风险,与年轻人进行有深度的主题聊天,也能用方言陪伴老年人,并关注他们的健康与社交需求。

回顾市场表现,首批 AI 玩具上市后,被用户视为「游戏搭子」、「情绪树洞」及「知识导师」,在帮助儿童减少电子屏幕依赖方面发挥了作用。数据显示,接入 JoyInside 的智能硬件平均对话轮次提升超过 120%,多款产品上线即售罄,且保持了极低的退货率。

截至目前,京东 JoyInside 已携手超过 40 家硬件品牌,涵盖 AI 玩具、机器人等品类。

(@IT 之家、@京东黑板报)

03有态度的观点

1、DeepMind CEO:AGI 5-10 年内实现

日前,Google DeepMind CEO Demis Hassabis 接受了 CNBC 的节目采访,与主持人共同讨论了缩放定律的重要性以及发展通用人工智能(AGI)的持续追求。

Demis 表示,自己依然认为 5 到 10 年内 AGI 能得以实现。

其指出,包括 AI 在内的 AGI 将涉及 LLMs 和世界模型的组合,而不是一个组件取代另一个组件。

Demis 认为,AI 可能需要更好的推理、长期规划和 「世界模型」 的概念,以更好地理解物理学并进行模拟,反映人类科学家的工作。其也强调,除了世界模型之外,AGI 可能还需要其他类型的技术和能力。

同时他也表示,为了使 AI 在科学能力方面取得进步,它需要能够提出新的假设和想法,而不仅仅是解决现有的猜测。

( @APPSO)

04社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、招聘 AI Agent 开发工程师

22-35K·13 薪深圳 5-10 年 本科

岗位职责:

  1. 负责 AIAgent 系统的架构设计与工程实现,包括智能体的任务规划、决策逻辑、工具调用以及记忆管理等核心模块。
  2. 深入集成与优化大语言模型(LLM),通过提示工程、微调等技术路径,持续提升 AI 助手的对话质量、逻辑推理能力及任务执行准确性。
  3. 为 AI 助手连接并管理各类外部工具与 API(如搜索、数据库、第三方服务),构建其实际解决问题的能力,同时确保执行过程的安全与可控。
  4. 建立针对 AI 助手性能的评估、监控与迭代闭环,通过数据分析驱动产品体验的持续优化。5.编写高质量、可维护的代码,并将 AIAgent 系统部署至生产环境,保障其高可用性与低延迟。

任职要求:

  1. 计算机科学、软件工程或相关专业本科及以上学历,具备 3 年以上后端或 1 年以上 AI 应用开发经验。
  2. 熟悉 PyTorch、TensorFlow 等主流深度学习框架,具备扎实的工程能力和良好的编码习惯。
  3. 对大语言模型及 AIAgent 技术栈有深入理解和实际项目经验。
  4. 拥有强烈的产品意识和用户同理心,关注技术落地对用户体验的实际影响,具备优秀的数据分析能力和问题解决技能。
  5. 有成功的 ToC 互联网产品或 AI 产品(如智能助手、对话机器人)开发及上线经验者优先。

联系人:李先生

联系方式:26905841@qq.com

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示:个人观点,仅供参考

根据今日GitHub监控数据,整理出以下13个与AI视频制作、小说创作及有声书生成高度相关的开源项目。今日重点发现包括功能强大的电子书转有声书工具ebook2audiobook,以及多款视频生成与语音克隆的新兴工具。

1. 有声书制作与语音克隆

  • ebook2audiobook

    • 项目介绍:一款功能强大的电子书转有声书转换器,支持CPU和GPU加速。
    • 核心功能

      • 多引擎支持:集成XTTSv2、Bark、Vits等多种TTS引擎,支持超过1110种语言。
      • 智能处理:支持按章节分割电子书,保留元数据,支持自定义语音克隆。
      • 广泛兼容:支持.epub、.pdf、.mobi等多种输入格式及.m4b、.mp3等输出格式,提供Gradio Web界面和Docker部署。
    • 项目地址https://github.com/DrewThomasson/ebook2audiobook
  • Dia-TTS-Server

    • 项目介绍:Dia TTS模型的自托管服务器实现。
    • 核心功能

      • API兼容:提供兼容OpenAI格式的API端点,易于集成。
      • 高级特性:支持SafeTensors/BF16加速、语音克隆及多角色对话生成,配备用户友好的Web UI。
    • 项目地址https://github.com/Gmzxdotzz/Dia-TTS-Server
  • ComfyUI-VoxCPM

    • 项目介绍:专为ComfyUI设计的插件,用于生成高表现力的语音。
    • 核心功能

      • 零样本克隆:支持在ComfyUI工作流中实现逼真的零样本语音克隆。
      • 情感表达:能够将文本转换为具有丰富情感色彩的音频。
    • 项目地址https://github.com/krishnasaivamsi/ComfyUI-VoxCPM
  • OpenVoice (VoltsyGM Fork)

    • 项目介绍:基于MIT和MyShell技术的即时语音克隆应用。
    • 核心功能

      • 风格控制:支持在克隆语音时精确控制说话的风格和语调。
    • 项目地址https://github.com/VoltsyGM/OpenVoice
  • local-voice-cloning-app

    • 项目介绍:一个轻量级的Python应用程序,用于本地语音克隆。
    • 核心功能

      • 简易工作流:提供简单的界面和流程来合成和克隆语音。
    • 项目地址https://github.com/Mohamedfat7i/local-voice-cloning-app

2. 视频创作与生成

  • MOBIUS

    • 项目介绍:一个专门用于生成桌游教程视频的AI工具。
    • 核心功能

      • 垂直领域生成:专注于将规则文本转化为直观的教学视频内容。
    • 项目地址https://github.com/w9bikze8u4cbupc/MOBIUS
  • AI-course-generator

    • 项目介绍:利用AI将长视频讲座转化为结构化在线课程的工具。
    • 核心功能

      • 课程结构化:自动生成成绩单、模块划分、课程内容及测验题。集成OpenAI Whisper和GPT-4 Vision技术。
    • 项目地址https://github.com/DavidFW27/AI-course-generator
  • VibeArt

    • 项目介绍:一体化的图像与视频生成工具。
    • 核心功能

      • 模型集成:结合开源与闭源模型,利用社区训练的LoRA优化特定风格的生成效果,降低提示词门槛。
    • 项目地址https://github.com/vibeart-in/VibeArt
  • mulmocast-cli

    • 项目介绍:AI驱动的播客与视频生成器。
    • 核心功能

      • 脚本驱动:使用"MulmoScript"脚本语言生成多模态演示内容,集成OpenAI、Google、Anthropic等多家模型。
    • 项目地址https://github.com/receptron/mulmocast-cli
  • Hollywood-Quality-UGC-Ad-Generator

    • 项目介绍:利用单张产品照片生成好莱坞级视频广告的工具。
    • 核心功能

      • 多模型协作:通过n8n编排,结合Sora 2、GPT-4o和Gemini 2.5 Pro实现高质量广告生成。
    • 项目地址https://github.com/Saurabh22111998/Hollywood-Quality-UGC-Ad-Generator
  • AIQuoteClipGenerator

    • 项目介绍:基于MCP的自动化名言视频生成器,面向Instagram/TikTok。
    • 核心功能

      • 自动剪辑:自动生成包含名言的短视频片段,适合社交媒体快速传播。
    • 项目地址https://github.com/mercyg/AIQuoteClipGenerator

3. 小说与故事创作

  • Ghost-Writer

    • 项目介绍:一个AI驱动的故事创作引擎。
    • 核心功能

      • 引导式写作:逐步引导用户完成小说创作过程,充当智能写作助手。
    • 项目地址https://github.com/MAS-D-KING/Ghost-Writer

https://track.linso.ai/zh/execution/cmihfy83n07utl6945ke9i2yh