虚拟办公室Gather重组:AI团队并入Figma;蚂蚁开源Ming-Flash-Omni 2.0:全场景音频统一生成模型丨日报
开发者朋友们大家好: 这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。 本期编辑:@瓒an、@鲍勃 1、MOSS-TTS 亮相,支持精细发音控制与长音频生成,打造生产级语音基础模型 模思智能及 OpenMOSS 团队近日正式发布并开源了 MOSS-TTS Family 语音生成模型家族。这套工具链并未追求单一模型能力的堆叠,而是针对真实创作与交互需求,将语音生成拆解为五个核心模块: 技术层面,MOSS-TTS Family 基于高质量 Audio Tokenizer、大规模多样化数据及高效离散 Token 建模方法。其中,MOSS Audio Tokenizer 采用 1.6B 参数的纯 Transformer 架构,实现了高压缩比与语义-声学统一表征。为兼顾生产落地与学术研究,团队同时开源了两套互补架构:适合长文本生成与规模化部署的 Delay-Pattern (MossTTSDelay),以及适配流式交互的 Global Latent + Local Transformer (MossTTSLocal)。 此外,MOSS-TTS 系列已实现对壁仞科技壁砺™ 166M 的 Day-0 高性能推理支持,展现了对国产算力生态的兼容性。该模型家族的发布,试图通过覆盖「稳定生成、灵活设计、复杂对话、情境补全、实时交互」的全维度能力,为行业提供一套可直接接入工作流的声音创作生态闭环。 相关链接: GitHub: ( @机器之心 ) 2、智谱上线全新模型 GLM-5 刚刚,智谱正式上线并开源最新模型 GLM-5。 据介绍,GLM-5 是迈向 Agentic Engineering 的产物:在 Coding 与 Agent 能力上,其取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程 Agent 任务。 GLM-5 采用全新基座:参数规模从 355B(激活 32B)扩展至 744B(激活 40B),预训练数据从 23T 提升至 28.5T;构建全新的「Slime」框架,支持更大模型规模及更复杂的强化学习任务。 同时,GLM-5 还首次集成 DeepSeek Sparse Attention(稀疏注意力),在维持长文本效果无损的同时,大幅降低模型部署成本。 具体表现上: 值得一提的是,目前 GLM-5 已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配。通过底层算子优化与硬件加速,GLM-5 在国产芯片集群上已经实现高吞吐、低延迟的稳定运行。 即日起,GLM-5 在 Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License。同时 GLM-5 已纳入 GLM Coding Plan Max 套餐。 GitHub: Hugging Face: ( @APPSO) 3、蚂蚁开源全模态大模型 Ming-Flash-Omni 2.0 2 月 11 日,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。 在多项公开基准测试中,Ming-Flash-Omni 2.0 在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro,成为开源全模态大模型性能新标杆。 据悉,Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。 模型在推理阶段实现了 3.1Hz 的极低推理帧率,实现了分钟级长音频的实时高保真生成,在推理效率与成本控制上保持业界领先。 值得一提的是,Ming-Flash-Omni 2.0 基于 Ling-2.0 架构(MoE,100B-A6B)训练,围绕「看得更准、听得更细、生成更稳」三大目标全面优化。 目前,Ming-Flash-Omni 2.0 的模型权重、推理代码已在 Hugging Face 等开源社区发布。用户也可通过蚂蚁百灵官方平台 Ling Studio 在线体验与调用。 Hugging Face: GitHub: ( @APPSO) 4、Rokid Glasses 上线「自定义智能体」:支持接入 OpenClaw 与 DeepSeek 等私有大模型 Rokid 宣布其灵珠平台正式上线「自定义智能体」功能,允许 Rokid Glasses 用户通过标准的 SSE 接口,接入自定义后端服务。这一更新回应了极客用户对于接入私有大模型、本地 NAS 运行 AI 以及调用自定义 Python 脚本的需求,标志着该产品开始将 AI 助手的定义权交还给用户。 此次更新打破了厂商定义能力的传统模式,支持接入包括开源社区热门的 OpenClaw 框架,以及 DeepSeek R1、Qwen3、Kimi K2.5 等私有部署模型。通过这种开放策略,Rokid Glasses 试图构建一种硬件负责感知(看与听)、后台负责思考与执行的 AR 形态。 接入自定义智能体(如 OpenClaw)为用户带来了三个维度的能力提升: 在具体部署方面,开发者需在 Rokid 开放平台注册并完成实名认证,随后在灵珠平台创建智能体并配置 URL 与鉴权信息。针对仅限个人使用的智能体,官方提示无需提交审核,直接通过个人账号调用即可,以避免误触提审流程。 鉴于接入门槛较高且涉及网络安全,Rokid 建议开发者使用阿里云或腾讯云等云服务器部署 OpenClaw,而不推荐在本地私人电脑使用内网穿透工具。配置完成后,用户可在 Rokid AI App 中调试,并通过眼镜端的语音指令或快捷指令唤起私有智能体。 GitHub: (@Rikid 乐奇、@IT 之家) 1、Gather 宣布重组:AI 团队并入 Figma,核心业务转型独立盈利模式 2026 年 2 月 9 日,Gather 发布了关于公司未来的战略更新。自成立以来,Gather 一直致力于通过「虚拟办公室」消除机会与连接的物理障碍,目前该产品已实现盈利并持续增长,服务于全球数千家企业。然而,公司管理层经过评估后认为,尽管现有产品具有长期价值和可持续性,但已不再符合最初设想的风投级增长模式。 为了确保核心使命的延续,Gather 宣布将采取两项关键举措来进行重组: 对于现有客户,Gather 承诺服务将不会发生任何变化。转型为独立业务后,团队将拥有更大的自由度来响应那些长期存在的用户需求,并继续保持其一贯的创新精神。此次调整被视为 Gather 回归初心的举措,使其能以更专注的方式在远程协作领域发挥所长。 ( @Gather Blog) 2、Willow 发布开发者语音工具,支持 Cursor、Antigravity 等主流 AI IDE 2026 年 2 月 12 日,Willow 正式推出了面向开发者的语音听写工具「Willow for Developers」,该工具专为 Vibe Coding 工作流打造。针对 Andrej Karpathy 曾提出的「英语是目前最热门的新编程语言」这一观点,Willow 将传统的键盘输入视为开发过程中的瓶颈,并试图通过语音交互来消除这一障碍。 该工具的核心逻辑建立在说话与打字的速度差异之上。Willow 指出,人类的平均语速约为每分钟 200 个单词,而打字速度仅为每分钟 60 个单词。通过口述提示词,开发者能够比打字时更自然地提供丰富的细节和上下文信息。在 AI 辅助开发的语境下,这种高密度的上下文输入有助于 AI IDE 生成质量更高的代码。 在具体功能层面,Willow 针对编程场景进行了多项优化: ( @WillowVoiceAI\@X) 3、Simple AI 完成 1400 万美元种子轮融资:First Harmonic 领投,打造转化率超人工 30% 的语音智能体 语音 AI 智能体平台 Simple AI 于 2026 年 2 月 10 日宣布完成 1400 万美元种子轮融资,由 First Harmonic 领投,Y Combinator 等机构跟投。资金将用于开发语音智能体平台、构建定制生成式 AI 模型及商业分析工具。 Simple AI 的核心业务是利用语音 AI 自动化处理销售与支持来电。平台可导入企业完整产品目录(含 SKU 及定价),在通话中调用实时客户数据进行个性化互动,并执行下单等操作,同时生成通话记录与分析报告。技术上,该平台宣称将全链路延迟控制在 850 毫秒以内,涵盖语音检测到文本转语音的全流程,以确保对话自然流畅。 该技术试图解决呼叫中心的三大挑战: 平台还提供实验工具,支持调整 AI 智能体的语速、性别和口音。联合创始人 Catheryn Li 表示,优质的语音智能体能改善通话体验;CTO Zach Kamran 则指出,智能体能瞬间掌握所有产品细节。数据显示,其 AI 智能体在牛排销售、保险等领域的转化率比人工客服高出 30%。 投资方 First Harmonic 评价称,团队并未依赖现有方案,而是从零构建了完整的语音 AI 技术栈。两位创始人相识于 Y Combinator,在接触大语言模型早期研究后,决定将其应用于语音领域。 ( @BusinessWire) 1、AI 非但未减负,反而加剧职场倦怠 据 Techcrunch 报道,如今美国职场文化中最具诱惑力的说法,并非人工智能会抢走你的工作,而是它能把你从繁重的工作中解脱出来。 过去三年里,科技行业一直在向数百万焦虑不安的人兜售这一理念,而人们也迫切愿意相信。诚然,部分白领岗位将会消失。但该观点声称,对大多数其他职位而言,人工智能是能力放大器。工具为你所用,你不用再拼命工作,人人都是赢家。 但《哈佛商业评论》(Harvard Business Review)新近发表的一项研究,顺着这一前提推导得出了真实结论:研究发现的并非一场生产力革命,而是企业有可能变成让人精疲力竭的机器。 加州大学伯克利分校的研究团队在一家 200 人规模的科技公司进行了为期八个月的实地观察。研究发现,尽管公司管理层并未施加额外压力或设定新业绩目标,员工在深度接纳 AI 后,工作状态却发生了微妙变化。仅仅因为工具提升了可行性,员工便主动承担更多任务,导致工作逐渐侵占午休时间甚至蔓延至深夜。AI 节省出的每一小时,迅速被不断膨胀的待办事项填满。一位工程师在访谈中坦言,原本期望的高效率能带来闲暇,现实却是工作量不降反增。 此前已有数据佐证了类似迹象:去年夏天的实验显示,资深开发者使用 AI 后实际耗时增加 19%,尽管其自我感觉效率提升了 20%;美国国家经济研究局的数据也表明,AI 带来的生产力提升仅相当于节省 3% 的时间。 与上述研究不同,这项新研究并未质疑 AI 对个人能力的提升作用,而是揭示了这种提升的副作用。研究指出,随着组织对响应速度和工作效率的要求水涨船高,技术赋能最终导向了疲劳、职业倦怠以及强烈的「无法抽身感」。科技行业寄希望于通过「做更多事」来解决问题,但这或许正是新问题的开端。 (@IT 之家) 招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」) 1、招聘工程研发、算法、产运等岗位 来自社区开发者 Polande: 招聘岗位(北京) 1.工程研发/Agent 研发 2.语音算法 3.产品运营、用户增长 4.AI 创新独立小团队(3 人)** 期望:热爱 AI、了解 AI、了解 SaaS、能够用 AI 在工作中实质的提效落地。 关于公司 1.方向是做语音对话的 SaaS -> Agent 平台产品 2.上市公司内的创业团队,当前 30 人,26 年控制在 50 人左右(创业氛围,暂时不需要融资 3.产品:0.7 阶段 关于我 原先在百度和现在团队一直是做 AI 商业化方向,接近小十年的智能语音交互,但是现在还是有很多事情会感觉到兴奋。 有意向可以联系 polandeme\@gmail.com 写在最后: 我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。 对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。 作者提示: 个人观点,仅供参考
01 有话题的技术


https://mosi.cn/models/moss-tts
https://github.com/OpenMOSS/MOSS-TTS
https://github.com/zai-org/GLM-5
https://huggingface.co/zai-org/GLM-5
https://huggingface.co/inclusionAI/Ming-flash-omni-2.0
https://github.com/inclusionAI/Ming
https://github.com/openclaw/openclaw02 有亮点的产品
03 有态度的观点
04 社区黑板报


