Hugging Face 开源本地音频模型微调工具集 smol-audio
开发者朋友们大家好: 这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。 本期编辑:@koki、@鲍勃 1、Hugging Face 发布 smol-audio:针对本地音频模型微调与多模态检索的开源工具集 Hugging Face 开源了名为 smol-audio 的代码库,其中包含一系列 Notebook 和脚本。该工具包直接为开发者提供了一套开箱即用的脚手架,用于在本地环境中基于前沿音频模型进行二次开发、微调部署与多模态检索。 主流语音大模型微调支持:内置完善的脚本,支持对 Whisper、Parakeet、Voxtral 以及 Granite Speech 等前沿本地语音模型进行直接微调。 Audio Flamingo 3 适配:针对多模态音频语言模型 Audio Flamingo 3,同步提供了全量参数微调(Full fine-tuning)与 LoRA 参效微调的完整代码实现。 对话级 TTS 部署:工具库集成了 Dia-1.6B 模型,开发者可直接调用并运行对话级文本转语音任务。 零样本多模态检索:接入 Meta 的 PE-AV 模型,支持开箱即用的零样本(Zero-shot)视频与音频到文本(video + audio↔text)的双向跨模态检索。 https://github.com/Deep-unlearning/smol-audio (@Tu7uruu\@X) 2、GPTImage2 成为赛博半仙,给马斯克看面相 在消耗了无数张 GPU 资源、烧掉了够几座城市用一年的电力之后,OpenAI 最新推出的 AI 生图大模型 GPT-Image-2,再次迎来了它人生中的高光时刻——给人类看手相/面相。 只要拍一张自己手掌的高清照片发给 GPT-Image-2,再附上一段简单的 Prompt,它就会化身天桥底下的赛博半仙,为你生成一份排版精美、用词考究的掌纹性格与职业指南。这场由 AI 爱好者 Linus Ekenstam 率先发起的趣味测试,迅速演变成全网算命狂欢。 连 Reddit 联合创始人 Alexis Ohanian 都没忍住,乖乖把自己的手掌特写交给了 AI。然后心满意足地领走了一个「适合创业的务实理想主义者」高帽标签。 除了看手相,甚至还有看面相的版本。世界首富马斯克被测出了「理性,克制,稳健」。 不过,其实手掌、指纹属于敏感生物特征数据,随意上传公开存在泄露与滥用风险。同时,这类分析仅为娱乐参考,并非科学判断。 (@APPSO) 1、SOLO 上线桌面/网页端语音交互功能:支持结构化转录与功能直调,同步发布 TRAE × 影石 Insta360 联名 Mic Air 字节跳动旗下生产力工具 SOLO(TRAE)正式在桌面端与网页端集成语音输入功能,由火山引擎提供技术支持。该功能通过 AI 实现口语到结构化文本的自动整理,并支持通过自然语言直接调用产品内部命令(Command),旨在将语音转化为可执行的工作流指令。 (@TRAE.ai) 2、「数字孙辈」记忆小舟:面向老年人的生活史数字化存档工具,支持非线性方言对话与结构化档案生成 中国传媒大学「银发记忆工程」团队推出「记忆小舟」系统。该产品以硬件终端为入口,通过「数字孙辈」智能体实现对老年人非线性、多方言口述史的自动化采集、语义理解与结构化整理。 ( @APPSO) 3、蚂蚁灵光将世界模型搬上移动端,一图即可生成可交互 3D 场景 昨天,蚂蚁灵光 App 正式上线「体验世界模型」功能,成为业内首个可在移动端体验世界模型的 AGI 产品。用户只需上传一张图片,即可在手机上最长 60 秒探索 AI 即时生成的 3D 世界。 在交互设计层面,灵光针对移动端用户习惯引入了手游摇杆操控方式—— 屏幕左侧摇杆控制角色在 3D 场景中的位移,右侧摇杆控制视角旋转,操控逻辑与主流 3D 手游高度一致,无需额外学习即可上手。 针对移动端世界模型算力需求大、延迟控制难、终端性能参差不齐等挑战,灵光团队采用高效低延迟的流式传输技术,将响应延迟压缩至百毫秒级。 (@APPSO) 4、Helio 发布 AI 原生协作平台:构建具备独立 Context 与权限体系的「AI 同事」矩阵 AI 劳动力平台 Helio 正式上线,提出 「AI 原生原住民」 概念,将 AI 智能体(Agent)深度嵌入组织架构。通过赋予 AI 独立身份、实时同步全维度 Context 以及建立分级授权护栏,Helio 旨在实现从「被动响应工具」到「主动执行同事」的任务流转化,降低人类在多智能体环境下的决策负荷。 参考链接:https://www.helio.im/ (@Z Potentials) 1、声网冯晓东:当供应链走向成熟,「感官体验」将成为硬件产品体验和商业化核心突破口 声网 Physical AI 产品负责人 冯晓东(右) 随着人形机器人在半马赛事中大幅打破人类纪录并超越老牌企业,机器人硬件供应链的成熟度已得到验证。声网 Physical AI 产品负责人冯晓东指出,行业正经历从「技术驱动」向「价值体验驱动」的拐点。硬件本体决定了机器人的能力下限,而以音视频交互为核心的「感官体验」将成为决定产品体验上限和商业化差异的核心突破口。 过去,市场普遍认为机器人的运动控制和结构设计是难以逾越的壁垒。然而,跨界入局的产品(如荣耀「闪电」机器人)在不到一年时间内便在半马赛事中超越深耕十年的老牌企业。这一现象标志着机器人底层逻辑被改写:当硬件不再是核心瓶颈,市场对机器人的追求将从「跑得快、动得稳」转向「听得懂、看得懂、融得进」。 2025 年机器人产业已走过「认知启蒙」阶段,正式迈入「场景落地」与商业变现期。以自然语言交互为核心的陪伴、服务类机器人率先爆发。例如珞博「芙崽」陪伴机器人不仅销量破 25 万,更成功实现了用户为「流畅 AI 对话体验」买单的订阅制付费。消费端正从「功能尝鲜」转向「体验依赖」,大模型推动人机交互从图形界面(GUI)正式向对话式交互(CUI)跃升。 尽管云端大模型赋予了 AI 强大的「大脑」,但终端设备在复杂物理世界中仍面临严重的「感官短板」(如噪音干扰大、响应滞后、无法自然打断等)。 对此,声网提出专注打造「感官智能底座」的解法。自 2024 年 10 月起,声网推出对话式 AI 引擎(Conversational AI Engine),系统解决环境降噪、人声分离、优雅打断及低延迟传输等痛点。同时通过推出R1/R2 系列开发套件,声网帮助硬件以极低的功耗和小体积,实现从「能听会说」到「能看会动」的阶梯式升级,为 AI 装上拟人化的感知中枢。联合多家芯片原厂搭建 AOSL 开放生态,降低开发者接入门槛,不做硬件竞争者,只做行业「最可靠的感官底座」。 中国具身智能产业正站在全球浪潮的前沿。未来的机器人不仅要「跑赢数值」,更要拥有「灵魂」。随着「感官短板」被不断补齐,自然流畅的多模态交互将让 AI 真正走出「黑屋子」,全面融入人类的美好生活。 ( @凤凰网) 阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么 写在最后: 我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。 对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。 作者提示: 个人观点,仅供参考
01 有话题的技术


02 有亮点的产品








03 有态度的观点



