百度发布文心 5.0，原生全模态统一建模

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

01 有话题的技术

1、百度发布「文心 5.0」正式版：2.4 万亿参数 MoE 架构，实现原生全模态统一建模

在文心 Moment 大会上，百度正式上线「文心 5.0」大模型，采用 2.4 万亿参数的超大规模 MoE 架构。该模型放弃了业界主流的多模态后期融合方案，通过原生全模态统一建模技术，实现了跨模态特征的深度融合，在 LMArena 文本与视觉榜单中位列中国模型首位。

2.4 万亿参数 MoE 架构：采用超大规模混合专家模型结构，总参数量达 2.4T，激活参数比例低于 3%，在提升模型容量的同时显著降低了单次推理的计算成本。
原生全模态统一建模：基于统一的自回归架构，将文本、图像、音频、视频数据在同一框架内进行联合训练。相比传统的模块化拼接方案，该架构有效避免了跨模态信息损耗与灾难性遗忘。
智能体与工具调用增强：利用合成长程任务轨迹数据，结合思维链（CoT）与行动链（AoT）进行端到端多轮强化学习训练，提升了复杂逻辑推理、规划反思及 API 调用精度。
LMArena 榜单表现：在最近三个月内五次登榜 LMArena，其文本与视觉理解能力稳居国际第一梯队，是目前唯一进入全球顶尖阵列的国产大模型。

模型已正式上线。个人用户可通过文心一言官网或 APP 体验；企业级用户与开发者可通过百度千帆平台调用 API。

（@智东西）

2、开源智能体「Clawdbot」走红：支持本地 7x24h 运行，具备系统 Shell 权限与长时记忆

开发者 Peter Steinberger 开源的「Clawdbot」通过本地网关架构，将 Claude、GPT 等 LLM 转化为具备 OS 级权限的 7x24h 智能体。它支持通过 WhatsApp、iMessage 等即时通讯工具远程驱动本地环境，实现了从「对话框 AI」到「自主执行器」的转变。

架构与多模态接口：采用本地网关作为控制中心，支持通过 WhatsApp、Telegram、iMessage 等 IM 接口远程下发指令；后端兼容 Anthropic、OpenAI API 或通过 Ollama 等部署的本地模型。
系统级执行权限：具备完整的 Shell 与文件系统访问权，能自主编写代码、安装依赖、运行 Cron 定时任务，并支持通过 MCP 服务器扩展外部集成能力。
本地化持久记忆：交互背景、用户偏好与操作日志以 Markdown 格式存储于本地硬盘。模型可实时检索历史记录实现跨周期的任务追踪，解决了原生 LLM 易遗忘上下文的痛点。
能力自扩展：用户可通过自然语言指令要求智能体开发新功能模块并自动安装部署，实现复杂工作流（如内容抓取、自动化邮件管理、API 调度）的闭环执行。
安全风险与漏洞：由于智能体拥有高阶 Shell 访问权限，存在严重的「提示注入」风险。已有案例显示恶意指令可能导致敏感文件（如 SSH 密钥）泄露或资产损失。

项目已在 GitHub 开源（stars 突破 26k），支持 Mac、Windows、Linux 或 VPS 部署。

官网链接：
https://clawd.bot

demo 链接：
https://clawd.bot/showcase

GitHub：
https://github.com/clawdbot/clawdbot

（@新智元）

02 有亮点的产品

1、苹果将于 2 月份发布基于 Gemini 架构的 Siri 语音助手

据彭博社报道，由 Google Gemini 技术深度驱动的新一代 Siri 最快下个月开始在 iOS 26.4 测试版上亮相，同时重构多项核心应用的 AI 体验。

彭博社记者马克・古尔曼昨天在《Power On》专栏中指出，苹果在 2025 年中期已开始与多家模型供应商接触，包括 Anthropic 与 OpenAI，但前者报价过高，后者则因积极挖角苹果工程师及硬件布局而存在战略冲突。

最终，苹果选择 Gemini，部分原因还包括去年 9 月美国法院裁定无需拆分苹果与 Google 的搜索合作关系，为双方进一步合作扫清障碍。

具体时间点方面，古尔曼认为，首批由 Gemini 支持的 Siri 功能将随 iOS 26.4 在下月进入测试阶段，并计划于今年 3 月至 4 月间正式推送。

该版本 Siri 将运行在苹果的 Private Cloud Compute 服务器上，内部代号为 Apple Foundation Models version 10，规模约为 1.2 万亿参数。

更大幅度的升级将在今年 WWDC 亮相。苹果正开发代号「Campos」的全新 Siri 架构，将在 iOS 27、iPadOS 27 与 macOS 27 中推出，具备更强的上下文理解、持续对话能力，并深度整合至 Safari、TV、Health、Music、播客等核心应用。

与此同时，苹果内部的 AI 组织也在经历重大调整。随着原机器学习与人工智能战略高级副总裁约翰・吉安南德雷亚离职，软件工程负责人克雷格・费德里吉接管 AI 方向，并推动与 Google 的合作落地。

部分原有项目，如基于内部模型的「全球知识问答」与 AI 版 Safari 升级计划已被缩减或暂停，但仍可能在 WWDC 前重启。

报道还提到，苹果正讨论让未来版本的 Siri 直接运行在 Google 云端的 TPU 上，以提升性能与响应速度。同时，苹果仍在开发更高性能的自研服务器，以支持长期的云端 AI 布局。

苹果自去年推出 Apple Intelligence 以来，新增的 AI 功能相对有限，仅在 Apple Music 与 Apple Watch 等应用中上线少量更新。

随着内部模型研发受阻、人才流失加剧，以及 Siri 延宕多时的升级计划迟迟未能落地，苹果在去年下半年重新评估其 AI 路线，并最终决定与 Google 达成合作，将 Gemini 引入 Siri 与 Apple Intelligence 的底层架构。

随着新一代 Siri 即将亮相，苹果正试图在生成式 AI 竞争中缩小与 ChatGPT、Gemini 等产品的差距。

( @APPSO)

2、银河通用成为 2026 春晚指定具身大模型机器人

昨天，中央广播电视总台和银河通用机器人共同宣布，银河通用机器人成为 2026 年春节联欢晚会指定具身大模型机器人。

银河通用机器人表示，公司长期聚焦具身大模型与人形机器人研发，已形成覆盖零售、工业、医疗、文旅等多行业的「机器人服务生态」。

公司通过自研具身大模型体系与高可靠人形机器人本体，在复杂场景中展现出自主决策、泛化能力与抗干扰性能，为人机协作提供可规模化落地的技术路径。

近期，银河通用完成 3 亿美元融资，估值突破 30 亿美元，继续位列国内具身智能企业前列。公司表示，将借助春晚这一国家级舞台展示具身智能的前沿成果，并以更具温度的交互体验呈现科技创新的现实价值。

随着春节临近，银河通用的人形机器人已在零售、文旅等场景以多种形式亮相，从太空舱咖啡服务到地方特色舞蹈表演，成为今年「科技年味」的重要组成部分。

( @APPSO)

3、前 Google 团队创办 Sparkli：已完成 500 万美元融资，用生成式 AI 重构儿童「沉浸式」学习体验

由前 Google Area 120 内部孵化器核心成员联合创办的教育科技初创公司 Sparkli，旨在解决通用大模型在儿童教育场景中文本堆砌的交互痛点。公司已完成由瑞士风投 Founderful 领投的 500 万美元 Pre-Seed 轮融资。

核心产品逻辑与差异化：

生成式多模态交互： 不同于传统 AI 助手的纯文本回答，Sparkli 利用生成式 AI 实时构建包含音频、视频、图像及游戏化测验的「学习探险」。系统能在用户提问后的 2 分钟内生成完整的互动课程，旨在将抽象概念（如火星环境）具象化。
补充现代教育缺口： 课程内容侧重于学校教育往往滞后的领域，如金融素养、设计思维及创业精神。
游戏化激励机制： 借鉴 Duolingo 的设计理念，引入连胜、奖励机制及基于头像的任务卡，以提升 5-12 岁儿童的学习粘性。

安全护栏与教学法融合：

专业背书： 为避免沦为单纯的技术工具，Sparkli 的首批核心雇员包括教育科学 PhD 及资深教师，确保内容生成遵循科学的教学法原则。
情感智能引导： 针对安全合规，系统严禁色情等敏感内容。对于「自残」等极端话题，App 不会直接生成答案，而是侧重于教授情感智力，并引导儿童与家长进行沟通，以此规避类似 Character.ai 面临的法律与伦理风险。

商业化进展与路线图：

B 端先行，C 端跟进： 目前 Sparkli 正与一个覆盖 10 万学生的学校网络进行试点，并开发了教师端模块，支持进度追踪与作业布置。
发布计划： 产品已在 20 多所学校完成测试，计划于2026 年年中正式面向消费者（C 端家长）开放下载。

( @TechCrunch)

4、Interactpitch：交互式 AI 演示，实时数据追踪

Interactpitch 将静态融资演示文稿转化为由 AI 智能体引导的交互式体验。通过集成自定义虚拟人和实时数据追踪，该工具允许创始人在正式会议前通过 AI 与投资者进行异步沟通，并获取关于观众关注点、参与深度及潜在问题的结构化反馈。

幻灯片感知知识库：AI 智能体通过对幻灯片文本、图像内容及用户上传的补充背景资料进行 Grounding，能够根据当前展示页面提供上下文相关的回答，并支持动态语音/文本追问。
低延迟语音交互集成：底层接入「Cartesia Sonic」API，支持通过单张照片生成自定义 AI 形象，并提供高自然度的实时语音合成（TTS）能力。
高颗粒度参与度分析：系统实时监测投资者的交互行为，包括特定页面的停留时长、点击分布以及在互动过程中产生的提问记录。
非脚本化动态推理：AI 响应不依赖固定脚本，支持处理超出幻灯片范围的通用问题；当问题超出预设知识库边界时，智能体会引导用户回归核心议题或提供一般性回答。
像素级导入与移动端优化：支持演示文稿的像素级保真导入，并针对移动端进行了 UI 适配，确保跨平台的交互一致性。

03 有态度的观点

1、雷蛇 CEO：我们投了 6 亿美元，但玩家还是讨厌生成式 AI

雷蛇 CEO 陈民亮近日在 The Verge 旗下播客节目《Decoder》中谈及游戏行业对生成式 AI 的普遍反感情绪，并回应公司在 AI 方向上的大规模投入。

他表示，雷蛇已在 AI 技术上累计投入约 6 亿美元，但玩家对低质量生成式内容的排斥依旧强烈，这也是当前行业矛盾的核心。

陈民亮指出，玩家真正不满的是「生成式 AI 产出的垃圾内容」，包括角色模型畸形、剧情质量低下等问题。

他强调，雷蛇与玩家立场一致，反对以少量提示词批量生成低质量内容。他认为 AI 的价值应体现在「辅助开发者」而非「替代创作」，例如提升 QA 测试效率、自动记录 Bug、检查拼写错误等，这些都能帮助开发者更快、更好地完善游戏。

在节目中，陈民亮进一步解释了雷蛇的 AI 战略。他透露，公司计划招聘 150 名 AI 工程师，并将 AI 视为一场长期押注，希望借此抵御市场炒作周期与玩家情绪波动。

他同时强调，雷蛇的 AI 布局并非局限于生成式内容，而是贯穿硬件、软件与服务生态，包括智能耳机 Motoko、AI 角色 Ava 等概念产品。

对于外界关注的 AI 安全与情感依赖问题，陈民亮表示，Ava 目前仍处于概念阶段，公司会在正式推出前持续收集反馈并强化安全机制。

他强调，雷蛇不会鼓励用户与 AI 角色建立情感依赖关系，产品的核心目标仍是提供实用价值与更自然的交互体验。

在硬件层面，他提到行业正面临内存与 GPU 成本上涨的压力，雷蛇尚无法确定未来产品的最终定价。

此外，他认为 AI 将成为未来硬件的重要组成部分，但雷蛇的策略是通过开放、多模型支持与自研上下文系统，构建面向玩家的垂直生态，而非与模型提供商直接竞争。

( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考

百度发布文心 5.0，原生全模态统一建模

01 有话题的技术

02 有亮点的产品

03 有态度的观点

添加新评论

最新文章

最近回复

分类

归档

其它