标签 MoE 下的文章

美团发布基于 N-gram 全新模型：嵌入扩展新范式，实现轻量化 MoE 高效进化

作者: 纯情
时间: 2026-02-10
分类: 资讯
评论

传统 MoE 架构通常通过增加专家数量来提升模型能力，但随着专家数量增加，会面临边际收益递减和系统通信开销上升等问题。美团 LongCat 团队通过全面的分析与实验发现：嵌入扩展相比专家扩展能获得更优的帕累托前沿。这意味着嵌入扩展在特定条件下相比专家扩展能实现更优的效能边界。

基于这些洞见，我们正式推出 LongCat-Flash-Lite——一款拥有 685 亿参数，每次推理仅激活29亿~45亿参数的轻量化 MoE 模型。通过将超过 300 亿参数高效用于嵌入层，LongCat-Flash-Lite 不仅超越了参数量等效的 MoE 基线模型，还在与同规模现有模型的对比中展现出卓越的竞争力，尤其在智能体与代码领域表现突出，并依托 YARN 技术可支持最长 256 K上下文，能高效处理长文档、大规模代码分析等场景。同时，该模型基于嵌入扩展的应用与系统级优化，让模型推理效率大幅提升，在输入 4K，输出 1k 的典型负载下，LongCat API 可提供 500-700 token/s 的生成速度。

01 更优的扩展效率：从“堆专家”到“扩嵌入”

N-gram嵌入层的核心作用在于增强模型对局部上下文语义的捕获能力。它通过哈希函数，将当前token及其前序的N-1个token所构成的序列映射为一个整体的N-gram嵌入向量，并与该token的基础嵌入向量融合。举个例子，当模型看到 “打开终端输入命令”，就不会误解成日常的 “打开文件”，而是能精准锁定 “编程” 这个场景，显著提升了语义理解的精准度。

在生成N-gram嵌入向量的过程中，关键挑战在于避免哈希冲突，即不同的N-gram序列被映射到同一个向量。为此，LongCat团队采用了两个关键设计：

子表分解与线性投影：将大型的N-gram嵌入表拆分为多个子表，并分别进行线性投影变换，此举可大幅降低哈希碰撞的概率。
词汇表大小避坑：N-gram嵌入表的词汇表大小需要仔细设计以降低哈希碰撞率。此外，通过引入嵌入放大技术（如在输出前添加缩放因子或层归一化），确保了嵌入层提供的语义信号在深层网络的残差连接中不会被注意力模块的输出所淹没，从而保障了其贡献在整个前向传播过程中的有效性。

02 卓越的推理效率：三重优化实现极致加速

N-gram 嵌入层不仅能提升模型能力，其结构特性还为推理加速提供了新方向。尽管模型总参数量达 685 亿，但通过动态激活机制，每次推理仅激活29亿～45亿参数。为进一步放大这一稀疏优势，我们在系统层面进行了三重核心优化：

参数智能分配：我们将 31.4B 参数（占总参数 46%）投入 N-gram 嵌入层。相较于单纯增加 MoE 专家数量，此方案在达到高模型稀疏度后，既能有效减少专家模块间的通信与调度开销，又得益于嵌入层 O(1) 的查找复杂度，避免了参数扩容带来的计算线性增长。
专用缓存与内核优化：我们设计了 N-gram Cache 专用缓存机制（灵感源于KV Cache），直接在GPU设备上管理 N-gram ID，与推理框架中复杂的动态调度逻辑实现低开销同步，大幅降低嵌入查找的I/O延迟。同时，通过定制CUDA内核及广泛的内核融合（如 AllReduce+Residual Add+RMSNorm、路由器Logits的Softmax+TopK+Scaling融合）与 PDL（Programmatic Dependent Launch）等技术，提升GPU占用率，减少内核启动间隙。
推测解码协同：为充分发挥稀疏激活优势，我们将其与推测解码策略深度协同。通过3步的投机推理，扩大了实际的批次大小，利用到了低激活总参的特性，同时针对草案模型（draft model）延迟敏感的特性，让其使用常规嵌入层以规避N-gram查找计算的开销，进一步提升了推理性能。

总结而言，通过参数重分配奠定稀疏基础、专用缓存与内核优化消除系统开销、与推测解码策略深度协同，LongCat-Flash-Lite 实现了从模型结构到运行时系统的垂直优化，最终将 N-gram 嵌入带来的理论优势，有效转化为高吞吐、低延迟的实际推理性能。

03 性能表现：智能体工具使用与编程能力双领先

LongCat-Flash-Lite 在智能体工具使用与编程任务上均展现出领先性能：τ²-Bench 三大行业场景高分领先，编程领域覆盖全链路能力，在代码修复、终端执行、多语言开发等任务上表现优异。

智能体任务表现

在评估复杂工具使用与工作流执行的基准上，模型表现突出：

τ²-Bench行业场景：在电信（72.8分）、零售（73.1分）、航空（58.0分）三大子场景中均取得最高分，表明其能有效理解并执行涉及专业工具的复杂指令。
VitaBench通用场景：以7.0分领先于对比模型，验证了其在多样化现实任务中的实用工具调用能力。

代码任务表现

在衡量编程实用技能的基准上，模型展现出强劲的问题解决能力：

代码修复（SWE-Bench）：54.4%的准确率显著领先于同规模对比模型，证明其处理真实软件工程问题（如修复bug、实现特性）的有效性。
终端命令执行（TerminalBench）：33.75分的表现远超对比模型所处的15-20分区间，体现了对开发者工作流中命令行操作的高精度理解。
多语言代码生成（SWE-Bench Multilingual）：38.10%的准确率展现了跨编程语言与软件生态的较好泛化能力。

通用知识及推理能力

模型在综合评估中保持了与规模相匹配的均衡性能：

综合知识（MMLU）：85.52分，与Gemini 2.5 Flash-Lite（84.68）相当。
中文理解（C-Eval & CMMLU）：分别取得86.55分与82.48分，在中文评估中具备一定优势。
复杂推理（MMLU-Pro, GPQA-Diamond）：78.29分与66.78分的表现，显示了处理高阶、多学科问题的能力。
数学推理（MATH500, AIME）：在基础（96.80%）与竞赛级数学问题（AIME24:72.19; AIME25:63.23）上均表现稳健，擅长多步推演。

轻量，不“轻”性能：开源与体验，即刻开始

LongCat-Flash-Lite 的实践，为大模型的高效扩展提供了一种新的可能性：通过 N-gram 嵌入与系统级优化的协同设计，我们得以用29亿～45亿的动态激活参数，在智能体与编码等关键任务上，实现与更大模型比肩的竞争力。

技术的生命力源于开放与协作。因此，我们已全面开源模型权重及技术细节，诚邀每一位开发者体验、研究与共建。

开源平台

Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Flash-Lite
Modelscope：https://www.modelscope.cn/models/meituan-longcat/LongCat-Flash-Lite
技术报告：https://arxiv.org/abs/2601.21204

LongCat 系列模型一直遵循的是 Model System Co-Design 的设计原则，因此对于训练和推理系统都提出了独特的挑战。为了让社区能够更好地使用 LongCat 模型，我们对推理引擎的部分功能（SGLang-FluentLLM）和部分算子也同步进行了开源，欢迎体验：

Github：https://github.com/meituan-longcat/SGLang-FluentLLM

在线体验与调用

我们已向开发者开放 LongCat-Flash-Lite 版本 API 接口，可登录 LongCat API 开放平台申请，每日免费额度高达5000万tokens。（目前暂不限额，欢迎试用）

官网：https://longcat.ai
API开放平台：https://longcat.chat/platform/usage

我们期待与社区一起，探索大模型高效落地的更多可能。欢迎 Star、Fork、反馈与合作。

| 关注「美团技术团队」微信公众号，阅读更多技术干货！

| 本文系美团技术团队出品，著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容，敬请注明“内容转载自美团技术团队”。本文未经许可，不得进行商业性转载或者使用。任何商用行为，请发送邮件至 tech@meituan.com 申请授权。

0201好虫子周刊

作者: 纯情
时间: 2026-02-01
分类:
评论

(2026.01.18-02.01)🚀 好虫子周刊：DeepSeek V4前瞻、Agent标准确立、音频界面革命

本周关键词： 混合专家 (MoE)、Agent 技能标准、物理 AI、音频首选 (Audio-first)

摘要： 本周是开源界深度复盘与大厂战略转向的关键交汇期。DeepSeek R1 发布周年之际，官方以 86 页超长报告披露了 RL 训练核心机密，并预告 V4 版本将冲击 Claude 代码王座。与此同时，Anthropic 推动的 Agent Skills 规范逐渐成为行业事实标准，OpenAI 亦被传出转向“音频优先”硬件策略。整体趋势显示，AI 正在从“大参数”竞赛转向“高可靠性 Agent”和“低成本推理”的务实阶段。

🚨 核心头条 (Top Stories)

1核心头条

1. DeepSeek R1 报告更新与 V4 预告：开源界的透明化巅峰

发布时间： 01.20
核心亮点： DeepSeek 将 R1 技术报告扩展至 86 页，完整披露了从 Dev1 到 Dev3 的三阶段强化学习（RL）路径。同时预告 V4 版本将于 2 月中旬发布。
技术突破： 详细记录了 MCTS（蒙特卡洛树搜索）在训练中的失败经验，证明了纯 RL 训练即可实现推理能力涌现。V4 将采用更优化的 MoE 架构，侧重软件工程能力。
开源/行业价值： 为全球开发者节省了数亿元的验证算力，奠定了中国开源模型在 Hugging Face 社区的领导地位。

2. Agent Skills 规范确立：智能体从“玩具”走向“工具”

发布时间： 01.26
核心亮点： Anthropic 官方开放 Agent Skills 规范。Moltbot（原 Clawdbot）在 GitHub 狂揽 10 万 Star，成为增长最快的 AI 助手项目。
技术突破： 通过 MCP（Model Context Protocol）将智能体与真实系统连接摩擦降至最低。引入自验证机制，解决了复杂任务下 Agent 频繁遗忘上下文的痛点。
开源/行业价值： 标志着 Agent 开发从碎片化走向标准化，开发者可复用 Vercel 或 Anthropic 提供的技能模块，加速企业级智能体部署。

3. 音频界面革命：OpenAI 战略重心向“声音”偏移

发布时间： 01.30
核心亮点： 社区情报显示 OpenAI 计划在 Q1 发布新一代非 Transformer 架构的音频模型，并与 Jony Ive 合作开发“音频优先”个人设备。
技术突破： 实现真·端到端语音交互，摆脱传统的“语音转文字”中转，延迟大幅降低，支持更细腻的情感表达。
开源/行业价值： 预示着 AI 交互将从屏幕端（Screen-based）转向环境音端（Ambient Audio），为可穿戴设备和智能家居开辟新赛道。

🛠️ GitHub 热门开源项目 (Trending Tools)

2GitHub 热门开源项目

本周 GitHub Star 增长最快、开发者关注度最高的项目精选

⚡ Moltbot

一句话介绍： 自托管的“最强 AI 智能助手”，GitHub 增长奇迹。
核心价值： 支持集成 Slack/Discord/Telegram，具备系统级操作权限，重点在于数据完全本地化处理，解决了企业对闭环 AI 的核心焦虑。
项目地址： moltbot/moltbot

🤖 OpenClaw

一句话介绍： 专注解决 Agent 稳定性的开源框架。
核心价值： 针对长流程任务进行了“反馈闭环”优化，大幅降低了智能体在多步推理中的出错率（Hallucination Rate）。
项目地址： pipecat-ai/nemotron-january-2026 (NVIDIA 驱动版)

🎨 HunyuanVideo 1.5

一句话介绍： 腾讯开源的“显卡救星”视频生成模型。
核心价值： 仅需 13.6GB 显存即可运行 720p 视频生成，通过 SSTA 稀疏注意力技术实现了 1.87 倍的生成提速。
项目地址： Tencent/HunyuanVideo

📑 前沿研究与行业风向 (Insights)

3前沿研究与行业风向

物理 AI (Physical AI) 与世界模型： 随着 Boston Dynamics 展示全电动 Atlas 机器人的 RL 训练成果，学术界开始转向“物理层面的智能定义”。LeCun 的 World Model 实验室获得 50 亿美元估值，标志着 AI 正在尝试理解物理世界的逻辑而非单纯的概率拟合。
算力能源瓶颈： 马斯克在达沃斯论坛再次预警：电力供应将成为 2026 年 AI 扩张的最大红利障碍。Vistra 等电力巨头通过收购天然气电厂直接对接 AI 数据中心，能源溢价正在重塑 AI 供应链。

✍️ 编辑结语： 本周我们看到了 AI 领域从“堆参数”到“堆逻辑”的结构性转变。开源社区不再盲目跟风，而是通过透明的技术报告和标准化的接口（如 MCP）构建护城河。下周，请密切关注 DeepSeek V4 的定档消息，这可能彻底重写 2026 年的 Coding Agent 竞争格局。

整理：好虫子周刊编辑部 数据来源：GitHub, arXiv, Hugging Face等

本文由mdnice多平台发布

官网了解更多

作者: 纯情
时间: 2026-01-31
分类: 资讯
评论

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

01 有话题的技术
1、亚马逊公布新款自研 AI 芯片 Trainium 3

日前，亚马逊云科技 CEO Matt Garman 在 re:Invent 2025 活动上，正式公布了亚马逊自研 AI 芯片 Trainium 系列的最新进展。

会上，Amazon Trainium 3 UltraServers 正式发布。

据介绍，这是亚马逊云科技首款搭载 3 纳米工艺 AI 芯片的服务器，相较 Amazon Trainium 2，不仅计算能力提升 4.4 倍、内存带宽提升 3.9 倍，每兆瓦算力可处理的 AI token 数量更实现了 5 倍增长。

服务器最高配置 144 个芯片，提供惊人的 362 petaflops FP8 计算能力。在运行 OpenAI 的 GPT-OSS-120B 模型时，每兆瓦输出 token 数是 Amazon Trainium 2 的 5 倍以上，实现超高能耗比。

同时，Matt Garman 还首次披露了 Amazon Trainium 4 芯片，并承诺将实现较 Amazon Trainium 3 六倍的 FP4 计算性能、四倍内存带宽和两倍高内存容量。

据悉，亚马逊云科技目前已完成超 100 万个 Trainium 2 芯片的规模化部署，为 Amazon Bedrock 中大部分推理工作提供核心算力支持，包括 Claude 最新一代模型的高效运行。

( @APPSO)

2、Meta Reality Labs 挖角苹果交互设计负责人 Alan Dye

今天凌晨，彭博社记者 Mark Gurman 发文透露，苹果人机交互设计副总裁 Alan Dye 被 Meta 挖角。

据悉，Dye 自 2015 年以来，一直担任苹果的用户界面设计团队的负责人。而本次被挖角后，苹果将用长期设计师 Stephen Lemay 顶替 Dye 的岗位。

值得一提的是，Dye 曾负责监督 iOS 26、液态玻璃界面、Vision Pro 界面、watchOS，以及各种系统交互层面内容（如空间计算交互、灵动岛）。

报道指出，Dye 在乔布斯离开后，一直担任着重要角色：帮助公司定义了最新操作系统、App 以及设备的外观。另外，Dye 在苹果的团队也帮助开发一系列新的智能家居设备。

Meta 方面，随着 Dye 加入，该公司正在创立一个新的设计工作室，并且有 Dye 负责硬件、软件和 AI 集成方面的界面设计。

Dye 将向负责现实实验室的首席技术官 Andrew Bosworth 汇报工作，而现实实验室负责开发可穿戴设备，如智能眼镜和虚拟现实头戴式设备。Gurman 透露，Dye 将于 12 月 31 日正式开始担任团队首席设计官。

而且 Dye 还不是一个人走的，他还带走了苹果设计部门的高级总监 Billy Sorrentino。后者从 2016 年起就在苹果，主要负责 VisionOS 的用户界面设计。

( @APPSO)

3、小米卢伟冰：AI 与物理世界的深度结合是智能科技的下一站

12 月 3 日，@卢伟冰在社媒发布卢伟冰答网友问第十二期，在回答「罗福莉加入了小米，未来在 AI 上会有什么新的战略」时表示：

其实我们在前几个季度就已经开始了在 AI 上的压强式投入，虽然不能透露太多，我们在 AI 大模型和应用方面的进展远超预期，我们认为 AI 与物理世界的深度结合是智能科技的下一站，小米也非常渴望人才尊重人才，也希望能够给优秀的人才提供好的发展平台。

95 后罗福莉出生于四川，父亲是一名电工，母亲是教师。她本人曾就读于四川宜宾市第一中学校「清北班」，并以优异成绩考入北京师范大学，后被保送至北京大学深造。

在北大读硕士期间，她于 2019 年在人工智能领域顶级国际会议 ACL 上发表了 8 篇论文，其中 2 篇为第一作者。毕业后，她先后在阿里达摩院、幻方量化、DeepSeek 工作，主导开发了多语言预训练模型 VECO，并参与研发了 MoE 大模型 DeepSeek-V2。

11 月 12 日，罗福莉在朋友圈发文，正式宣布自己已经加入小米。

11 月 19 日消息，小米公司今日官宣，12 月 17 日，小米将在北京·国家会议中心举办「人车家全生态」合作伙伴大会。主论坛时间为上午 10:00-12:15，全程开放线上直播。

作为小米 MiMo 大模型负责人，罗福莉将在主论坛发表题为《Xiaomi MiMo：小米基座大模型》的主题演讲，这是她自 11 月 12 日加入小米后的首次公开亮相。

（@荆楚网）

02 有亮点的产品
1、Peopleboxai 推出 Nova：首款「人性化」AI 面试官，优化招聘流程

Peopleboxai 发布了其 AI 产品「Nova」，号称是「人性化」的 AI 面试官。Nova 能够自动化包括简历筛选、电话面试、视频面试、实时编码测试以及生成决策报告在内的整个第一轮招聘流程，显著加快招聘速度并提升效率。

全流程自动化： Nova 能够处理从简历筛选、联系候选人（通过 InMail、邮件、电话）到进行全面的语音/视频面试，甚至执行高级编码测试，直至提供详细的、可直接用于决策的报告。
高度「人性化」体验： Nova 被设计成「最佳招聘官和面试官的数字孪生」，能够模拟自然的暂停、语气和「嗯」等语用标记，提供友好的、类似真人的互动体验，候选人对其评价很高。
定制化与智能化：用户可以根据自己的需求定制 Nova 的面试风格，包括技能深度、难度、面试类型、语调和结构。Nova 还能从公司过往的招聘数据（职位描述、面试记录、ATS 笔记等）中学习，提升其判断能力。
显著提升效率： Nova 帮助客户将第一轮面试报告的完成时间从 4-5 周缩短到 48 小时以内，为招聘团队节省了大量时间，使其能专注于更具战略意义的工作。
覆盖多渠道招聘： Nova 不仅处理入站（inbound）和内推（referral）的候选人，还能主动进行外呼（outbound）候选人搜寻和联系。
Nova 产品已上线，用户可通过 Peopleboxai 官网了解更多信息并申请试用。

(@Y Combinator Launches)

2、理想汽车发布首款 AI 眼镜 Livis：标配蔡司镜片补贴后售价 1699 元起

12 月 3 日，理想汽车举办线上发布会，正式推出其首款 AI 智能眼镜 Livis。售价 1999 元起，12 月 31 日前下订可享受 15% 政府补贴，补贴后价格仅为 1699 元起。

「一款以钢铁侠 AI 管家「贾维斯」为灵感命名的智能眼镜，试图将「理想同学」的 AI 能力从驾驶空间延伸至用户日常生活的每个角落。」

Livis 名称源于理想汽车与钢铁侠 AI 管家「Jarvis」的组合。

整机重量控制在 36 克，提供经典黑、科技灰和橄榄绿三种颜色，并可选亮光或磨砂材质。

Livis 全系产品标配蔡司镜片，涵盖近视镜片、光致变色镜片与墨镜片等多种类型，满足用户在不同场景下的视觉需求。

理想宣称 Livis 在研发过程中实现了五项关键突破，构成了产品核心竞争力的重要组成部分。

典型续航时间达 18.8 小时。Livis 标配类似 AirPods 的无线充电盒，便于随身携带和补能。同时，眼镜支持与理想汽车的车机系统无线快充，上车后放置在专属充电位进行充电。

在硬件配置上，Livis 搭载恒玄 BES2800 主控芯片和独立的 ISP 成像芯片，采用 SONY IMX681 摄像头，拥有 1200 万像素、支持 4K 照片以及电子防抖拍摄。

汽车联动场景是 Livis 最独特的卖点。通过蓝牙和 5G 网络，眼镜可无缝连接车辆，实现语音远程控车。用户可在百米范围内，通过语音指令操控电动侧滑门启闭、提前开启空调及座椅加热，甚至检查车辆续航和充电状态。

（@极客公园、@快科技）

3、豆包手机助手无法登录微信，双方回应

日前，字节跳动豆包团队与中兴合作发布了豆包手机助手技术预览版后，有试用 Nubia M153 工程样机的用户反馈，出现无法正常登陆微信的情况。

对于相关情况，豆包团队方面昨晚发文并做出回应。

豆包方面表示，其后续已下线了手机助手操作微信的能力。目前，nubia M153 上被禁止登录的微信账号正陆续解封。

而微信相关人士也通过澎湃新闻回应，豆包手机助手无法正常登陆微信的微信并没有什么特别动作，「可能是中了本来就有的安全风控措施。」

针对此前曾有科技公司爆料「豆包手机助手存在侵犯用户隐私」的问题，团队方面强调，豆包手机助手不存在任何黑客行为。

据悉，此前上述公司曾表示豆包手机助手在努比亚手机上拥有 INJECT\_EVENTS 权限，该权限在安卓权限定义中属于操作系统高危权限，并且拿到该权限，要面临刑事责任。

豆包方面表示，INJECT\_EVENTS 确实是系统级权限，但拥有了该权限许可，相关产品才能跨屏、跨应用来模拟点击事件，完成用户操作手机的任务需求。

团队还强调，豆包手机助手需要用户主动授权，才可以调用该权限，使用操作手机功能。该权限的使用，豆包方面也在权限清单中进行了明确的披露。据了解，目前行业的 AI 助手，均需要使用该权限（或与其类似的无障碍权限）才能提供操作手机的服务。

豆包方面强烈表示，豆包手机助手也不会代替用户进行相关授权和敏感操作。

同时，豆包方面也对读取屏幕的隐私问题进行了回应。其表示，助手操作手机时需要读取屏幕（否则无法完成任务），但屏幕和操作过程都不会在服务器端留下存储，且所有的相关内容也都不会进入模型训练，确保用户隐私安全。

( @APPSO)

4、健康追踪应用 Healthify Ria 升级 AI 助手：支持实时语音与摄像头交互

健康追踪初创公司 Healthify 推出了其 AI 助手 Ria 的新版本，该版本支持通过语音和摄像头进行实时对话，并能理解超过 50 种语言（包括 14 种印度语言）以及混合语言输入。此举旨在通过更自然的交互方式，提升用户健康习惯养成的效率和用户粘性。

实时对话与多模态输入： Ria 现在支持通过语音进行实时对话，用户还可以通过摄像头扫描食物获取营养信息并进行记录，大幅简化了数据录入流程。
多语言与混合语言支持： Ria 能够理解超过 50 种语言，并支持 Hinglish、Spanglish 等混合语言输入，服务全球用户。
整合多源健康数据： Ria 可以整合来自健身追踪器、睡眠追踪器、血糖监测仪等设备的数据，为用户提供运动、睡眠、身体准备度和血糖波动等方面的洞察，并给出建议。
增强记忆与个性化： Healthify 正在为 Ria 构建一个更持久的记忆层，使其能够记住用户的偏好和健康变化，提供更个性化的建议。
教练与营养师辅助： Ria 将被整合到用户与教练、营养师的沟通中，协助双方快速调取数据、回答问题，并可转录通话内容，提取关键信息。
(@TechCrunch)

03 有态度的观点
1、《阿凡达》导演：对 AI 没意见，但要尊敬演员们

近日，导演詹姆斯·卡梅隆在《阿凡达 3》世界首映礼上称该片没有使用 AI 生成，随后他对 ComicBookcom 发表了自己对于生成式 AI 的应用看法。

卡梅隆表示，自己对生成式 AI 没有意见，但他强调：「我们拍《阿凡达》电影不使用它，我们尊敬并赞颂演员们，我们不用 AI 代替演员。」

同时，卡梅隆也表示，「这件事（生成式 AI）自会有方向，我想好莱坞会进行自我监管，但我们作为艺术家要找到出路，前提是我们得能存在。所以，比起别的东西，来自『大 AI』的生存威胁是最让我担忧的。」

值得一提的是，卡梅隆所提到的「大 AI」，是指人类利用 AI 的状况和其产生的问题，对应的「小 AI」是指更细节、技术性的层面，比如用 AI 生成内容。

在卡梅隆看来，AI 和人类未来有深切的担忧和存在危机，他认为「小 AI」各行业会找到应对和利用之法，但「大 AI」问题就不好说了。

安全风控措施

作者: 纯情
时间: 2026-01-31
分类: 资讯
评论

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

01 有话题的技术
1、亚马逊公布新款自研 AI 芯片 Trainium 3

日前，亚马逊云科技 CEO Matt Garman 在 re:Invent 2025 活动上，正式公布了亚马逊自研 AI 芯片 Trainium 系列的最新进展。

会上，Amazon Trainium 3 UltraServers 正式发布。

据介绍，这是亚马逊云科技首款搭载 3 纳米工艺 AI 芯片的服务器，相较 Amazon Trainium 2，不仅计算能力提升 4.4 倍、内存带宽提升 3.9 倍，每兆瓦算力可处理的 AI token 数量更实现了 5 倍增长。

服务器最高配置 144 个芯片，提供惊人的 362 petaflops FP8 计算能力。在运行 OpenAI 的 GPT-OSS-120B 模型时，每兆瓦输出 token 数是 Amazon Trainium 2 的 5 倍以上，实现超高能耗比。

同时，Matt Garman 还首次披露了 Amazon Trainium 4 芯片，并承诺将实现较 Amazon Trainium 3 六倍的 FP4 计算性能、四倍内存带宽和两倍高内存容量。

据悉，亚马逊云科技目前已完成超 100 万个 Trainium 2 芯片的规模化部署，为 Amazon Bedrock 中大部分推理工作提供核心算力支持，包括 Claude 最新一代模型的高效运行。

( @APPSO)

2、Meta Reality Labs 挖角苹果交互设计负责人 Alan Dye

今天凌晨，彭博社记者 Mark Gurman 发文透露，苹果人机交互设计副总裁 Alan Dye 被 Meta 挖角。

据悉，Dye 自 2015 年以来，一直担任苹果的用户界面设计团队的负责人。而本次被挖角后，苹果将用长期设计师 Stephen Lemay 顶替 Dye 的岗位。

值得一提的是，Dye 曾负责监督 iOS 26、液态玻璃界面、Vision Pro 界面、watchOS，以及各种系统交互层面内容（如空间计算交互、灵动岛）。

报道指出，Dye 在乔布斯离开后，一直担任着重要角色：帮助公司定义了最新操作系统、App 以及设备的外观。另外，Dye 在苹果的团队也帮助开发一系列新的智能家居设备。

Meta 方面，随着 Dye 加入，该公司正在创立一个新的设计工作室，并且有 Dye 负责硬件、软件和 AI 集成方面的界面设计。

Dye 将向负责现实实验室的首席技术官 Andrew Bosworth 汇报工作，而现实实验室负责开发可穿戴设备，如智能眼镜和虚拟现实头戴式设备。Gurman 透露，Dye 将于 12 月 31 日正式开始担任团队首席设计官。

而且 Dye 还不是一个人走的，他还带走了苹果设计部门的高级总监 Billy Sorrentino。后者从 2016 年起就在苹果，主要负责 VisionOS 的用户界面设计。

( @APPSO)

3、小米卢伟冰：AI 与物理世界的深度结合是智能科技的下一站

12 月 3 日，@卢伟冰在社媒发布卢伟冰答网友问第十二期，在回答「罗福莉加入了小米，未来在 AI 上会有什么新的战略」时表示：

其实我们在前几个季度就已经开始了在 AI 上的压强式投入，虽然不能透露太多，我们在 AI 大模型和应用方面的进展远超预期，我们认为 AI 与物理世界的深度结合是智能科技的下一站，小米也非常渴望人才尊重人才，也希望能够给优秀的人才提供好的发展平台。

95 后罗福莉出生于四川，父亲是一名电工，母亲是教师。她本人曾就读于四川宜宾市第一中学校「清北班」，并以优异成绩考入北京师范大学，后被保送至北京大学深造。

在北大读硕士期间，她于 2019 年在人工智能领域顶级国际会议 ACL 上发表了 8 篇论文，其中 2 篇为第一作者。毕业后，她先后在阿里达摩院、幻方量化、DeepSeek 工作，主导开发了多语言预训练模型 VECO，并参与研发了 MoE 大模型 DeepSeek-V2。

11 月 12 日，罗福莉在朋友圈发文，正式宣布自己已经加入小米。

11 月 19 日消息，小米公司今日官宣，12 月 17 日，小米将在北京·国家会议中心举办「人车家全生态」合作伙伴大会。主论坛时间为上午 10:00-12:15，全程开放线上直播。

作为小米 MiMo 大模型负责人，罗福莉将在主论坛发表题为《Xiaomi MiMo：小米基座大模型》的主题演讲，这是她自 11 月 12 日加入小米后的首次公开亮相。

（@荆楚网）

02 有亮点的产品
1、Peopleboxai 推出 Nova：首款「人性化」AI 面试官，优化招聘流程

Peopleboxai 发布了其 AI 产品「Nova」，号称是「人性化」的 AI 面试官。Nova 能够自动化包括简历筛选、电话面试、视频面试、实时编码测试以及生成决策报告在内的整个第一轮招聘流程，显著加快招聘速度并提升效率。

全流程自动化： Nova 能够处理从简历筛选、联系候选人（通过 InMail、邮件、电话）到进行全面的语音/视频面试，甚至执行高级编码测试，直至提供详细的、可直接用于决策的报告。
高度「人性化」体验： Nova 被设计成「最佳招聘官和面试官的数字孪生」，能够模拟自然的暂停、语气和「嗯」等语用标记，提供友好的、类似真人的互动体验，候选人对其评价很高。
定制化与智能化：用户可以根据自己的需求定制 Nova 的面试风格，包括技能深度、难度、面试类型、语调和结构。Nova 还能从公司过往的招聘数据（职位描述、面试记录、ATS 笔记等）中学习，提升其判断能力。
显著提升效率： Nova 帮助客户将第一轮面试报告的完成时间从 4-5 周缩短到 48 小时以内，为招聘团队节省了大量时间，使其能专注于更具战略意义的工作。
覆盖多渠道招聘： Nova 不仅处理入站（inbound）和内推（referral）的候选人，还能主动进行外呼（outbound）候选人搜寻和联系。
Nova 产品已上线，用户可通过 Peopleboxai 官网了解更多信息并申请试用。

(@Y Combinator Launches)

2、理想汽车发布首款 AI 眼镜 Livis：标配蔡司镜片补贴后售价 1699 元起

12 月 3 日，理想汽车举办线上发布会，正式推出其首款 AI 智能眼镜 Livis。售价 1999 元起，12 月 31 日前下订可享受 15% 政府补贴，补贴后价格仅为 1699 元起。

「一款以钢铁侠 AI 管家「贾维斯」为灵感命名的智能眼镜，试图将「理想同学」的 AI 能力从驾驶空间延伸至用户日常生活的每个角落。」

Livis 名称源于理想汽车与钢铁侠 AI 管家「Jarvis」的组合。

整机重量控制在 36 克，提供经典黑、科技灰和橄榄绿三种颜色，并可选亮光或磨砂材质。

Livis 全系产品标配蔡司镜片，涵盖近视镜片、光致变色镜片与墨镜片等多种类型，满足用户在不同场景下的视觉需求。

理想宣称 Livis 在研发过程中实现了五项关键突破，构成了产品核心竞争力的重要组成部分。

典型续航时间达 18.8 小时。Livis 标配类似 AirPods 的无线充电盒，便于随身携带和补能。同时，眼镜支持与理想汽车的车机系统无线快充，上车后放置在专属充电位进行充电。

在硬件配置上，Livis 搭载恒玄 BES2800 主控芯片和独立的 ISP 成像芯片，采用 SONY IMX681 摄像头，拥有 1200 万像素、支持 4K 照片以及电子防抖拍摄。

汽车联动场景是 Livis 最独特的卖点。通过蓝牙和 5G 网络，眼镜可无缝连接车辆，实现语音远程控车。用户可在百米范围内，通过语音指令操控电动侧滑门启闭、提前开启空调及座椅加热，甚至检查车辆续航和充电状态。

（@极客公园、@快科技）

3、豆包手机助手无法登录微信，双方回应

日前，字节跳动豆包团队与中兴合作发布了豆包手机助手技术预览版后，有试用 Nubia M153 工程样机的用户反馈，出现无法正常登陆微信的情况。

对于相关情况，豆包团队方面昨晚发文并做出回应。

豆包方面表示，其后续已下线了手机助手操作微信的能力。目前，nubia M153 上被禁止登录的微信账号正陆续解封。

而微信相关人士也通过澎湃新闻回应，豆包手机助手无法正常登陆微信的微信并没有什么特别动作，「可能是中了本来就有的安全风控措施。」

针对此前曾有科技公司爆料「豆包手机助手存在侵犯用户隐私」的问题，团队方面强调，豆包手机助手不存在任何黑客行为。

据悉，此前上述公司曾表示豆包手机助手在努比亚手机上拥有 INJECT\_EVENTS 权限，该权限在安卓权限定义中属于操作系统高危权限，并且拿到该权限，要面临刑事责任。

豆包方面表示，INJECT\_EVENTS 确实是系统级权限，但拥有了该权限许可，相关产品才能跨屏、跨应用来模拟点击事件，完成用户操作手机的任务需求。

团队还强调，豆包手机助手需要用户主动授权，才可以调用该权限，使用操作手机功能。该权限的使用，豆包方面也在权限清单中进行了明确的披露。据了解，目前行业的 AI 助手，均需要使用该权限（或与其类似的无障碍权限）才能提供操作手机的服务。

豆包方面强烈表示，豆包手机助手也不会代替用户进行相关授权和敏感操作。

同时，豆包方面也对读取屏幕的隐私问题进行了回应。其表示，助手操作手机时需要读取屏幕（否则无法完成任务），但屏幕和操作过程都不会在服务器端留下存储，且所有的相关内容也都不会进入模型训练，确保用户隐私安全。

( @APPSO)

4、健康追踪应用 Healthify Ria 升级 AI 助手：支持实时语音与摄像头交互

健康追踪初创公司 Healthify 推出了其 AI 助手 Ria 的新版本，该版本支持通过语音和摄像头进行实时对话，并能理解超过 50 种语言（包括 14 种印度语言）以及混合语言输入。此举旨在通过更自然的交互方式，提升用户健康习惯养成的效率和用户粘性。

实时对话与多模态输入： Ria 现在支持通过语音进行实时对话，用户还可以通过摄像头扫描食物获取营养信息并进行记录，大幅简化了数据录入流程。
多语言与混合语言支持： Ria 能够理解超过 50 种语言，并支持 Hinglish、Spanglish 等混合语言输入，服务全球用户。
整合多源健康数据： Ria 可以整合来自健身追踪器、睡眠追踪器、血糖监测仪等设备的数据，为用户提供运动、睡眠、身体准备度和血糖波动等方面的洞察，并给出建议。
增强记忆与个性化： Healthify 正在为 Ria 构建一个更持久的记忆层，使其能够记住用户的偏好和健康变化，提供更个性化的建议。
教练与营养师辅助： Ria 将被整合到用户与教练、营养师的沟通中，协助双方快速调取数据、回答问题，并可转录通话内容，提取关键信息。
(@TechCrunch)

03 有态度的观点
1、《阿凡达》导演：对 AI 没意见，但要尊敬演员们

近日，导演詹姆斯·卡梅隆在《阿凡达 3》世界首映礼上称该片没有使用 AI 生成，随后他对 ComicBookcom 发表了自己对于生成式 AI 的应用看法。

卡梅隆表示，自己对生成式 AI 没有意见，但他强调：「我们拍《阿凡达》电影不使用它，我们尊敬并赞颂演员们，我们不用 AI 代替演员。」

同时，卡梅隆也表示，「这件事（生成式 AI）自会有方向，我想好莱坞会进行自我监管，但我们作为艺术家要找到出路，前提是我们得能存在。所以，比起别的东西，来自『大 AI』的生存威胁是最让我担忧的。」

值得一提的是，卡梅隆所提到的「大 AI」，是指人类利用 AI 的状况和其产生的问题，对应的「小 AI」是指更细节、技术性的层面，比如用 AI 生成内容。

在卡梅隆看来，AI 和人类未来有深切的担忧和存在危机，他认为「小 AI」各行业会找到应对和利用之法，但「大 AI」问题就不好说了。

字节跳动豆包团队

作者: 纯情
时间: 2026-01-31
分类: 资讯
评论

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

01 有话题的技术
1、亚马逊公布新款自研 AI 芯片 Trainium 3

日前，亚马逊云科技 CEO Matt Garman 在 re:Invent 2025 活动上，正式公布了亚马逊自研 AI 芯片 Trainium 系列的最新进展。

会上，Amazon Trainium 3 UltraServers 正式发布。

据介绍，这是亚马逊云科技首款搭载 3 纳米工艺 AI 芯片的服务器，相较 Amazon Trainium 2，不仅计算能力提升 4.4 倍、内存带宽提升 3.9 倍，每兆瓦算力可处理的 AI token 数量更实现了 5 倍增长。

服务器最高配置 144 个芯片，提供惊人的 362 petaflops FP8 计算能力。在运行 OpenAI 的 GPT-OSS-120B 模型时，每兆瓦输出 token 数是 Amazon Trainium 2 的 5 倍以上，实现超高能耗比。

同时，Matt Garman 还首次披露了 Amazon Trainium 4 芯片，并承诺将实现较 Amazon Trainium 3 六倍的 FP4 计算性能、四倍内存带宽和两倍高内存容量。

据悉，亚马逊云科技目前已完成超 100 万个 Trainium 2 芯片的规模化部署，为 Amazon Bedrock 中大部分推理工作提供核心算力支持，包括 Claude 最新一代模型的高效运行。

( @APPSO)

2、Meta Reality Labs 挖角苹果交互设计负责人 Alan Dye

今天凌晨，彭博社记者 Mark Gurman 发文透露，苹果人机交互设计副总裁 Alan Dye 被 Meta 挖角。

据悉，Dye 自 2015 年以来，一直担任苹果的用户界面设计团队的负责人。而本次被挖角后，苹果将用长期设计师 Stephen Lemay 顶替 Dye 的岗位。

值得一提的是，Dye 曾负责监督 iOS 26、液态玻璃界面、Vision Pro 界面、watchOS，以及各种系统交互层面内容（如空间计算交互、灵动岛）。

报道指出，Dye 在乔布斯离开后，一直担任着重要角色：帮助公司定义了最新操作系统、App 以及设备的外观。另外，Dye 在苹果的团队也帮助开发一系列新的智能家居设备。

Meta 方面，随着 Dye 加入，该公司正在创立一个新的设计工作室，并且有 Dye 负责硬件、软件和 AI 集成方面的界面设计。

Dye 将向负责现实实验室的首席技术官 Andrew Bosworth 汇报工作，而现实实验室负责开发可穿戴设备，如智能眼镜和虚拟现实头戴式设备。Gurman 透露，Dye 将于 12 月 31 日正式开始担任团队首席设计官。

而且 Dye 还不是一个人走的，他还带走了苹果设计部门的高级总监 Billy Sorrentino。后者从 2016 年起就在苹果，主要负责 VisionOS 的用户界面设计。

( @APPSO)

3、小米卢伟冰：AI 与物理世界的深度结合是智能科技的下一站

12 月 3 日，@卢伟冰在社媒发布卢伟冰答网友问第十二期，在回答「罗福莉加入了小米，未来在 AI 上会有什么新的战略」时表示：

其实我们在前几个季度就已经开始了在 AI 上的压强式投入，虽然不能透露太多，我们在 AI 大模型和应用方面的进展远超预期，我们认为 AI 与物理世界的深度结合是智能科技的下一站，小米也非常渴望人才尊重人才，也希望能够给优秀的人才提供好的发展平台。

95 后罗福莉出生于四川，父亲是一名电工，母亲是教师。她本人曾就读于四川宜宾市第一中学校「清北班」，并以优异成绩考入北京师范大学，后被保送至北京大学深造。

在北大读硕士期间，她于 2019 年在人工智能领域顶级国际会议 ACL 上发表了 8 篇论文，其中 2 篇为第一作者。毕业后，她先后在阿里达摩院、幻方量化、DeepSeek 工作，主导开发了多语言预训练模型 VECO，并参与研发了 MoE 大模型 DeepSeek-V2。

11 月 12 日，罗福莉在朋友圈发文，正式宣布自己已经加入小米。

11 月 19 日消息，小米公司今日官宣，12 月 17 日，小米将在北京·国家会议中心举办「人车家全生态」合作伙伴大会。主论坛时间为上午 10:00-12:15，全程开放线上直播。

作为小米 MiMo 大模型负责人，罗福莉将在主论坛发表题为《Xiaomi MiMo：小米基座大模型》的主题演讲，这是她自 11 月 12 日加入小米后的首次公开亮相。

（@荆楚网）

02 有亮点的产品
1、Peopleboxai 推出 Nova：首款「人性化」AI 面试官，优化招聘流程

Peopleboxai 发布了其 AI 产品「Nova」，号称是「人性化」的 AI 面试官。Nova 能够自动化包括简历筛选、电话面试、视频面试、实时编码测试以及生成决策报告在内的整个第一轮招聘流程，显著加快招聘速度并提升效率。

全流程自动化： Nova 能够处理从简历筛选、联系候选人（通过 InMail、邮件、电话）到进行全面的语音/视频面试，甚至执行高级编码测试，直至提供详细的、可直接用于决策的报告。
高度「人性化」体验： Nova 被设计成「最佳招聘官和面试官的数字孪生」，能够模拟自然的暂停、语气和「嗯」等语用标记，提供友好的、类似真人的互动体验，候选人对其评价很高。
定制化与智能化：用户可以根据自己的需求定制 Nova 的面试风格，包括技能深度、难度、面试类型、语调和结构。Nova 还能从公司过往的招聘数据（职位描述、面试记录、ATS 笔记等）中学习，提升其判断能力。
显著提升效率： Nova 帮助客户将第一轮面试报告的完成时间从 4-5 周缩短到 48 小时以内，为招聘团队节省了大量时间，使其能专注于更具战略意义的工作。
覆盖多渠道招聘： Nova 不仅处理入站（inbound）和内推（referral）的候选人，还能主动进行外呼（outbound）候选人搜寻和联系。
Nova 产品已上线，用户可通过 Peopleboxai 官网了解更多信息并申请试用。

(@Y Combinator Launches)

2、理想汽车发布首款 AI 眼镜 Livis：标配蔡司镜片补贴后售价 1699 元起

12 月 3 日，理想汽车举办线上发布会，正式推出其首款 AI 智能眼镜 Livis。售价 1999 元起，12 月 31 日前下订可享受 15% 政府补贴，补贴后价格仅为 1699 元起。

「一款以钢铁侠 AI 管家「贾维斯」为灵感命名的智能眼镜，试图将「理想同学」的 AI 能力从驾驶空间延伸至用户日常生活的每个角落。」

Livis 名称源于理想汽车与钢铁侠 AI 管家「Jarvis」的组合。

整机重量控制在 36 克，提供经典黑、科技灰和橄榄绿三种颜色，并可选亮光或磨砂材质。

Livis 全系产品标配蔡司镜片，涵盖近视镜片、光致变色镜片与墨镜片等多种类型，满足用户在不同场景下的视觉需求。

理想宣称 Livis 在研发过程中实现了五项关键突破，构成了产品核心竞争力的重要组成部分。

典型续航时间达 18.8 小时。Livis 标配类似 AirPods 的无线充电盒，便于随身携带和补能。同时，眼镜支持与理想汽车的车机系统无线快充，上车后放置在专属充电位进行充电。

在硬件配置上，Livis 搭载恒玄 BES2800 主控芯片和独立的 ISP 成像芯片，采用 SONY IMX681 摄像头，拥有 1200 万像素、支持 4K 照片以及电子防抖拍摄。

汽车联动场景是 Livis 最独特的卖点。通过蓝牙和 5G 网络，眼镜可无缝连接车辆，实现语音远程控车。用户可在百米范围内，通过语音指令操控电动侧滑门启闭、提前开启空调及座椅加热，甚至检查车辆续航和充电状态。

（@极客公园、@快科技）

3、豆包手机助手无法登录微信，双方回应

日前，字节跳动豆包团队与中兴合作发布了豆包手机助手技术预览版后，有试用 Nubia M153 工程样机的用户反馈，出现无法正常登陆微信的情况。

对于相关情况，豆包团队方面昨晚发文并做出回应。

豆包方面表示，其后续已下线了手机助手操作微信的能力。目前，nubia M153 上被禁止登录的微信账号正陆续解封。

而微信相关人士也通过澎湃新闻回应，豆包手机助手无法正常登陆微信的微信并没有什么特别动作，「可能是中了本来就有的安全风控措施。」

针对此前曾有科技公司爆料「豆包手机助手存在侵犯用户隐私」的问题，团队方面强调，豆包手机助手不存在任何黑客行为。

据悉，此前上述公司曾表示豆包手机助手在努比亚手机上拥有 INJECT\_EVENTS 权限，该权限在安卓权限定义中属于操作系统高危权限，并且拿到该权限，要面临刑事责任。

豆包方面表示，INJECT\_EVENTS 确实是系统级权限，但拥有了该权限许可，相关产品才能跨屏、跨应用来模拟点击事件，完成用户操作手机的任务需求。

团队还强调，豆包手机助手需要用户主动授权，才可以调用该权限，使用操作手机功能。该权限的使用，豆包方面也在权限清单中进行了明确的披露。据了解，目前行业的 AI 助手，均需要使用该权限（或与其类似的无障碍权限）才能提供操作手机的服务。

豆包方面强烈表示，豆包手机助手也不会代替用户进行相关授权和敏感操作。

同时，豆包方面也对读取屏幕的隐私问题进行了回应。其表示，助手操作手机时需要读取屏幕（否则无法完成任务），但屏幕和操作过程都不会在服务器端留下存储，且所有的相关内容也都不会进入模型训练，确保用户隐私安全。

( @APPSO)

4、健康追踪应用 Healthify Ria 升级 AI 助手：支持实时语音与摄像头交互

健康追踪初创公司 Healthify 推出了其 AI 助手 Ria 的新版本，该版本支持通过语音和摄像头进行实时对话，并能理解超过 50 种语言（包括 14 种印度语言）以及混合语言输入。此举旨在通过更自然的交互方式，提升用户健康习惯养成的效率和用户粘性。

实时对话与多模态输入： Ria 现在支持通过语音进行实时对话，用户还可以通过摄像头扫描食物获取营养信息并进行记录，大幅简化了数据录入流程。
多语言与混合语言支持： Ria 能够理解超过 50 种语言，并支持 Hinglish、Spanglish 等混合语言输入，服务全球用户。
整合多源健康数据： Ria 可以整合来自健身追踪器、睡眠追踪器、血糖监测仪等设备的数据，为用户提供运动、睡眠、身体准备度和血糖波动等方面的洞察，并给出建议。
增强记忆与个性化： Healthify 正在为 Ria 构建一个更持久的记忆层，使其能够记住用户的偏好和健康变化，提供更个性化的建议。
教练与营养师辅助： Ria 将被整合到用户与教练、营养师的沟通中，协助双方快速调取数据、回答问题，并可转录通话内容，提取关键信息。
(@TechCrunch)

03 有态度的观点
1、《阿凡达》导演：对 AI 没意见，但要尊敬演员们

近日，导演詹姆斯·卡梅隆在《阿凡达 3》世界首映礼上称该片没有使用 AI 生成，随后他对 ComicBookcom 发表了自己对于生成式 AI 的应用看法。

卡梅隆表示，自己对生成式 AI 没有意见，但他强调：「我们拍《阿凡达》电影不使用它，我们尊敬并赞颂演员们，我们不用 AI 代替演员。」

同时，卡梅隆也表示，「这件事（生成式 AI）自会有方向，我想好莱坞会进行自我监管，但我们作为艺术家要找到出路，前提是我们得能存在。所以，比起别的东西，来自『大 AI』的生存威胁是最让我担忧的。」

值得一提的是，卡梅隆所提到的「大 AI」，是指人类利用 AI 的状况和其产生的问题，对应的「小 AI」是指更细节、技术性的层面，比如用 AI 生成内容。

在卡梅隆看来，AI 和人类未来有深切的担忧和存在危机，他认为「小 AI」各行业会找到应对和利用之法，但「大 AI」问题就不好说了。

不跟英伟达走老路，这家 GPU 公司的技术架构藏着哪些关键解？

作者: 纯情
时间: 2026-01-29
分类: 资讯
评论

采访嘉宾 | 天数智芯 AI 与加速计算技术负责人单天逸

对于国产 GPU 行业来说，没有哪个时间节点比当下更宝贵。在政策支持硬科技企业上市的背景下，国产 GPU 迎来了难得的上市黄金窗口期。但上市并非终点，在敲钟的那一刻，下一战场大幕已经拉开——GPU 厂商的技术路线、产品能力和长期判断，被放到了更公开也更严苛的舞台上，谁能撑起资本市场和大众期待，谁就能撑起市值。

这也是为什么，天数智芯上市后的首场发布会能够在业内形成广泛讨论。它以极其务实的工程师表达方式，把架构放回到国产 GPU 技术叙事的中心。在 1 月 26 日召开的天数智芯“智启芯程”合作伙伴大会中，围绕架构层的创新与思考占据了相当比重。基于这些创新点与思考，天数智芯公布了过去一代以及未来三代的架构路线图：

2025 年，天数天枢架构已经超越英伟达 Hopper，在 DeepSeek V3 场景中实测性能数据超出 20%；
2026 年，天数天璇架构对标 Blackwell，新增 ixFP4 精度支持；
2026 年，天数天玑架构超越 Blackwell，覆盖全场景 AI/加速计算；
2027 年，天数天权架构超越 Rubin，支持更多精度与创新设计。

国产 GPU，开启 AI++ 计算新范式

根据天数智芯公布的架构路线图及阶段发展目标，在 2027 年之前，天数智芯将通过多代产品完成对英伟达的追赶；在 2027 年之后，将转向更富创新性的架构设计，聚焦更具突破性的超级计算芯片架构设计。看似宏大，但对于仍处于爬坡阶段的国产 GPU 行业来说，这条路径实际上相当务实——只有在工程化能力上完成对标甚至是超越，国产 GPU 才有资格进入更大规模的生产环境中。

而在规模化落地阶段的竞争，焦点早已从峰值性能指标转向有效计算能力。当 Token 成为 AI 时代最基本的生产资料，当算力消耗开始对标真实业务产出，无论是国际顶尖 GPU 厂商还是国内 GPU 企业，核心命题都只有一个：如何在真实业务中，把算力转化为有效的 Token。这似乎又将大家都拉到同一起跑线。

围绕这一命题，天数智芯提出了两条明确的架构判断：其一，回归计算本质；其二，提供高质量算力。

回归计算本质，核心在于“不设限”

过去十年，规模的快速扩张带来了阶段性的产业繁荣，也使得算力实现野蛮增长。但这种粗放式发展，也带来了能效比失衡、算力资源严重浪费等问题。背后的根因十分复杂。以开车行驶为例，路途中可能会遇到雨雪冰雹天气、崎岖道路等各种复杂情况。物理、芯片、系统世界也是如此，计算、通讯、存储都会带来各种障碍。所以，幻想奔跑在平坦的赛道上毫无意义，产业真正需要的，是能够翻山越岭的全能越野车。

广义上，芯片可分为专用芯片和通用芯片：专用芯片类似“应试教育”，它的优势和边界都很清晰，能加速特定算法、特定指令，比如矩阵乘法、Softmax 这些主流任务，但一旦计算范式发生变化，适应空间就会迅速收紧；通用芯片的设计哲学，不是为了押中某一类算法，而是回归计算本质，覆盖更广泛，甚至全新的计算需求。

这也是天数智芯坚持推出并量产通用 GPU 的根因。在其看来，硬件与算法的关系本来就不应该相互掣肘，算力的僵化不应限制算法的进化，而是通过通用算力为探索未知算法提供一个坚实的底座。

支撑探索未来算法的关键，实则就是“不设限”。

基于这一判断，天数智芯的芯片设计哲学，在计算层面追求的是覆盖几乎所有的数学运算图谱，而非某一类、某一种计算：从 Scalar、Vector、Tensor 到 Cube，支持从高精度科学计算到 AI 精度计算，从 MMA 到 DPX，不管是 AI 的 Attention 机制、前沿的科学计算，还是未来的量子计算相关模拟，天数智芯全都支持。

在执行层面，追求的是更高的算力利用率：大、中、小任务会被精准分配到不同的计算单元中执行，配合高密度的多任务核心设计，算力可以被拆解、调度得更加精细，从而减少算力浪费，提高计算效率。

这种“不设限”的设计哲学，让天数天枢架构得以实现三大创新，这也是天枢能够超越英伟达 Hopper 架构的根因：

TPC BroadCast（计算组广播机制）设计：不是简单粗暴地放大带宽，而是从单位带宽的使用效率入手，存在相同地址的数据时，芯片内部的 load store 单元不会进行重复、无用的访问，而是在上游进行 BroadCast，减少不必要的内存访问次数，从而有效降低访存功耗，等效提升访存带宽，用更小的功耗和面积实现相同的功能。
Instruction Co-Exec（多指令并行处理系统）设计：在指令执行层面，通过 Instruction Co-Exec 设计实现了多种指令类型的并行执行能力，不仅支持 Tensor Core 与 Vector Core 的并行协同，还将 Exponent 计算、通信等操作一并纳入统一调度。在天数 IX-Scheduler 模块中，通过极低的成本增强了不同指令之间的并行处理能力，无论是 MLA、Engram，还是面向更复杂模型场景的计算需求，都可以在这一并行框架下被同时处理，从而提升整体执行效率。
Dynamic Warp Scheduling（动态线程组调度系统）设计：随着 MoE 架构在大模型中被广泛采用，模型厂商普遍面临推理效率低等现实挑战。为提升并行度，微架构层面允许芯片中同时驻留更多 warp，但 warp 的增加也意味着对计算资源的竞争更为激烈。为此，天数智芯首创了 Dynamic Warp Scheduling 机制，通过动态调度让不同 warp 在资源使用上实现有序协作，避免计算资源闲置，也减少了对同一资源的无序争抢。

这三项设计的出发点本质上都指向相同的目标：高性能与高效率。数据显示，这些创新让天数天枢的效率较当前行业平均水平提升 60%，基于这些效率优势，实现在 DeepSeek V3 场景平均比 Hopper 架构高约 20% 性能。

从这三项设计中可以看出，天数智芯在架构层面的创新，并不是围绕某一个具体模型或算子展开，而是试图打破 GPU 通用范式边界。天数智芯 AI 与加速计算技术负责人单天逸在接受采访时表示，在天数智芯提出 Dynamic Warp Scheduling 设计之前，几乎没有人从调度机制的角度去思考，还能为 MoE 带来哪些性能空间。从更深层次意义来看，这类微架构层面的调度和优化，一直是英伟达、AMD 等巨头保持领先的“内功”，天数智芯在这些单点上的突破，实际上也是国产 GPU 向顶级玩家看齐的重要一步。

提供高质量算力：高效率、可预期、可持续

在天数智芯的架构语境中，回归计算本质并不是一个抽象的口号，而是实现高质量算力的前提条件。只有当 GPU 从底层开始真正对计算负责，高质量算力才成为可能。基于这一判断，天数智芯将高质量算力拆解为三个核心维度：高效率、可预期与可持续。

高效率意味着能为客户创造最优的 TCO（总体拥有成本），节省使用成本；可预期则通过精准的仿真模拟，让客户在拿到芯片、部署算力之前，就能清晰预判最终的性能表现，做到所见即所得；可持续指的是从现在主流的 CNN、RNN，到当下火热的 Transformer，再到未来还未诞生的全新算法，算力始终能无缝适配。

围绕这三个方向，天数智芯在架构及系统设计上，选择从多任务并行处理、长上下文 IX-Attention 模块、IX-SIMU 全栈软件仿真系统以及 IXAI++ 算力系统多个层面同步推进。这几项，其实哪个都值得单独展开探讨。

比如，基于“不设限”的设计理念，在当前 PD 分离的架构下，天数智芯的 GPU 不只做计算，还支撑通信、KV 数据传输这些关键任务，通过打造 Ⅸ 并行任务处理模块，GPU 能精准调度 KV 传输、多路多流、计算与通信等各类任务，让它们并行不冲突。在真实业务场景中，该模块成功帮助头部互联网客户实现了端到端 30% 的性能跃升。

为了提高算力可持续性，天数智芯统一了芯片内、外，来构建算力系统，并通过不断更新的软件栈和软件系统，三类库共同支持和保障多场景的高效运行。其中，AI 库、通讯库（ixccl）、加速计算库是基石，在基石之上，直接支撑各类神经网络模型 CNN、Transformer、LSTM 与高性能计算的各个领域，并以此提供各类 AI 应用，包括支持 AI4Sci 的相关应用，如蛋白质结构预测（AlphaFold）、医疗影像分析（Clara）、气候模拟（Earth2）等，以及量子计算的平台 cudaQ、分子动力学 Gromacs，大规模方程组求解器 HPL 等。

这套算力系统被命名为 IXAI++，寓意为自我迭代，不止于 AI。其最终的目标是，成为一座连接算法创新与物理世界的桥梁，带领人类科技通往未知探索。

但给业内带来最多惊喜的，是 IX-Attention 模块和 IX-SIMU 全栈软件仿真系统。前者解决的是当前大模型推理中最具代表性的效率难题，后者解决的是企业部署算力系统最头疼的不可控难题。

在大模型推理场景中，长上下文被普遍认为是最具代表性的效率难题之一。即便是在国际主流 GPU 架构上，Attention 的执行效率依然不高，如果不对其进行针对性优化，首字延迟将明显偏高，模型响应速度差，推理成本高昂，最终影响大模型在真实业务中的可用性。

围绕这一痛点，天数智芯设计了 Ⅸ Attention 模块，从底层对 Attention 的执行路径进行重构：Attention 底层涉及 exponent、reduce、MMA、atomic 等多类指令与算子，Ⅸ Attention 模块的核心思路，是将这些分散的组件有机地拼装到一起，如同指挥一支乐队一般，确保多种乐器能够和谐共鸣。

“其中的技术难点在于调度，多种乐器需要同时演奏，任何一个环节拖慢节奏，都会成为整个系统的瓶颈”，单天逸表示，在实际的长上下文推理中，Ⅸ Attention 模块有效改善了 Attention 的执行效率，带来了约 20% 的提升。

针对企业部署算力系统最头疼的不可控难题，天数智芯搭建了IX-SIMU 全栈软件仿真系统，这套仿真系统的目标，就是零意外、可预期。通过对芯片等硬件与软件执行策略的联合仿真，能精准输出任意模型的性能表现，提升算力在真实场景中的可控性。

单天逸表示，在算力系统的仿真与评估中，最难建模的是指令级别的硬件行为。IX-SIMU 的核心能力在于，能够对底层指令执行进行精细建模。在实际使用中，用户只需输入软件代码，IX-SIMU 便会自动整合 GPU、CPU、网卡、PCIe 等硬件组件，匹配网络拓扑，再结合软件策略、投机策略、Streaming LLM 策略、前缀匹配等各类策略，最终精准输出 Deepseek、千问等任意模型的性能表现，实现从单卡到万卡集群的 “精密扩展”。

围绕高效率、可预期、可持续三大判断，天数智芯在算力侧从硬件架构到系统设计进行了整体布局，并用未来三代架构路线图提前回答下一个问题：当算力僵化开始掣肘未来计算，架构层还能怎么演进？

决定上限的，最终还是应用和生态

架构代表的其实是下限，决定上限的，最终还是应用和生态。数据显示，截至 2025 年年底，天数产品已在互联网、大模型、金融、医疗、教育、交通等超过 20 个行业落地应用，服务客户数量超过 300 家，并通过软硬件协同优化，完成 1000+ 次模型部署，让产品能力真正达到商用级别。

支撑这些场景应用的，早已不是一个产品的能力范畴，而是“产品 + 解决方案” 双轨模式，这一模式其实与英伟达定位非常相近，聚焦的都是解决方案落地。在大模型深入产业应用的当下，这套组合打法相当务实，毕竟应用落地才是唯一真理，谁能在企业真实业务场景中快速部署、持续稳定运行，谁就能赢得先机。在速度和兼容性上，天数智芯也交出了一份不错的答卷：国内新的大模型发布当天便能跑通，目前已稳定运行 400 余种模型、数千个已有算子与 100 余种定制算子，数千卡集群稳定运行超 1000 天。

在这次发布会上，天数智芯面向物理 AI 场景落地，一口气发布了四款边端算力产品“彤央”系列：包括边端 AI 算力模组 TY1000、TY1100，以及边端 AI 算力终端 TY1100_NX、TY1200。据了解，“彤央”系列产品的标称算力均为实测稠密算力，覆盖 100T 到 300T 范围。数据显示，在计算机视觉、自然语言处理、DeepSeek 32B 大语言模型、具身智能 VLA 模型及世界模型等多个场景的实测中，彤央 TY1000 的性能全面优于英伟达 AGX Orin。

在发布会中，天数智芯展示了“彤央”系列产品在具身智能、工业智能、商业智能和交通智能四大边端核心领域的落地应用：具身智能领域，为格蓝若机器人提供高算力、低延迟的“大脑”支撑；在工业智能领域，落地园区与产线，推动产线自动化升级；在商业智能领域，瑞幸咖啡数千家门店部署彤央方案，高效处理视频流、挖掘消费数据价值；在交通智能领域，与“车路云一体化”20 个头部试点城市合作，验证车路协同方案。

整体来看，天数智芯走的路线虽然是底层技术自研，但在生态上并非封闭。在生态建设上，天数智芯与硬件厂商、解决方案提供商等多家生态伙伴签署战略合作协议，进一步完善国产 AI 算力生态闭环。通过兼容主流开发生态，持续开放底层能力，降低开发者迁移和使用门槛。未来，天数智芯还会持续增加在生态共建上的资本与人力投入，从应用到芯片与开发者一同优化 AI 应用系统，共同为应用落地提供性能、性价比与生态易用的价值。

从底层架构到产品，从应用到生态，国产算力正在实现完整闭环，这种从芯片到生态的协同能力，不仅让国产算力更可用、更可持续，也为行业探索新模式提供了更多想象空间。

只有我们人类

作者: 纯情
时间: 2026-01-27
分类: 资讯
评论

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

01 有话题的技术
1、亚马逊公布新款自研 AI 芯片 Trainium 3

日前，亚马逊云科技 CEO Matt Garman 在 re:Invent 2025 活动上，正式公布了亚马逊自研 AI 芯片 Trainium 系列的最新进展。

会上，Amazon Trainium 3 UltraServers 正式发布。

据介绍，这是亚马逊云科技首款搭载 3 纳米工艺 AI 芯片的服务器，相较 Amazon Trainium 2，不仅计算能力提升 4.4 倍、内存带宽提升 3.9 倍，每兆瓦算力可处理的 AI token 数量更实现了 5 倍增长。

服务器最高配置 144 个芯片，提供惊人的 362 petaflops FP8 计算能力。在运行 OpenAI 的 GPT-OSS-120B 模型时，每兆瓦输出 token 数是 Amazon Trainium 2 的 5 倍以上，实现超高能耗比。

同时，Matt Garman 还首次披露了 Amazon Trainium 4 芯片，并承诺将实现较 Amazon Trainium 3 六倍的 FP4 计算性能、四倍内存带宽和两倍高内存容量。

据悉，亚马逊云科技目前已完成超 100 万个 Trainium 2 芯片的规模化部署，为 Amazon Bedrock 中大部分推理工作提供核心算力支持，包括 Claude 最新一代模型的高效运行。

( @APPSO)

2、Meta Reality Labs 挖角苹果交互设计负责人 Alan Dye

今天凌晨，彭博社记者 Mark Gurman 发文透露，苹果人机交互设计副总裁 Alan Dye 被 Meta 挖角。

据悉，Dye 自 2015 年以来，一直担任苹果的用户界面设计团队的负责人。而本次被挖角后，苹果将用长期设计师 Stephen Lemay 顶替 Dye 的岗位。

值得一提的是，Dye 曾负责监督 iOS 26、液态玻璃界面、Vision Pro 界面、watchOS，以及各种系统交互层面内容（如空间计算交互、灵动岛）。

报道指出，Dye 在乔布斯离开后，一直担任着重要角色：帮助公司定义了最新操作系统、App 以及设备的外观。另外，Dye 在苹果的团队也帮助开发一系列新的智能家居设备。

Meta 方面，随着 Dye 加入，该公司正在创立一个新的设计工作室，并且有 Dye 负责硬件、软件和 AI 集成方面的界面设计。

Dye 将向负责现实实验室的首席技术官 Andrew Bosworth 汇报工作，而现实实验室负责开发可穿戴设备，如智能眼镜和虚拟现实头戴式设备。Gurman 透露，Dye 将于 12 月 31 日正式开始担任团队首席设计官。

而且 Dye 还不是一个人走的，他还带走了苹果设计部门的高级总监 Billy Sorrentino。后者从 2016 年起就在苹果，主要负责 VisionOS 的用户界面设计。

( @APPSO)

3、小米卢伟冰：AI 与物理世界的深度结合是智能科技的下一站

12 月 3 日，@卢伟冰在社媒发布卢伟冰答网友问第十二期，在回答「罗福莉加入了小米，未来在 AI 上会有什么新的战略」时表示：

其实我们在前几个季度就已经开始了在 AI 上的压强式投入，虽然不能透露太多，我们在 AI 大模型和应用方面的进展远超预期，我们认为 AI 与物理世界的深度结合是智能科技的下一站，小米也非常渴望人才尊重人才，也希望能够给优秀的人才提供好的发展平台。

95 后罗福莉出生于四川，父亲是一名电工，母亲是教师。她本人曾就读于四川宜宾市第一中学校「清北班」，并以优异成绩考入北京师范大学，后被保送至北京大学深造。

在北大读硕士期间，她于 2019 年在人工智能领域顶级国际会议 ACL 上发表了 8 篇论文，其中 2 篇为第一作者。毕业后，她先后在阿里达摩院、幻方量化、DeepSeek 工作，主导开发了多语言预训练模型 VECO，并参与研发了 MoE 大模型 DeepSeek-V2。

11 月 12 日，罗福莉在朋友圈发文，正式宣布自己已经加入小米。

11 月 19 日消息，小米公司今日官宣，12 月 17 日，小米将在北京·国家会议中心举办「人车家全生态」合作伙伴大会。主论坛时间为上午 10:00-12:15，全程开放线上直播。

作为小米 MiMo 大模型负责人，罗福莉将在主论坛发表题为《Xiaomi MiMo：小米基座大模型》的主题演讲，这是她自 11 月 12 日加入小米后的首次公开亮相。

（@荆楚网）

02 有亮点的产品
1、Peopleboxai 推出 Nova：首款「人性化」AI 面试官，优化招聘流程

Peopleboxai 发布了其 AI 产品「Nova」，号称是「人性化」的 AI 面试官。Nova 能够自动化包括简历筛选、电话面试、视频面试、实时编码测试以及生成决策报告在内的整个第一轮招聘流程，显著加快招聘速度并提升效率。

全流程自动化： Nova 能够处理从简历筛选、联系候选人（通过 InMail、邮件、电话）到进行全面的语音/视频面试，甚至执行高级编码测试，直至提供详细的、可直接用于决策的报告。
高度「人性化」体验： Nova 被设计成「最佳招聘官和面试官的数字孪生」，能够模拟自然的暂停、语气和「嗯」等语用标记，提供友好的、类似真人的互动体验，候选人对其评价很高。
定制化与智能化：用户可以根据自己的需求定制 Nova 的面试风格，包括技能深度、难度、面试类型、语调和结构。Nova 还能从公司过往的招聘数据（职位描述、面试记录、ATS 笔记等）中学习，提升其判断能力。
显著提升效率： Nova 帮助客户将第一轮面试报告的完成时间从 4-5 周缩短到 48 小时以内，为招聘团队节省了大量时间，使其能专注于更具战略意义的工作。
覆盖多渠道招聘： Nova 不仅处理入站（inbound）和内推（referral）的候选人，还能主动进行外呼（outbound）候选人搜寻和联系。
Nova 产品已上线，用户可通过 Peopleboxai 官网了解更多信息并申请试用。

(@Y Combinator Launches)

2、理想汽车发布首款 AI 眼镜 Livis：标配蔡司镜片补贴后售价 1699 元起

12 月 3 日，理想汽车举办线上发布会，正式推出其首款 AI 智能眼镜 Livis。售价 1999 元起，12 月 31 日前下订可享受 15% 政府补贴，补贴后价格仅为 1699 元起。

「一款以钢铁侠 AI 管家「贾维斯」为灵感命名的智能眼镜，试图将「理想同学」的 AI 能力从驾驶空间延伸至用户日常生活的每个角落。」

Livis 名称源于理想汽车与钢铁侠 AI 管家「Jarvis」的组合。

整机重量控制在 36 克，提供经典黑、科技灰和橄榄绿三种颜色，并可选亮光或磨砂材质。

Livis 全系产品标配蔡司镜片，涵盖近视镜片、光致变色镜片与墨镜片等多种类型，满足用户在不同场景下的视觉需求。

理想宣称 Livis 在研发过程中实现了五项关键突破，构成了产品核心竞争力的重要组成部分。

典型续航时间达 18.8 小时。Livis 标配类似 AirPods 的无线充电盒，便于随身携带和补能。同时，眼镜支持与理想汽车的车机系统无线快充，上车后放置在专属充电位进行充电。

在硬件配置上，Livis 搭载恒玄 BES2800 主控芯片和独立的 ISP 成像芯片，采用 SONY IMX681 摄像头，拥有 1200 万像素、支持 4K 照片以及电子防抖拍摄。

汽车联动场景是 Livis 最独特的卖点。通过蓝牙和 5G 网络，眼镜可无缝连接车辆，实现语音远程控车。用户可在百米范围内，通过语音指令操控电动侧滑门启闭、提前开启空调及座椅加热，甚至检查车辆续航和充电状态。

（@极客公园、@快科技）

3、豆包手机助手无法登录微信，双方回应

日前，字节跳动豆包团队与中兴合作发布了豆包手机助手技术预览版后，有试用 Nubia M153 工程样机的用户反馈，出现无法正常登陆微信的情况。

对于相关情况，豆包团队方面昨晚发文并做出回应。

豆包方面表示，其后续已下线了手机助手操作微信的能力。目前，nubia M153 上被禁止登录的微信账号正陆续解封。

而微信相关人士也通过澎湃新闻回应，豆包手机助手无法正常登陆微信的微信并没有什么特别动作，「可能是中了本来就有的安全风控措施。」

针对此前曾有科技公司爆料「豆包手机助手存在侵犯用户隐私」的问题，团队方面强调，豆包手机助手不存在任何黑客行为。

据悉，此前上述公司曾表示豆包手机助手在努比亚手机上拥有 INJECT\_EVENTS 权限，该权限在安卓权限定义中属于操作系统高危权限，并且拿到该权限，要面临刑事责任。

豆包方面表示，INJECT\_EVENTS 确实是系统级权限，但拥有了该权限许可，相关产品才能跨屏、跨应用来模拟点击事件，完成用户操作手机的任务需求。

团队还强调，豆包手机助手需要用户主动授权，才可以调用该权限，使用操作手机功能。该权限的使用，豆包方面也在权限清单中进行了明确的披露。据了解，目前行业的 AI 助手，均需要使用该权限（或与其类似的无障碍权限）才能提供操作手机的服务。

豆包方面强烈表示，豆包手机助手也不会代替用户进行相关授权和敏感操作。

同时，豆包方面也对读取屏幕的隐私问题进行了回应。其表示，助手操作手机时需要读取屏幕（否则无法完成任务），但屏幕和操作过程都不会在服务器端留下存储，且所有的相关内容也都不会进入模型训练，确保用户隐私安全。

( @APPSO)

4、健康追踪应用 Healthify Ria 升级 AI 助手：支持实时语音与摄像头交互

健康追踪初创公司 Healthify 推出了其 AI 助手 Ria 的新版本，该版本支持通过语音和摄像头进行实时对话，并能理解超过 50 种语言（包括 14 种印度语言）以及混合语言输入。此举旨在通过更自然的交互方式，提升用户健康习惯养成的效率和用户粘性。

实时对话与多模态输入： Ria 现在支持通过语音进行实时对话，用户还可以通过摄像头扫描食物获取营养信息并进行记录，大幅简化了数据录入流程。
多语言与混合语言支持： Ria 能够理解超过 50 种语言，并支持 Hinglish、Spanglish 等混合语言输入，服务全球用户。
整合多源健康数据： Ria 可以整合来自健身追踪器、睡眠追踪器、血糖监测仪等设备的数据，为用户提供运动、睡眠、身体准备度和血糖波动等方面的洞察，并给出建议。
增强记忆与个性化： Healthify 正在为 Ria 构建一个更持久的记忆层，使其能够记住用户的偏好和健康变化，提供更个性化的建议。
教练与营养师辅助： Ria 将被整合到用户与教练、营养师的沟通中，协助双方快速调取数据、回答问题，并可转录通话内容，提取关键信息。
(@TechCrunch)

03 有态度的观点
1、《阿凡达》导演：对 AI 没意见，但要尊敬演员们

近日，导演詹姆斯·卡梅隆在《阿凡达 3》世界首映礼上称该片没有使用 AI 生成，随后他对 ComicBookcom 发表了自己对于生成式 AI 的应用看法。

卡梅隆表示，自己对生成式 AI 没有意见，但他强调：「我们拍《阿凡达》电影不使用它，我们尊敬并赞颂演员们，我们不用 AI 代替演员。」

同时，卡梅隆也表示，「这件事（生成式 AI）自会有方向，我想好莱坞会进行自我监管，但我们作为艺术家要找到出路，前提是我们得能存在。所以，比起别的东西，来自『大 AI』的生存威胁是最让我担忧的。」

值得一提的是，卡梅隆所提到的「大 AI」，是指人类利用 AI 的状况和其产生的问题，对应的「小 AI」是指更细节、技术性的层面，比如用 AI 生成内容。

在卡梅隆看来，AI 和人类未来有深切的担忧和存在危机，他认为「小 AI」各行业会找到应对和利用之法，但「大 AI」问题就不好说了。

Ria 可以整合

作者: 纯情
时间: 2026-01-27
分类: 资讯
评论

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

01 有话题的技术
1、亚马逊公布新款自研 AI 芯片 Trainium 3

日前，亚马逊云科技 CEO Matt Garman 在 re:Invent 2025 活动上，正式公布了亚马逊自研 AI 芯片 Trainium 系列的最新进展。

会上，Amazon Trainium 3 UltraServers 正式发布。

据介绍，这是亚马逊云科技首款搭载 3 纳米工艺 AI 芯片的服务器，相较 Amazon Trainium 2，不仅计算能力提升 4.4 倍、内存带宽提升 3.9 倍，每兆瓦算力可处理的 AI token 数量更实现了 5 倍增长。

服务器最高配置 144 个芯片，提供惊人的 362 petaflops FP8 计算能力。在运行 OpenAI 的 GPT-OSS-120B 模型时，每兆瓦输出 token 数是 Amazon Trainium 2 的 5 倍以上，实现超高能耗比。

同时，Matt Garman 还首次披露了 Amazon Trainium 4 芯片，并承诺将实现较 Amazon Trainium 3 六倍的 FP4 计算性能、四倍内存带宽和两倍高内存容量。

据悉，亚马逊云科技目前已完成超 100 万个 Trainium 2 芯片的规模化部署，为 Amazon Bedrock 中大部分推理工作提供核心算力支持，包括 Claude 最新一代模型的高效运行。

( @APPSO)

2、Meta Reality Labs 挖角苹果交互设计负责人 Alan Dye

今天凌晨，彭博社记者 Mark Gurman 发文透露，苹果人机交互设计副总裁 Alan Dye 被 Meta 挖角。

据悉，Dye 自 2015 年以来，一直担任苹果的用户界面设计团队的负责人。而本次被挖角后，苹果将用长期设计师 Stephen Lemay 顶替 Dye 的岗位。

值得一提的是，Dye 曾负责监督 iOS 26、液态玻璃界面、Vision Pro 界面、watchOS，以及各种系统交互层面内容（如空间计算交互、灵动岛）。

报道指出，Dye 在乔布斯离开后，一直担任着重要角色：帮助公司定义了最新操作系统、App 以及设备的外观。另外，Dye 在苹果的团队也帮助开发一系列新的智能家居设备。

Meta 方面，随着 Dye 加入，该公司正在创立一个新的设计工作室，并且有 Dye 负责硬件、软件和 AI 集成方面的界面设计。

Dye 将向负责现实实验室的首席技术官 Andrew Bosworth 汇报工作，而现实实验室负责开发可穿戴设备，如智能眼镜和虚拟现实头戴式设备。Gurman 透露，Dye 将于 12 月 31 日正式开始担任团队首席设计官。

而且 Dye 还不是一个人走的，他还带走了苹果设计部门的高级总监 Billy Sorrentino。后者从 2016 年起就在苹果，主要负责 VisionOS 的用户界面设计。

( @APPSO)

3、小米卢伟冰：AI 与物理世界的深度结合是智能科技的下一站

12 月 3 日，@卢伟冰在社媒发布卢伟冰答网友问第十二期，在回答「罗福莉加入了小米，未来在 AI 上会有什么新的战略」时表示：

其实我们在前几个季度就已经开始了在 AI 上的压强式投入，虽然不能透露太多，我们在 AI 大模型和应用方面的进展远超预期，我们认为 AI 与物理世界的深度结合是智能科技的下一站，小米也非常渴望人才尊重人才，也希望能够给优秀的人才提供好的发展平台。

95 后罗福莉出生于四川，父亲是一名电工，母亲是教师。她本人曾就读于四川宜宾市第一中学校「清北班」，并以优异成绩考入北京师范大学，后被保送至北京大学深造。

在北大读硕士期间，她于 2019 年在人工智能领域顶级国际会议 ACL 上发表了 8 篇论文，其中 2 篇为第一作者。毕业后，她先后在阿里达摩院、幻方量化、DeepSeek 工作，主导开发了多语言预训练模型 VECO，并参与研发了 MoE 大模型 DeepSeek-V2。

11 月 12 日，罗福莉在朋友圈发文，正式宣布自己已经加入小米。

11 月 19 日消息，小米公司今日官宣，12 月 17 日，小米将在北京·国家会议中心举办「人车家全生态」合作伙伴大会。主论坛时间为上午 10:00-12:15，全程开放线上直播。

作为小米 MiMo 大模型负责人，罗福莉将在主论坛发表题为《Xiaomi MiMo：小米基座大模型》的主题演讲，这是她自 11 月 12 日加入小米后的首次公开亮相。

（@荆楚网）

02 有亮点的产品
1、Peopleboxai 推出 Nova：首款「人性化」AI 面试官，优化招聘流程

Peopleboxai 发布了其 AI 产品「Nova」，号称是「人性化」的 AI 面试官。Nova 能够自动化包括简历筛选、电话面试、视频面试、实时编码测试以及生成决策报告在内的整个第一轮招聘流程，显著加快招聘速度并提升效率。

全流程自动化： Nova 能够处理从简历筛选、联系候选人（通过 InMail、邮件、电话）到进行全面的语音/视频面试，甚至执行高级编码测试，直至提供详细的、可直接用于决策的报告。
高度「人性化」体验： Nova 被设计成「最佳招聘官和面试官的数字孪生」，能够模拟自然的暂停、语气和「嗯」等语用标记，提供友好的、类似真人的互动体验，候选人对其评价很高。
定制化与智能化：用户可以根据自己的需求定制 Nova 的面试风格，包括技能深度、难度、面试类型、语调和结构。Nova 还能从公司过往的招聘数据（职位描述、面试记录、ATS 笔记等）中学习，提升其判断能力。
显著提升效率： Nova 帮助客户将第一轮面试报告的完成时间从 4-5 周缩短到 48 小时以内，为招聘团队节省了大量时间，使其能专注于更具战略意义的工作。
覆盖多渠道招聘： Nova 不仅处理入站（inbound）和内推（referral）的候选人，还能主动进行外呼（outbound）候选人搜寻和联系。
Nova 产品已上线，用户可通过 Peopleboxai 官网了解更多信息并申请试用。

(@Y Combinator Launches)

2、理想汽车发布首款 AI 眼镜 Livis：标配蔡司镜片补贴后售价 1699 元起

12 月 3 日，理想汽车举办线上发布会，正式推出其首款 AI 智能眼镜 Livis。售价 1999 元起，12 月 31 日前下订可享受 15% 政府补贴，补贴后价格仅为 1699 元起。

「一款以钢铁侠 AI 管家「贾维斯」为灵感命名的智能眼镜，试图将「理想同学」的 AI 能力从驾驶空间延伸至用户日常生活的每个角落。」

Livis 名称源于理想汽车与钢铁侠 AI 管家「Jarvis」的组合。

整机重量控制在 36 克，提供经典黑、科技灰和橄榄绿三种颜色，并可选亮光或磨砂材质。

Livis 全系产品标配蔡司镜片，涵盖近视镜片、光致变色镜片与墨镜片等多种类型，满足用户在不同场景下的视觉需求。

理想宣称 Livis 在研发过程中实现了五项关键突破，构成了产品核心竞争力的重要组成部分。

典型续航时间达 18.8 小时。Livis 标配类似 AirPods 的无线充电盒，便于随身携带和补能。同时，眼镜支持与理想汽车的车机系统无线快充，上车后放置在专属充电位进行充电。

在硬件配置上，Livis 搭载恒玄 BES2800 主控芯片和独立的 ISP 成像芯片，采用 SONY IMX681 摄像头，拥有 1200 万像素、支持 4K 照片以及电子防抖拍摄。

汽车联动场景是 Livis 最独特的卖点。通过蓝牙和 5G 网络，眼镜可无缝连接车辆，实现语音远程控车。用户可在百米范围内，通过语音指令操控电动侧滑门启闭、提前开启空调及座椅加热，甚至检查车辆续航和充电状态。

（@极客公园、@快科技）

3、豆包手机助手无法登录微信，双方回应

日前，字节跳动豆包团队与中兴合作发布了豆包手机助手技术预览版后，有试用 Nubia M153 工程样机的用户反馈，出现无法正常登陆微信的情况。

对于相关情况，豆包团队方面昨晚发文并做出回应。

豆包方面表示，其后续已下线了手机助手操作微信的能力。目前，nubia M153 上被禁止登录的微信账号正陆续解封。

而微信相关人士也通过澎湃新闻回应，豆包手机助手无法正常登陆微信的微信并没有什么特别动作，「可能是中了本来就有的安全风控措施。」

针对此前曾有科技公司爆料「豆包手机助手存在侵犯用户隐私」的问题，团队方面强调，豆包手机助手不存在任何黑客行为。

据悉，此前上述公司曾表示豆包手机助手在努比亚手机上拥有 INJECT\_EVENTS 权限，该权限在安卓权限定义中属于操作系统高危权限，并且拿到该权限，要面临刑事责任。

豆包方面表示，INJECT\_EVENTS 确实是系统级权限，但拥有了该权限许可，相关产品才能跨屏、跨应用来模拟点击事件，完成用户操作手机的任务需求。

团队还强调，豆包手机助手需要用户主动授权，才可以调用该权限，使用操作手机功能。该权限的使用，豆包方面也在权限清单中进行了明确的披露。据了解，目前行业的 AI 助手，均需要使用该权限（或与其类似的无障碍权限）才能提供操作手机的服务。

豆包方面强烈表示，豆包手机助手也不会代替用户进行相关授权和敏感操作。

同时，豆包方面也对读取屏幕的隐私问题进行了回应。其表示，助手操作手机时需要读取屏幕（否则无法完成任务），但屏幕和操作过程都不会在服务器端留下存储，且所有的相关内容也都不会进入模型训练，确保用户隐私安全。

( @APPSO)

4、健康追踪应用 Healthify Ria 升级 AI 助手：支持实时语音与摄像头交互

健康追踪初创公司 Healthify 推出了其 AI 助手 Ria 的新版本，该版本支持通过语音和摄像头进行实时对话，并能理解超过 50 种语言（包括 14 种印度语言）以及混合语言输入。此举旨在通过更自然的交互方式，提升用户健康习惯养成的效率和用户粘性。

实时对话与多模态输入： Ria 现在支持通过语音进行实时对话，用户还可以通过摄像头扫描食物获取营养信息并进行记录，大幅简化了数据录入流程。
多语言与混合语言支持： Ria 能够理解超过 50 种语言，并支持 Hinglish、Spanglish 等混合语言输入，服务全球用户。
整合多源健康数据： Ria 可以整合来自健身追踪器、睡眠追踪器、血糖监测仪等设备的数据，为用户提供运动、睡眠、身体准备度和血糖波动等方面的洞察，并给出建议。
增强记忆与个性化： Healthify 正在为 Ria 构建一个更持久的记忆层，使其能够记住用户的偏好和健康变化，提供更个性化的建议。
教练与营养师辅助： Ria 将被整合到用户与教练、营养师的沟通中，协助双方快速调取数据、回答问题，并可转录通话内容，提取关键信息。
(@TechCrunch)

03 有态度的观点
1、《阿凡达》导演：对 AI 没意见，但要尊敬演员们

近日，导演詹姆斯·卡梅隆在《阿凡达 3》世界首映礼上称该片没有使用 AI 生成，随后他对 ComicBookcom 发表了自己对于生成式 AI 的应用看法。

卡梅隆表示，自己对生成式 AI 没有意见，但他强调：「我们拍《阿凡达》电影不使用它，我们尊敬并赞颂演员们，我们不用 AI 代替演员。」

同时，卡梅隆也表示，「这件事（生成式 AI）自会有方向，我想好莱坞会进行自我监管，但我们作为艺术家要找到出路，前提是我们得能存在。所以，比起别的东西，来自『大 AI』的生存威胁是最让我担忧的。」

值得一提的是，卡梅隆所提到的「大 AI」，是指人类利用 AI 的状况和其产生的问题，对应的「小 AI」是指更细节、技术性的层面，比如用 AI 生成内容。

在卡梅隆看来，AI 和人类未来有深切的担忧和存在危机，他认为「小 AI」各行业会找到应对和利用之法，但「大 AI」问题就不好说了。

对 AI 没意见

作者: 纯情
时间: 2026-01-26
分类: 资讯
评论

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

01 有话题的技术
1、亚马逊公布新款自研 AI 芯片 Trainium 3

日前，亚马逊云科技 CEO Matt Garman 在 re:Invent 2025 活动上，正式公布了亚马逊自研 AI 芯片 Trainium 系列的最新进展。

会上，Amazon Trainium 3 UltraServers 正式发布。

据介绍，这是亚马逊云科技首款搭载 3 纳米工艺 AI 芯片的服务器，相较 Amazon Trainium 2，不仅计算能力提升 4.4 倍、内存带宽提升 3.9 倍，每兆瓦算力可处理的 AI token 数量更实现了 5 倍增长。

服务器最高配置 144 个芯片，提供惊人的 362 petaflops FP8 计算能力。在运行 OpenAI 的 GPT-OSS-120B 模型时，每兆瓦输出 token 数是 Amazon Trainium 2 的 5 倍以上，实现超高能耗比。

同时，Matt Garman 还首次披露了 Amazon Trainium 4 芯片，并承诺将实现较 Amazon Trainium 3 六倍的 FP4 计算性能、四倍内存带宽和两倍高内存容量。

据悉，亚马逊云科技目前已完成超 100 万个 Trainium 2 芯片的规模化部署，为 Amazon Bedrock 中大部分推理工作提供核心算力支持，包括 Claude 最新一代模型的高效运行。

( @APPSO)

2、Meta Reality Labs 挖角苹果交互设计负责人 Alan Dye

今天凌晨，彭博社记者 Mark Gurman 发文透露，苹果人机交互设计副总裁 Alan Dye 被 Meta 挖角。

据悉，Dye 自 2015 年以来，一直担任苹果的用户界面设计团队的负责人。而本次被挖角后，苹果将用长期设计师 Stephen Lemay 顶替 Dye 的岗位。

值得一提的是，Dye 曾负责监督 iOS 26、液态玻璃界面、Vision Pro 界面、watchOS，以及各种系统交互层面内容（如空间计算交互、灵动岛）。

报道指出，Dye 在乔布斯离开后，一直担任着重要角色：帮助公司定义了最新操作系统、App 以及设备的外观。另外，Dye 在苹果的团队也帮助开发一系列新的智能家居设备。

Meta 方面，随着 Dye 加入，该公司正在创立一个新的设计工作室，并且有 Dye 负责硬件、软件和 AI 集成方面的界面设计。

Dye 将向负责现实实验室的首席技术官 Andrew Bosworth 汇报工作，而现实实验室负责开发可穿戴设备，如智能眼镜和虚拟现实头戴式设备。Gurman 透露，Dye 将于 12 月 31 日正式开始担任团队首席设计官。

而且 Dye 还不是一个人走的，他还带走了苹果设计部门的高级总监 Billy Sorrentino。后者从 2016 年起就在苹果，主要负责 VisionOS 的用户界面设计。

( @APPSO)

3、小米卢伟冰：AI 与物理世界的深度结合是智能科技的下一站

12 月 3 日，@卢伟冰在社媒发布卢伟冰答网友问第十二期，在回答「罗福莉加入了小米，未来在 AI 上会有什么新的战略」时表示：

其实我们在前几个季度就已经开始了在 AI 上的压强式投入，虽然不能透露太多，我们在 AI 大模型和应用方面的进展远超预期，我们认为 AI 与物理世界的深度结合是智能科技的下一站，小米也非常渴望人才尊重人才，也希望能够给优秀的人才提供好的发展平台。

95 后罗福莉出生于四川，父亲是一名电工，母亲是教师。她本人曾就读于四川宜宾市第一中学校「清北班」，并以优异成绩考入北京师范大学，后被保送至北京大学深造。

在北大读硕士期间，她于 2019 年在人工智能领域顶级国际会议 ACL 上发表了 8 篇论文，其中 2 篇为第一作者。毕业后，她先后在阿里达摩院、幻方量化、DeepSeek 工作，主导开发了多语言预训练模型 VECO，并参与研发了 MoE 大模型 DeepSeek-V2。

11 月 12 日，罗福莉在朋友圈发文，正式宣布自己已经加入小米。

11 月 19 日消息，小米公司今日官宣，12 月 17 日，小米将在北京·国家会议中心举办「人车家全生态」合作伙伴大会。主论坛时间为上午 10:00-12:15，全程开放线上直播。

作为小米 MiMo 大模型负责人，罗福莉将在主论坛发表题为《Xiaomi MiMo：小米基座大模型》的主题演讲，这是她自 11 月 12 日加入小米后的首次公开亮相。

（@荆楚网）

02 有亮点的产品
1、Peopleboxai 推出 Nova：首款「人性化」AI 面试官，优化招聘流程

Peopleboxai 发布了其 AI 产品「Nova」，号称是「人性化」的 AI 面试官。Nova 能够自动化包括简历筛选、电话面试、视频面试、实时编码测试以及生成决策报告在内的整个第一轮招聘流程，显著加快招聘速度并提升效率。

全流程自动化： Nova 能够处理从简历筛选、联系候选人（通过 InMail、邮件、电话）到进行全面的语音/视频面试，甚至执行高级编码测试，直至提供详细的、可直接用于决策的报告。
高度「人性化」体验： Nova 被设计成「最佳招聘官和面试官的数字孪生」，能够模拟自然的暂停、语气和「嗯」等语用标记，提供友好的、类似真人的互动体验，候选人对其评价很高。
定制化与智能化：用户可以根据自己的需求定制 Nova 的面试风格，包括技能深度、难度、面试类型、语调和结构。Nova 还能从公司过往的招聘数据（职位描述、面试记录、ATS 笔记等）中学习，提升其判断能力。
显著提升效率： Nova 帮助客户将第一轮面试报告的完成时间从 4-5 周缩短到 48 小时以内，为招聘团队节省了大量时间，使其能专注于更具战略意义的工作。
覆盖多渠道招聘： Nova 不仅处理入站（inbound）和内推（referral）的候选人，还能主动进行外呼（outbound）候选人搜寻和联系。
Nova 产品已上线，用户可通过 Peopleboxai 官网了解更多信息并申请试用。

(@Y Combinator Launches)

2、理想汽车发布首款 AI 眼镜 Livis：标配蔡司镜片补贴后售价 1699 元起

12 月 3 日，理想汽车举办线上发布会，正式推出其首款 AI 智能眼镜 Livis。售价 1999 元起，12 月 31 日前下订可享受 15% 政府补贴，补贴后价格仅为 1699 元起。

「一款以钢铁侠 AI 管家「贾维斯」为灵感命名的智能眼镜，试图将「理想同学」的 AI 能力从驾驶空间延伸至用户日常生活的每个角落。」

Livis 名称源于理想汽车与钢铁侠 AI 管家「Jarvis」的组合。

整机重量控制在 36 克，提供经典黑、科技灰和橄榄绿三种颜色，并可选亮光或磨砂材质。

Livis 全系产品标配蔡司镜片，涵盖近视镜片、光致变色镜片与墨镜片等多种类型，满足用户在不同场景下的视觉需求。

理想宣称 Livis 在研发过程中实现了五项关键突破，构成了产品核心竞争力的重要组成部分。

典型续航时间达 18.8 小时。Livis 标配类似 AirPods 的无线充电盒，便于随身携带和补能。同时，眼镜支持与理想汽车的车机系统无线快充，上车后放置在专属充电位进行充电。

在硬件配置上，Livis 搭载恒玄 BES2800 主控芯片和独立的 ISP 成像芯片，采用 SONY IMX681 摄像头，拥有 1200 万像素、支持 4K 照片以及电子防抖拍摄。

汽车联动场景是 Livis 最独特的卖点。通过蓝牙和 5G 网络，眼镜可无缝连接车辆，实现语音远程控车。用户可在百米范围内，通过语音指令操控电动侧滑门启闭、提前开启空调及座椅加热，甚至检查车辆续航和充电状态。

（@极客公园、@快科技）

3、豆包手机助手无法登录微信，双方回应

日前，字节跳动豆包团队与中兴合作发布了豆包手机助手技术预览版后，有试用 Nubia M153 工程样机的用户反馈，出现无法正常登陆微信的情况。

对于相关情况，豆包团队方面昨晚发文并做出回应。

豆包方面表示，其后续已下线了手机助手操作微信的能力。目前，nubia M153 上被禁止登录的微信账号正陆续解封。

而微信相关人士也通过澎湃新闻回应，豆包手机助手无法正常登陆微信的微信并没有什么特别动作，「可能是中了本来就有的安全风控措施。」

针对此前曾有科技公司爆料「豆包手机助手存在侵犯用户隐私」的问题，团队方面强调，豆包手机助手不存在任何黑客行为。

据悉，此前上述公司曾表示豆包手机助手在努比亚手机上拥有 INJECT\_EVENTS 权限，该权限在安卓权限定义中属于操作系统高危权限，并且拿到该权限，要面临刑事责任。

豆包方面表示，INJECT\_EVENTS 确实是系统级权限，但拥有了该权限许可，相关产品才能跨屏、跨应用来模拟点击事件，完成用户操作手机的任务需求。

团队还强调，豆包手机助手需要用户主动授权，才可以调用该权限，使用操作手机功能。该权限的使用，豆包方面也在权限清单中进行了明确的披露。据了解，目前行业的 AI 助手，均需要使用该权限（或与其类似的无障碍权限）才能提供操作手机的服务。

豆包方面强烈表示，豆包手机助手也不会代替用户进行相关授权和敏感操作。

同时，豆包方面也对读取屏幕的隐私问题进行了回应。其表示，助手操作手机时需要读取屏幕（否则无法完成任务），但屏幕和操作过程都不会在服务器端留下存储，且所有的相关内容也都不会进入模型训练，确保用户隐私安全。

( @APPSO)

4、健康追踪应用 Healthify Ria 升级 AI 助手：支持实时语音与摄像头交互

健康追踪初创公司 Healthify 推出了其 AI 助手 Ria 的新版本，该版本支持通过语音和摄像头进行实时对话，并能理解超过 50 种语言（包括 14 种印度语言）以及混合语言输入。此举旨在通过更自然的交互方式，提升用户健康习惯养成的效率和用户粘性。

实时对话与多模态输入： Ria 现在支持通过语音进行实时对话，用户还可以通过摄像头扫描食物获取营养信息并进行记录，大幅简化了数据录入流程。
多语言与混合语言支持： Ria 能够理解超过 50 种语言，并支持 Hinglish、Spanglish 等混合语言输入，服务全球用户。
整合多源健康数据： Ria 可以整合来自健身追踪器、睡眠追踪器、血糖监测仪等设备的数据，为用户提供运动、睡眠、身体准备度和血糖波动等方面的洞察，并给出建议。
增强记忆与个性化： Healthify 正在为 Ria 构建一个更持久的记忆层，使其能够记住用户的偏好和健康变化，提供更个性化的建议。
教练与营养师辅助： Ria 将被整合到用户与教练、营养师的沟通中，协助双方快速调取数据、回答问题，并可转录通话内容，提取关键信息。
(@TechCrunch)

03 有态度的观点
1、《阿凡达》导演：对 AI 没意见，但要尊敬演员们

近日，导演詹姆斯·卡梅隆在《阿凡达 3》世界首映礼上称该片没有使用 AI 生成，随后他对 ComicBookcom 发表了自己对于生成式 AI 的应用看法。

卡梅隆表示，自己对生成式 AI 没有意见，但他强调：「我们拍《阿凡达》电影不使用它，我们尊敬并赞颂演员们，我们不用 AI 代替演员。」

同时，卡梅隆也表示，「这件事（生成式 AI）自会有方向，我想好莱坞会进行自我监管，但我们作为艺术家要找到出路，前提是我们得能存在。所以，比起别的东西，来自『大 AI』的生存威胁是最让我担忧的。」

值得一提的是，卡梅隆所提到的「大 AI」，是指人类利用 AI 的状况和其产生的问题，对应的「小 AI」是指更细节、技术性的层面，比如用 AI 生成内容。

在卡梅隆看来，AI 和人类未来有深切的担忧和存在危机，他认为「小 AI」各行业会找到应对和利用之法，但「大 AI」问题就不好说了。

AAAI 2026

作者: 纯情
时间: 2026-01-24
分类: 资讯
评论

AAAI 是人工智能领域顶级的国际学术会议，本文精选了美团技术团队被收录的 8 篇学术论文（附下载链接），覆盖大模型推理、退火策略、过程奖励模型、强化学习、视觉文本渲染等多个技术领域，希望这些论文能对大家有所帮助或启发。

01 Promoting Efficient Reasoning with Verifiable Stepwise Reward

论文类型：Poster

论文下载：PDF

论文简介：大推理模型通过强化学习提升了链式推理能力，但输出冗长，导致推理开销增大和用户体验下降，即「过度思考」问题。针对这一现象，本文提出了可验证的过程奖励机制（VSRM），通过奖励有效步骤、惩戒无效步骤，优化模型推理过程。VSRM 首先通过特殊 token 划分推理步骤，并结合三条规则保证每个步骤的内容可读性。各步骤通过插入 token 生成子轨迹，模型根据每步前后正确率变化分配步骤级奖励。为避免奖励信号稀疏，引入前瞻窗口机制，通过折扣因子传播未来正确率变化，使奖励更密集。

实验表明，VSRM 能大幅缩减输出长度，且在多种数学 benchmark 和不同模型、算法下保持甚至提升性能。消融实验证明前瞻窗口机制有效，显式长度惩罚对 VSRM 无益。VSRM 机制可与各类强化学习算法无缝结合，有效抑制无效步骤，鼓励有效推理，是解决过度思考问题、提升模型推理效率的有效方法。

02 Scaling and Transferability of Annealing Strategies in Large Language Model Training

论文类型：Long Paper

论文下载：PDF

论文简介：本文深入研究了大型语言模型训练过程中退火策略（Annealing Strategies）对模型性能的影响，提出了一个新的缩放法则公式来预测不同训练配置下的损失曲线。研究发现，即使在相同的训练 token 数量和模型规模下，不同的批次大小（batch size）和学习率调度器也会导致显著不同的训练曲线。为此，作者提出了一个改进的缩放法则公式：

其中 S 表示学习率对训练步数的积分（前向效应），M 表示动量对训练步数的积分（退火动量项），N 代表模型规模。

论文的核心贡献包括：(1) 证明在特定情况下，训练步数比训练 token 数更适合作为追踪损失曲线的指标；(2) 发现最优退火比率（Ropt）随总训练步数增加而减小，遵循幂律关系；(3) 验证了最优退火比率在训练集和验证集上保持一致；(4) 通过在 Dense 模型和 MoE（Mixture-of-Experts）模型上的大量实验，证明小模型可以作为优化大模型训练动态的可靠代理。该研究为大规模语言模型的训练提供了更精确的理论指导，有助于优化训练效率和模型性能。

03 From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling

论文类型：Long Paper （Oral）

论文下载：PDF

论文简介：本文系统研究了过程奖励模型（Process Reward Models, PRMs）在提升大型语言模型推理能力方面的作用，特别关注其从数学推理到代码生成任务的跨域泛化能力。研究从训练方法、可扩展性和泛化能力等多个维度对 PRMs 进行了深入分析。

论文的核心发现包括：
- 训练计算资源的影响：研究发现随着 PRM 模型规模的增大，性能提升呈现边际递减效应，强调了在模型规模和计算成本之间寻找平衡的重要性。同时，训练数据集的多样性显著影响 PRM 性能，作者提出的 ASLAF（自动步骤级标注与过滤）方法在多个基准测试中表现优异。
- 测试时扩展策略：论文评估了 Best-of-N 采样、束搜索、蒙特卡洛树搜索（MCTS）和多数投票等多种搜索策略。结果表明，在计算资源充足时 MCTS 效果最佳，而在资源受限情况下 Best-of-N 采样是实用的替代方案。
- 跨域泛化能力：令人惊讶的是，在数学数据集上训练的 PRMs 在代码生成任务上的表现与专门针对代码训练的模型相当，展现出强大的跨域适应能力。通过梯度分析，研究还发现 PRMs 倾向于选择具有相似底层推理模式的响应，这为理解其优化机制提供了新视角。该研究为优化大规模语言模型的训练和部署提供了重要的理论指导和实践参考。

04 Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective

论文类型：Poster

论文下载：PDF

论文简介：本文对强化学习（RL）中的问题采样策略进行了系统性研究，当前主流采样策略大多直接依赖单步通过率（Pass Rate）作为问题难度指标，存在 1）对问题难度的估计不够稳定；2）无法有效捕捉模型能力与问题难度的对齐关系的问题。

针对这些问题，本文提出了 CDAS（Competence-Difficulty Alignment Sampling）：一种将模型能力与问题难度显式建模并对齐的动态采样方法。CDAS 不依赖单步通过率，而是通过累积历史表现差异来构建更稳定的难度估计；同时定义模型能力，并以不动点系统确保两者在训练过程中共同收敛。基于能力—难度差值构建对齐指标，再通过对称采样策略，选取最匹配模型当前能力的问题，从而提升有效梯度比例与训练效率。CDAS 在数学推理和代码生成场景中均通过 RL 训练验证，结果显示 CDAS 显著提升了采样效率与模型性能，击败了多种主流采样策略。

05 ViType: High-Fidelity Visual Text Rendering via Glyph-Aware Multimodal Diffusion

论文类型：Oral

论文下载：PDF

论文简介：随着文生图模型在电商营销等领域的广泛应用，视觉文本渲染的准确性已成为制约生成质量的核心瓶颈。现有模型因缺乏字形级理解能力，难以精确刻画多语言字符结构，导致海报、商品图等商业场景中文字乱码、字形失真等问题频发，严重阻碍了 AIGC 在智能设计中的实际落地。

针对这一关键挑战，我们提出 ViType 三阶段对齐增强框架：首先通过视觉问答机制实现文本-字形显式对齐，将字符视觉结构注入大语言模型语义空间；其次创新性地将预对齐字形嵌入与文本 token 同步输入多模态扩散 Transformer，通过联合训练建立跨模态特征协同；最后基于高质量图文对进行美学精调，确保生成图像的版式和谐与视觉美感。该框架使字符准确率提升 15%以上，为电商海报、营销物料等高精度视觉内容创作提供了可靠的技术支撑。

06 DSCF: Dual-Source Counterfactual Fusion for High-Dimensional Combinatorial Interventions

论文类型：Poster

论文下载：PDF

论文简介：在个性化推荐、数字营销和医疗健康等领域，基于观测数据预测反事实结果对科学决策至关重要。在这些应用场景中，决策过程往往涉及高维组合干预策略，例如多渠道资源捆绑投放或产品组合推荐。面向这类场景，无论是历史策略的效果评估还是新策略的优化，都需要模型能够对历史数据中很少出现甚至从未出现过的策略组合效果进行准确预测。此外，观测数据中源于历史分配策略和倾向性投放的选择偏差会进一步加剧数据稀疏问题，从而影响反事实推断的准确性。

为此，本文提出双源反事实融合模型（Dual-Source Counterfactual Fusion，DSCF），该可扩展框架通过双专家混合架构联合建模观测数据和代理反事实样本，并采用领域引导融合机制，在有效平衡偏差消除与信息多样性的同时，还能自适应地泛化到反事实输入场景。在合成和半合成数据集上的大量实验表明，DSCF 框架能够显著提升高维组合干预场景下的预测准确性，并在不同情境下展现出优异的鲁棒性表现。

07 Compress-then-Rank: Faster and Better Listwise Reranking with Large Language Models via Ranking-Aware Passage Compression

论文类型：Poster

论文下载：PDF

论文简介：基于大型语言模型（LLMs）的列表重排序（listwise reranking）已经成为最先进的方法，在段落重排序任务中不断创下新的性能基准。然而，其实际应用面临两个关键挑战：处理长序列时高昂的计算开销和高延迟，以及由于“迷失在中间”等现象导致的长上下文性能下降。

为了解决这些问题，我们提出了一种高效的框架压缩后排序（Compress-then-Rank, C2R），该框架不是直接对原始段落进行列表重排序，而是对其紧凑的多向量代理进行操作。这些代理可以预先计算并缓存，适用于语料库中的所有段落。C2R 的有效性依赖于三项关键创新。首先，压缩模型通过结合文本恢复和文本延续目标进行预训练，生成高保真的压缩向量序列，从而减轻了单向量方法中常见的语义损失问题。其次，一种新颖的输入方案将每个序数索引的嵌入添加到其对应的压缩向量序列前，这不仅划定了段落边界，还引导重排序 LLM 生成排序列表。最后，压缩模型和重排序模型通过联合优化，使压缩过程对排序目标具有排序感知能力。在主要重排序基准上的广泛实验表明，C2R 在提供显著加速的同时，能够实现与全文重排序方法相当甚至更优的排序性能。

论文类型：Oral

论文下载：PDF

论文简介：本文提出一种基于多模态融合的生成式推荐框架（MACRec），旨在解决现有生成式推荐方法因模态信息利用不足和跨模态交互缺失导致的性能瓶颈。

针对文本与视觉模态的量化难题，MACRec 引入跨模态量化与多角度对齐机制，通过两阶段技术路线实现优化：1）跨模态残差量化：将对比学习融入分层量化过程，生成兼具语义层次性与模态兼容性的物品标识符，显著降低多模态表征冲突；2）跨模态协同对齐：通过显式-隐式协同对齐策略，分别建模文本与视觉模态的共享特征和互补特征，增强生成式推荐的多模态理解能力。在亚马逊电商推荐数据集上的实验结果表明，MACRec 相较基准模型在推荐性能上有显著提升；各模态的码本分布更均衡、利用率更低，充分验证了跨模态量化与对齐机制在提升生成式推荐有效性方面的优势。

刚刚，AI 企业 IPO 最速纪录刷新！MiniMax 的技术野心，价值超 800 亿

作者: 纯情
时间: 2026-01-09
分类: 资讯
评论

闫俊杰在商汤敲钟前夕离开，创立了 MiniMax（上海希宇科技），也造就了全球从创立到 IPO 用时最短的 AI 企业——4 年，进程明显快于行业常态。

就在刚刚，1 月 9 日，MiniMax紧随其后挂牌上市，股票代码 00100。招股书显示，MiniMax 的 ToC 收入已经反超 ToB，这在中国大模型公司中极为罕见。

其招股书还透露了一堆硬核数据，截至 2025 年 9 月 30 日：

累计个人用户：超过 2 亿
覆盖 200+国家和地区
AI 原生产品 MAU：约 2760 万
企业与开发者客户：超过 10 万家

在这次 IPO 中，Mini Max 计划发行约 2540 万股 H 股，开盘价 235.4 港元，截至上午 10:30，股价已飙升超 60%，市值超 820 亿港元（约合人民币 738 亿元）。

据富途证券数据，MiniMax 此次 IPO 超级火爆，公开发售部分的超额认购倍数高达 1209 倍，投资者通过保证金方式认购的金额累计超过 2533 亿港元。

资本市场为 MiniMax 的技术野心“买单”

在国内近年来涌现的一批 AI 独角兽中，唯二高频更新技术论文、投资开发者生态的，是 MiniMax 和 DeepSeek 背后的深度求索。

闫俊杰曾在各种场合明确表达： MiniMax 是一家技术驱动的公司。据招股书显示，MiniMax 最大的成本就是研发成本，为了在基础模型技术上集中注意力，海外版 App 甚至没有第一时间做英文化。投资人的评价大体也能回归到技术要素，即闫俊杰是一个真正对 AGI 有信仰的人，“他很真”。

这是除市场数据外，MiniMax 市值最明确的支点。

仅在 2025 年，MiniMax 已通过至少两篇公开科研论文系统阐述其大模型架构与推理优化方案，其核心成果包括 MiniMax-01，即基于 Lightning Attention 与 MoE 的超长上下文大模型；以及 MiniMax-M1，即针对推理计算效率进一步优化的模型版本。

相关论文不仅披露了核心机制，还在处理百万级 token 上下文和推理效率上提出可复现技术路径，而非简单参数展示。

回到 2024 年初，在稠密模型仍占主流的背景下，MiniMax 率先推出了中国首个混合专家系统（MoE）大模型 abab6——比 DeepSeek 火出圈 R1 早了约一整年。

在行业仍普遍依赖 Softmax Attention、并为其二次计算复杂度付出高昂算力成本时，MiniMax 开始在模型中大量引入自研的 Lightning Attention（线性注意力）。

具体做法，简单来说就是在每 8 层模型结构中，只保留 1 层传统注意力，其余 7 层改用线性注意力，从而把长上下文推理的计算压力“削薄”。

改动后的直接效果是：模型在面对超长文本、长代码或多轮复杂推理时，不再随着上下文变长而指数级变慢。

这套注意力设计与 MoE 架构叠加后，进一步放大了效率优势，使模型在保持推理能力的前提下，大幅提升了长文本、长代码和复杂任务场景下的计算效率。

相比智谱以 GLM 系列基座模型为核心，在 ToB 与 ToG 侧已跑出较为稳健盈利能力的路径；MiniMax 展现出的是另一种取向：模型更强调产业化落地，已在 ToC 端取得了不错的成果。

围绕自研大模型，MiniMax 已形成包括 MiniMax Agent、海螺 AI、MiniMax 语音、星野以及开放平台在内的产品矩阵。

同时在海外市场亦已有实质进展：其产品和服务已覆盖 200 多个国家和地区，累计触达超过 2.12 亿名个人用户，并服务超过 13 万家海外企业与开发者（包括订阅、API 调用等渠道）。

按 2024 年基于模型的收入计算，MiniMax 是全球第四大 pure-play 大模型技术公司，还是全球第十大大模型公司，覆盖文本、视觉、音频、视频的全模态模型体系。

在上市前的近一年内，MiniMax 完成了从 MoE 架构探索（abab 6 / 6.5）到基础大模型开源（MiniMax-01），再到高级推理模型（MiniMax-M1）的连续迭代。

以 MiniMax-01 系列为例，模型总参数规模已达数千亿量级，但单个 token 实际参与计算的参数仅为几十亿，使得模型可以在控制成本的前提下，原生支持百万级乃至更长的上下文窗口。

在 2025 年 12 月 23 日，MiniMax 还对外发布了最新旗舰级 Coding & Agent 模型 M2.1。

在衡量多语言软件工程能力的 Multi-SWE-bench 测试中，该模型在仅约 10B 激活参数的前提下取得 49.4%的成绩，超越了 Claude Sonnet 4.5 等国际顶尖竞品，拿下全球 SOTA。

M2.1 要补上的，是此前不少模型在工程能力上的短板——过去的模型在编写简单脚本或前端代码时尚可应付，但一旦进入后端工程、系统架构或底层逻辑层面，表现往往迅速失稳。

这个模型的关键变化在于，其能力边界首次延伸至更完整的后端开发规范。

这些技术实现背后，是一支极其年轻的团队。据每日经济新闻消息，截至 2025 年 9 月底，MiniMax 员工 385 人，平均年龄 29 岁，研发人员占比近 74%，董事会平均年龄 32 岁。

其核心团队由一批来自商汤科技、全球一流高校和顶级科研机构的技术骨干组成，以创始人闫俊杰为首，包括杨斌、周彧聪等联合创始人。

闫俊杰拥有东南大学、本科到中科院自动化所博士及清华博士后背景，曾担任商汤副总裁与研究院副院长。

杨斌具备加拿大博士及 Uber ATG 与国际初创工程经验；周彧聪则是商汤早期算法团队核心成员。

团队多数来自 AI 与深度学习前沿领域，在 NLP、语音、视觉、生成模型等方向拥有丰富经验和多项全球发明专利。

站在年轻团队另一面的，是 AI 投资界的“老炮”们。

早期有阿里、腾讯、红杉中国、高瓴、IDG、云启、米哈游等产业与风投参与；IPO 前夕，阿布扎比投资局、Mirae Asset、Aspex、易方达等长线机构接力。

尤其是阿里，持有的 MiniMax 股权占比还要大于在智谱的比重。连续两场 IPO 后，一场投资界和 AI 创业团队之间的化学反应和默契已经诞生。

上市之后，还需直面 Claude Code 等问题

需要指出的是，由商汤的 ToB/ToG 模式，转到如今的 ToC/ToB 模式，闫俊杰麾下的 MiniMax 还未实现整理盈利；至少想赢得全球 AICoding 市场，绕不开和 Claude Code 的直接竞争。

Claude Code 是一个面向真实软件工程的 Coding / Agent 模型，由 Anthropic 公司推出。该模型的重点是在 AI 生成代码以外，确保模型在工程约束下不失控，堪称 AICoding 神器。近日， Anthropic 宣布，Claude Code 上线仅 6 个月，已经创造了近 10 亿美元年化营收。

从公开信息看，MiniMax 并没有试图直接复刻 Claude Code 的路径，而是选择了另一种更偏效率驱动的技术路线。

MiniMax 在 Lightning Attention + MoE上的投入，本质上是在解决一个问题：如何在成本可控的前提下，把上下文和工程复杂度拉到“真实软件世界”的尺度。

对于 Coding 模型来说，长上下文不是加分项，而是入场券。没有足够高效的注意力结构，就无法在真实代码库上长期运行 Agent。

M2.1 针对 Multi-SWE-bench 的表现，某种程度上正是在回应 Claude Code 的“主战场”——不是写某一段代码，而是完成跨语言、跨模块、带验证的软件工程任务。

这意味着 MiniMax 正在补的，并不是单点能力，而是：后端规范、工程一致性，和多语言协作能力，这正是 Claude Code 最难被替代的部分。

MiniMax 若想在全球市场正面竞争，最终比拼的也不会只是 Benchmark，而是 Agent 是否可控、错误是否可解释，以及是否敢被放进 CI / CD 流程。

从招股书来看，MiniMax 的研发投入在过去三年中持续攀升：

2022 年为 1060 万美元，2023 年增至 7000 万美元，2024 年进一步扩大至 1.89 亿美元；截至 2024 年及 2025 年 9 月 30 日止的九个月，研发开支分别达到 1.387 亿美元和 1.803 亿美元。相关投入主要用于模型训练过程中产生的云服务费用。

另外，在头部云厂商和海外独角兽的夹击之下，MiniMax 同时承受着 ToB 与 ToC 两个市场的竞争压力。

模型技术仍在快速演进，这场拼性能、拼效率、拼工程化的技术马拉松还在继续；上市，只是把比赛带入了下一个赛段。

在一次采访中，闫俊杰提到，MiniMax 确实放弃过一些 ToB 订单，是基于对自身交付能力的判断，避免分散注意力。那么，如果 ToB 领域的工程化交付，当下还不是 MiniMax 的“长板”，短期来看，就只剩“技术登顶”一条路能帮 MiniMax 走到终局。

闫俊杰说他在 Dota2 游戏里爱玩小精灵，因为这个英雄实现过从五号位（辅助）转型成为一号位（核心），最终主宰比赛。

目前看来，对于 MiniMax 而言情况类似，能否在 Benchmark 上五转一，保持模型能力长期领先，是上市后走向 AGI 的关键。

参考链接：

https://www1.hkexnews.hk/listedco/listconews/sehk/2025/1231/2025123100026_c.pdf

https://huggingface.co/MiniMaxAI/MiniMax-M2.1?utm_source

01 更优的扩展效率：从“堆专家”到“扩嵌入”

02 卓越的推理效率：三重优化实现极致加速

03 性能表现：智能体工具使用与编程能力双领先

轻量，不“轻”性能：开源与体验，即刻开始

(2026.01.18-02.01)🚀 好虫子周刊：DeepSeek V4前瞻、Agent标准确立、音频界面革命

🚨 核心头条 (Top Stories)

1. DeepSeek R1 报告更新与 V4 预告：开源界的透明化巅峰

2. Agent Skills 规范确立：智能体从“玩具”走向“工具”

3. 音频界面革命：OpenAI 战略重心向“声音”偏移

🛠️ GitHub 热门开源项目 (Trending Tools)

⚡ Moltbot

🤖 OpenClaw

🎨 HunyuanVideo 1.5

📑 前沿研究与行业风向 (Insights)

国产 GPU，开启 AI++ 计算新范式

回归计算本质，核心在于“不设限”

提供高质量算力：高效率、可预期、可持续

决定上限的，最终还是应用和生态

01 Promoting Efficient Reasoning with Verifiable Stepwise Reward

02 Scaling and Transferability of Annealing Strategies in Large Language Model Training

03 From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling

04 Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective

05 ViType: High-Fidelity Visual Text Rendering via Glyph-Aware Multimodal Diffusion

06 DSCF: Dual-Source Counterfactual Fusion for High-Dimensional Combinatorial Interventions

07 Compress-then-Rank: Faster and Better Listwise Reranking with Large Language Models via Ranking-Aware Passage Compression

08 Multi-Aspect Cross-modal Quantization for Generative Recommendation

资本市场为 MiniMax 的技术野心“买单”

上市之后，还需直面 Claude Code 等问题

最新文章

最近回复

分类

归档

其它