标签 DeepSeek V4 下的文章

(2026.01.18-02.01)🚀 好虫子周刊:DeepSeek V4前瞻、Agent标准确立、音频界面革命

本周关键词: 混合专家 (MoE)、Agent 技能标准、物理 AI、音频首选 (Audio-first)

摘要: 本周是开源界深度复盘与大厂战略转向的关键交汇期。DeepSeek R1 发布周年之际,官方以 86 页超长报告披露了 RL 训练核心机密,并预告 V4 版本将冲击 Claude 代码王座。与此同时,Anthropic 推动的 Agent Skills 规范逐渐成为行业事实标准,OpenAI 亦被传出转向“音频优先”硬件策略。整体趋势显示,AI 正在从“大参数”竞赛转向“高可靠性 Agent”和“低成本推理”的务实阶段。

🚨 核心头条 (Top Stories)

1核心头条

1. DeepSeek R1 报告更新与 V4 预告:开源界的透明化巅峰

  • 发布时间: 01.20
  • 核心亮点: DeepSeek 将 R1 技术报告扩展至 86 页,完整披露了从 Dev1 到 Dev3 的三阶段强化学习(RL)路径。同时预告 V4 版本将于 2 月中旬发布。
  • 技术突破: 详细记录了 MCTS(蒙特卡洛树搜索)在训练中的失败经验,证明了纯 RL 训练即可实现推理能力涌现。V4 将采用更优化的 MoE 架构,侧重软件工程能力。
  • 开源/行业价值: 为全球开发者节省了数亿元的验证算力,奠定了中国开源模型在 Hugging Face 社区的领导地位。

2. Agent Skills 规范确立:智能体从“玩具”走向“工具”

  • 发布时间: 01.26
  • 核心亮点: Anthropic 官方开放 Agent Skills 规范。Moltbot(原 Clawdbot)在 GitHub 狂揽 10 万 Star,成为增长最快的 AI 助手项目。
  • 技术突破: 通过 MCP(Model Context Protocol)将智能体与真实系统连接摩擦降至最低。引入自验证机制,解决了复杂任务下 Agent 频繁遗忘上下文的痛点。
  • 开源/行业价值: 标志着 Agent 开发从碎片化走向标准化,开发者可复用 Vercel 或 Anthropic 提供的技能模块,加速企业级智能体部署。

3. 音频界面革命:OpenAI 战略重心向“声音”偏移

  • 发布时间: 01.30
  • 核心亮点: 社区情报显示 OpenAI 计划在 Q1 发布新一代非 Transformer 架构的音频模型,并与 Jony Ive 合作开发“音频优先”个人设备。
  • 技术突破: 实现真·端到端语音交互,摆脱传统的“语音转文字”中转,延迟大幅降低,支持更细腻的情感表达。
  • 开源/行业价值: 预示着 AI 交互将从屏幕端(Screen-based)转向环境音端(Ambient Audio),为可穿戴设备和智能家居开辟新赛道。

🛠️ GitHub 热门开源项目 (Trending Tools)

2GitHub 热门开源项目

本周 GitHub Star 增长最快、开发者关注度最高的项目精选

Moltbot

  • 一句话介绍: 自托管的“最强 AI 智能助手”,GitHub 增长奇迹。
  • 核心价值: 支持集成 Slack/Discord/Telegram,具备系统级操作权限,重点在于数据完全本地化处理,解决了企业对闭环 AI 的核心焦虑。
  • 项目地址: moltbot/moltbot

🤖 OpenClaw

  • 一句话介绍: 专注解决 Agent 稳定性的开源框架。
  • 核心价值: 针对长流程任务进行了“反馈闭环”优化,大幅降低了智能体在多步推理中的出错率(Hallucination Rate)。
  • 项目地址: pipecat-ai/nemotron-january-2026 (NVIDIA 驱动版)

🎨 HunyuanVideo 1.5

  • 一句话介绍: 腾讯开源的“显卡救星”视频生成模型。
  • 核心价值: 仅需 13.6GB 显存即可运行 720p 视频生成,通过 SSTA 稀疏注意力技术实现了 1.87 倍的生成提速。
  • 项目地址: Tencent/HunyuanVideo

📑 前沿研究与行业风向 (Insights)

3前沿研究与行业风向

  • 物理 AI (Physical AI) 与世界模型: 随着 Boston Dynamics 展示全电动 Atlas 机器人的 RL 训练成果,学术界开始转向“物理层面的智能定义”。LeCun 的 World Model 实验室获得 50 亿美元估值,标志着 AI 正在尝试理解物理世界的逻辑而非单纯的概率拟合。
  • 算力能源瓶颈: 马斯克在达沃斯论坛再次预警:电力供应将成为 2026 年 AI 扩张的最大红利障碍。Vistra 等电力巨头通过收购天然气电厂直接对接 AI 数据中心,能源溢价正在重塑 AI 供应链。

✍️ 编辑结语: 本周我们看到了 AI 领域从“堆参数”到“堆逻辑”的结构性转变。开源社区不再盲目跟风,而是通过透明的技术报告和标准化的接口(如 MCP)构建护城河。下周,请密切关注 DeepSeek V4 的定档消息,这可能彻底重写 2026 年的 Coding Agent 竞争格局。

整理:好虫子周刊编辑部 数据来源:GitHub, arXiv, Hugging Face等

本文由mdnice多平台发布

整理 | 华卫

 

DeepSeek V4 马上要来了?

 

正值 DeepSeek-R1 发布一周年之际,DeepSeek 的官方 GitHub 代码库意外曝光了代号为“MODEL1”的全新模型线索。

 

而综合泄露代码片段中呈现的架构调整、硬件优化与全新处理机制来看,“MODEL1”似乎绝非简单的版本迭代,而是一次全方位的架构重构。

 

此次 DeepSeek 在 GitHub 代码库的提前部署,在时间线上与业内疯传的“其新模型再次在春节期间发布”的消息高度吻合。本月初,也有外媒爆料称,DeepSeek 将在今年 2 月中旬农历新年期间推出新一代旗舰 AI 模型 DeepSeek V4。

新模型曝光,代码揭露全新架构能力

近日,DeepSeek 陆陆续续给其在 GitHub 上的 FlashMLA 代码库做了一系列更新。

 

而刚刚,有开发者发现,114 个文件中有 28 处都提到了未知的“MODEL1”大模型标识符。而且,在代码逻辑结构中,该标识符与现有模型“V32”(即 DeepSeek-V3.2)是并列且作为独立分支出现的。也就是说,“MODEL1”很可能代表一个不同于现有架构和技术路径的全新模型。

 

网友们也纷纷猜测,这个“MODEL1”很可能就是 DeepSeek 即将发布的新模型 V4 的内部开发代号或首个工程版本。

 

根据代码片段中披露的技术规格,这个新模型有重大架构变更,或在 KV Cache(键值缓存)布局、稀疏性处理及 FP8 解码支持等方面改变了策略和机制,还包括参数维度切换至 512 维以及针对英伟达下一代 Blackwell GPU 架构的专项优化。

 

在 FP8 解码路径上,该模型有多处针对性的内存优化调整。测试脚本中同步新增了 test_flash_mla_sparse_decoding.py 与 test_flash_mla_dense_decoding.py 两个文件,这一改动证实“MODEL1”具备稀疏与稠密计算并行处理的能力。在稀疏化实现方案中,键值缓存存储采用 FP8 精度,而矩阵乘法运算则使用 bfloat16 精度,以此保障计算准确性。这种混合精度设计表明,“MODEL1”通过在推理阶段对部分数据进行选择性稀疏化处理,有效降低内存占用压力,从而具备处理超长上下文窗口的能力。

 

在 csrc/api/common.h 文件内的代码显示,“MODEL1”的注意力头参数维度被配置为 512 维,与上一代产品 DeepSeek V3.2 采用的 576 维参数设置形成显著差异。这一架构调整意味着,DeepSeek 已对其多头隐式注意力(MLA)结构进行了重新设计。此前的 V3 系列采用非对称设计方案,将 128 维旋转位置编码(RoPE)与 448 维隐层维度相结合。此次转向标准化的 512 维参数配置,或许是为了更好地适配硬件性能,也可能是在隐层压缩率方面实现了技术突破。

 

代码更新记录还显示,DeepSeek 研发团队已围绕英伟达 Blackwell 架构开展了大量优化工作,预示着 DeepSeek 正为“MODEL1”量身打造下一代硬件适配方案。代码中新增了一批专门面向 Blackwell 指令集的接口,包括 FMHACutlassSM100FwdRun;相关文档明确指出,该模型若要在 B200 GPU 上运行,需依赖 CUDA 12.9 版本环境;内嵌的性能指标数据显示,即便在未完全优化的状态下,稀疏化 MLA 算子在 B200 硬件平台上的运算性能仍可达到 350 万亿次浮点运算每秒(TFLOPS)。在当前主流的 H800 GPU(基于 SM90a 架构)上,稠密型 MLA 算子的吞吐量则能达到 660 万亿次浮点运算每秒。

 

尽管本次代码提交的内容主要聚焦于算子层面的实现,但调度逻辑中仍提及多项新增功能。从代码仓库的结构可以推断,“MODEL1”集成了价值向量位置感知(VVPA)技术,这项技术有望解决传统 MLA 架构在长文本处理场景下存在的位置信息衰减问题。代码注释中还提到了一种名为 “记忆印记(Engram)机制” 的技术,但在已公开的代码提交记录中,相关实现细节尚不完整。从该机制在分布式处理模块中的部署位置推测,其功能大概率与分布式存储优化或高级键值压缩技术相关,旨在满足“MODEL1”对高吞吐量的性能需求。

 

前不久,DeepSeek 研究团队刚发布了 Engram 的技术论文。当时,就有业内观察者认为,Engram 模块可能会成为 DeepSeek V4 的重要组成部分,并预示 DeepSeek 下一代模型会在记忆和推理协同上实现架构级提升。

 

这些优化能够表明,“MODEL1”在推理效率上可能有更好的表现。此前也有爆料称,DeepSeek V4 的代码表现已超越 Claude 和 GPT 系列,并且具备处理复杂项目架构和大规模代码库的工程化能力。

国内外万众期待,“中国 AI 站起来了”

“DeepSeek 刚刚泄露了一个模型,这可能会再次改变整个 AI 行业的格局。”在国内外的各大社交平台及社区,针对 DeepSeek 新模型的上线猜测、能力预测的期待帖子已大量涌现。

 

“中国 AI 站起来了。”昨日,全球最大的 AI 开源社区 Hugging Face 以“距离 DeepSeek 时刻一周年”为题专门发文,复盘了 R1 发布这一年来对中国开源社区及其对整个 AI 生态系统的影响。

 

“这是中国研发的开源模型首次跻身全球主流榜单。此后一年间,每当有新模型发布时,R1 都会被当作重要的参照基准。该模型迅速登顶 Hugging Face 平台历史最受欢迎模型榜单,而这一平台上最受青睐的模型,也不再以美国研发的产品为主导。”

 

在他们看来,R1 的真正价值在于降低先进 AI 能力的门槛或者说障碍,并提供了清晰的模式。

  • 技术障碍。通过公开分享其推理路径和训练后的方法,R1 将此前被封闭 API 锁定的高级推理转变为可下载、提炼和微调的工程资产。许多团队不再需要从零开始训练庞大的模型来获得强大的推理能力。

  • 应用障碍。R1 以 MIT 许可证发布,使其使用、修改和再分发变得简单。依赖封闭式模型的公司开始直接将 R1 投入生产。蒸馏、二次培训和领域特定适应成为常规工程工作,而非专门项目。

  • 心理层面。当问题从“我们能做到吗?”转变为“我们如何做好?”时,许多公司的决策发生了变化。对于中国 AI 社区来说,这也是罕见的持续全球关注时刻,对长期被视为追随者的生态系统意义重大。

 

“在 R1 模型发布一年后的今天,我们看到的不仅是一大批新模型的涌现,更见证了一个富有生命力的中国 AI 开源生态的加速成型。”

 

参考链接:

https://github.com/deepseek-ai/FlashMLA?tab=readme-ov-file

https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment

https://chinabizinsider.com/deepseeks-mysterious-model-1-surfaces-in-github-code-sparking-speculation-about-next-generation-ai-system/