标签 mHC 下的文章

DeepSeek提出mHC，改造何恺明残差连接

作者: 纯情
时间: 2026-01-21
分类: 开源
评论

DeepSeek提出mHC，改造何恺明残差连接

✔️研究背景

深度学习中，残差连接是 ResNet、Transformer 等架构（含 LLM）的基础，其恒等映射特性保障了大规模训练的稳定性与效率。Hyper-Connections（HC）通过扩展残差流宽度、多样化连接模式提升模型性能，但因连接无约束，破坏了恒等映射特性，导致训练不稳定、扩展性受限，且存在显著内存访问与通信开销，这一问题限制了 HC 在大规模训练中的实际应用，形成研究缺口。

✔️研究目的

本文解决 HC 架构存在的训练不稳定性、扩展性差及系统开销大的核心问题，同时保留 HC 扩展残差连接带来的性能优势，提出一种兼顾稳定性、扩展性与效率的通用残差连接框架，支撑大规模深度学习模型（尤其是 LLM）的高效训练。

✔️核心贡献

提出 Manifold-Constrained Hyper-Connections（mHC）框架，通过将 HC 的残差映射投影到双随机矩阵流形（Birkhoff 多面体），恢复恒等映射特性，保障信号传播稳定性；
对输入 / 输出映射施加非负约束，避免信号抵消，同时通过核融合、选择性重计算、DualPipe 通信重叠等基础设施优化，降低系统开销；
实证验证 mHC 在大规模预训练中的有效性，为深度网络拓扑架构设计提供新视角，推动基础模型的演进。

✔️研究方法

1）核心方法论：采用 Sinkhorn-Knopp 算法将残差映射 H_res 熵投影到双随机矩阵流形，对 H_pre 和 H_post 用 Sigmoid 函数施加非负约束；
2）基础设施优化：基于 TileLang 实现混合精度核融合，通过选择性重计算降低内存占用，扩展 DualPipe 调度实现通信与计算重叠；
3）实验设计：在3B至27B参数的语言模型上进行预训练实验，对比基线、HC和mHC的稳定性、下游任务性能及缩放特性。

✔️研究结果

1）稳定性提升：mHC在27B模型训练中消除HC的损失突增现象，梯度范数保持稳定（对比HC的3000倍信号增益峰值，mHC最大增益仅1.6倍）。
2）性能优势：在推理、阅读理解、数学问题解决等任务上全面优于基线和 HC，27B 模型在 BBH 上较 HC 提升 2.1%；
3）扩展性与效率：支持模型规模与训练数据量的高效扩展，n=4 时仅增加 6.7% 时间开销，显著降低内存访问与通信成本。

派早报：Clicks 推出 Power Keyboard 和 Communicator 手机

作者: 纯情
时间: 2026-01-05
分类: 资讯
评论

Clicks 推出 Power Keyboard 和 Communicator 手机

1 月 2 日，科技初创公司 Clicks Technology 发布了继实体键盘保护壳之后的首批新品。

其中，Clicks Communicator 手机被定义为一款「现代通讯伴侣」，定位类似于 Kindle 之于 iPad，主要作为用户的第二部手机使用。该设备运行 Android 系统，直板设计，配备 4 英寸屏幕与实体全键盘，重 170 克，厚 12 毫米。为了减少信息干扰，其系统界面由 Niagara Launcher 深度定制，摒弃了传统的应用网格，转而采用极简的消息聚合中心。硬件方面，Communicator 有 5000 万像素后摄、2400 万像素前摄，保留了 3.5mm 耳机孔、静音开关与 MicroSD 卡槽，侧面设有可根据通知类型改变颜色的信号灯按键，搭载 4000mAh 电池。处理器和存储参数未公布。该机起售价为 499 美元（约合人民币 3487 元），目前提供 399 美元的早鸟预订价，预计将于今年晚些时候发货。

另一款新品 Clicks Power Keyboard 则是蓝牙键盘与移动电源二合一设备。它支持 MagSafe 与 Qi2 无线充电标准，可以磁吸在手机背面。键盘采用滑盖式设计，除了作为手机的实体键盘外，还支持通过蓝牙 5.4 连接至多三台平板电脑、智能电视等设备。Power Keyboard 重 180 克，厚 15.2 毫米，电池容量为 2150mAh，其中 500mAh 划分给键盘使用。该产品定价 109 美元（约合人民币 790 元），早鸟价 79 美元，将于今年春季正式发售。

Pebble 推出 Round 2 手表

1 月 2 日，智能手表品牌 Pebble 发布 Pebble Round 2。作为品牌重启计划的一部分，Round 2 复刻了 2015 年推出的 Pebble Time Round，旨在通过更现代的技术重现这款当年「业界最薄」的圆形手表经典设计。

在硬件设计上，Pebble Round 2 解决了初代产品边框过宽的痛点。新品在保持 8.1mm 超薄不锈钢机身的同时，搭载了一块 1.3 英寸彩色电子墨水屏，像素密度较前代翻倍至 283 ppi，且具备背光功能。Round 2 保留侧边实体按键，让用户可在会议等场景下通过触觉盲操作。

为实现 10 至 14 天的续航，Pebble Round 2 在功能上做了明显的取舍，仅保留计步、睡眠追踪等基础健康功能，未配备心率传感器，因此不适合作为运动追踪设备使用。系统方面，它运行开源的 Pebble OS，兼容数千款表盘与应用，内置麦克风支持语音输入与回复，但受限于苹果系统限制，该功能目前主要面向 Android 用户，iOS 端的支持将率先在欧盟地区开放。此前，Pebble 已推出过一款具备录音转写功能的低成本 AI 智能戒指，官方表示未来计划将类似的 AI 能力引入手表端。

该产品定价 199 美元（约 1390 元），即日起在官网开启预售，预计将于今年 5 月发货。对于此前已预订方形表盘 Pebble Time 2 的消费者，官方也提供了保留排队位次改订 Round 2 的选项。

DeepSeek 发论文介绍高效训练技术 mHC

1 月 1 日，DeepSeek 发布了一篇由创始人梁文锋合著的技术论文，提出了一种名为「流形约束超级连接」（Manifold-Constrained Hyper-Connections, mHC）的新型深度学习架构。该研究旨在通过优化计算效率，在算力资源受限的环境下，以更低的成本训练更大规模的模型。

mHC 技术是对「超级连接」（Hyper-Connections）架构的进一步改良。超级连接最初由字节跳动研究人员于 2024 年 9 月提出，旨在改进由微软亚洲研究院何恺明等人发明的 ResNet（残差网络）主流架构，以解决深层网络中的信号衰减（信息在传递过程中「声音」越来越小，深层网络接收不到有效信息）与模型坍塌（无论输入什么不同的数据，层层处理后变得相似甚至趋同）。

DeepSeek 团队指出，虽然字节跳动的方案提升了网络复杂度，但在大模型训练中忽略了日益增长的显存成本，导致实际扩展性受限。就此，DeepSeek 的 mHC 方案通过引入特定的流形约束，让数据流仅在特定的几何轨迹（流形）上运行。这在保留超级连接优势的同时，成功解决了内存与成本瓶颈，实现了「几乎可忽略的计算开销」。论文数据显示，DeepSeek 研究团队在 30 亿、90 亿及 270 亿参数规模的模型上测试，实证结果表明 mHC 具备优于传统架构的扩展性，且能维持大规模训练的稳定性。

该论文由梁文锋本人账号上传至 arXiv。梁文锋此前仅亲自发布过 DeepSeek 最重要的技术论文（如 R1 和 V3 模型相关研究），且被列为本文的最后一位作者，这一举动证实了他仍深入参与核心研发，也被视为 DeepSeek 下一代核心模型技术路线确立的信号。目前市场预期 DeepSeek 可能延续 R1 的发布策略，在 2 月中旬的春节假期前发布新款大模型。

华硕通知渠道今起涨价

据 VideoCardz 报道，华硕于去年 12 月 30 日向合作伙伴发出《2026 年产品价格调整说明函》，宣布将于 2026 年 1 月 5 日起实施价格调整。

该函称，受全球供应链结构性波动影响，多项关键零组件正承受严峻的成本上升压力，特别是 DRAM 内存和 NAND。此变动源于「全球原厂产能配置调整」「先进製程投资成本增加」，以及「AI 算力需求导致的产业结构性缺口」。

尽管华硕未列出具体受影响的型号，但明确表示将「针对部分产品组合策略性价格调整」。由于此次调价生效日期恰逢 2026 年 CES 开幕前夕，业界分析认为，华硕即将在 CES 上发布的新一代硬件产品，特别是 AI PC 及电竞设备，将首当其冲，并可能确立新的市场价格基准。

华硕强调，此次调价是公司在「长期吸收与因应成本压力后所做出的必要决定」，目的是为了「确保稳定供应、维持品质与服务水准」。针对后续影响，华硕业务代表将主动联系合作伙伴，提供详细说明并协助规划最适切的因应方案或配置建议。

华硕公关部门证实了该文件的真实性，但向媒体澄清，这是一份仅供渠道合作伙伴参考的内部商业沟通文件，并非面向公众发布的正式新闻稿。

新一批作品进入公有领域

2026 年 1 月 1 日，全球迎来一年一度的版权释放重要时刻。弗洛伊德、爱因斯坦、汤因比等名家名作分别在美国、欧洲或中国等司法辖区进入公有领域。

在美国，随着 1930 年作品保护期的终结，福克纳的《我弥留之际》、弗洛伊德的《文明及其不满》等著作，《西线无战事》等电影进入公有领域。蒙德里安与保罗·克利的画作、初代「贝蒂娃娃」、迪士尼最早期的普鲁托（当时名为 Rover）形象均不再受版权限制，基于这些早期素材二次创作成为可能。

在实行「作者有生之年加 70 年」版权期限的司法辖区，如欧盟、英国、俄罗斯，1955 年逝世作者作品保护期届满。这意味着物理学家爱因斯坦、《人性的弱点》作者卡耐基、诺贝尔文学奖得主托马斯·曼的作品在这些地区将不再受版权限制。

在实行「作者有生之年加 50 年」版权期限的司法辖区，如中国及亚洲和非洲大部分地方，1975 年逝世的作者作品保护期届满。这包括蒋介石、历史学家阿诺德·汤因比、苏联作曲家肖斯塔科维奇、政治哲学家汉娜·阿伦特等。

比亚迪超越特斯拉成为 2025 年全球电动车销量榜首

据《纽约时报》报道，2025 年，特斯拉失去全球最大电动汽车制造商的位置，首次被比亚迪超越。根据 12 月 31 日公布的数据，特斯拉全年交付量同比下降 9% 至 164 万辆，其中第四季度销量受政策冲击暴跌 16%。相比之下，比亚迪全年纯电车型销量增长 28%，达到 226 万辆，并凭借价格优势在亚洲、欧洲和拉美市场实现了显著扩张。

特斯拉销量的下滑主要受到美国政策急剧转向的冲击。尽管马斯克在 2024 年大选中大力支持特朗普，但共和党重新执掌白宫和国会后，迅速废除了最高 7500 美元的联邦电动车税收抵免，并着手削弱清洁空气法规。特斯拉作为占据美国电动车市场 45% 份额的绝对主力，成为此项政策变动的最大受害者，导致其第四季度交付量从上年同期的 49.6 万辆锐减至 41.8 万辆。

除外部环境恶化外，特斯拉自身的产品迭代滞后也是关键因素。其主力车型 Model Y 自 2020 年上市以来未见重大更新，新推出的 Cybertruck 销量惨淡。在欧洲市场，特斯拉的销量已被大众汽车反超。此外，马斯克将公司重心转向自动驾驶出租车（Robotaxi）和人形机器人，但尚未产生显著营收，且在自动驾驶落地进程上已落后于谷歌旗下的 Waymo。

行业分析师预测，2026 年美国电动车市场将持续低迷，需等到 2027 年更多低于 3 万美元的廉价车型上市后才有望回暖。尽管汽车销售疲软，但华尔街因看好其在自动驾驶领域的长期潜力，特斯拉股价目前仍维持在历史高位。与此同时，比亚迪虽然因高关税壁垒无法进入美国市场，但已确立了其在全球其他市场的领跑地位。

看看就行的小道消息

近日，多名 Reddit 用户抱怨多邻国通过实时活动功能显示订阅广告，而这是 App Store 审核规则禁止的行为，可能被下架处理。多邻国后来似乎停止了广告展示。

据 StackOverflow 官方数据，该站在 2025 年 12 月仅新增 3862 个问题，已低于初创不久时 2008 年 8 月的水平。

据路透社查阅的 Meta 内部文件显示，面对全球监管机构打击社交媒体诈骗广告的压力，Meta 制定了一套名为「全球剧本」（Global Playbook）的应对策略。文件揭露，Meta 并没有全面验证广告主身份、根除诈骗，而是通过操纵搜索结果，使监管机构难以发现违规广告，以此通过合规审查。例如在日本，Meta 团队发现监管机构会通过特定关键词（如名人姓名）在公开的广告资料库中搜索诈骗广告，于是在监管审查前针对性地清洗相关搜索结果，制造出诈骗广告已大幅减少的假象。此外，当一地加强监管时，算法会自动将诈骗广告流量导向其他监管较松的地区。此前，Meta 曾因 Facebook 和 Instagram 上泛滥的投资诈骗和 AI 合成名人代言虚假广告而面临日本、新加坡等国政府的严厉质询。
1 月 3 日晚，雷军在新年直播中披露，2025 年小米汽车交付量目标原本定的是 30 万辆，中间提高到 35 万，最后实现超过 41 万辆，并宣布 2026 年小米汽车交付目标为 55 万辆。当晚，雷军直播四个小时，随工程师团队完整拆解了一台 YU7。拆车结束后，雷军集中回应了近期围绕小米汽车的多项舆情与争议。关于「1300公里只充一次电」「200公里瞬间刹停」等营销表述质疑，雷军表示，相关说法源自驾驶体验展示视频，主要用于展示 SU7 的续航、刹车性能，有完整视频作为佐证，但在传播过程中被「断章取义」。雷军还承认「小字营销」是行业陋习，接受批评，已于去年 11 月要求各业务团队尽量使用大字直观展示。

少数派的近期动态

年末「夯」一下！少数派 2025 年度盘点正式上线。
少数派会员年终福利来袭，引荐比例限时上调至 15%，邀请好友享 85 折入会优惠。参与活动
好玩又实用，还有迪士尼授权配件可选，少数派「扭扭宝」充电宝火爆开售。来一个试试
GAMEBABY for iPhone 17 Pro & 17 Pro Max 系列现已上市。进一步了解
《蓝皮书》系列新版上架，一起探索全新 iOS 和 macOS 的精彩。试读并选购

你可能错过的好文章

浅谈最优传输、双随机矩阵与 mHC

作者: 纯情
时间: 2026-01-03
分类: 网络
评论

最优传输问题

考虑这么一个问题，假设佬友 A、B 分别有 100 刀、400 刀 api，佬友 C、D 分别有 200 刀、300 刀的 api 需求，那么怎么生成一个合理的分配方案

我们可以很容易列出这么一个表格

供给 \ 需求	C(200)	D(300)
A(100)
B(400)

由于供给需求平衡，分配方案是非常多的，比如使用对角线定 1 法，立马就能像填字游戏一样给出一个结果：

对角线定 1：

供给 \ 需求 C(200) D(300)

A(100) 100
B(400)
填充空格：

供给 \ 需求 C(200) D(300)

A(100) 100 0
B(400) 100 300

供给 \ 需求	C(200)	D(300)
A(100)	100
B(400)

供给 \ 需求	C(200)	D(300)
A(100)	100	0
B(400)	100	300

非常好，我们已经得到一个可行方案了。把上述问题归纳抽象成数学语言，就是一个最优传输 ( Optimal Transport) 问题：

在给定源分布、目标分布和运输代价矩阵的情况下，求一个非负矩阵，使得它的行和、列和分别等于给定分布，并且总运输成本最小。

已知供给 \mu $μ$ 、需求 \nu $ν$ 、以及每条路的单位成本 C_{ij} $C_{i j}$ 。
目标运输矩阵 \Pi $Π$ :

\Pi_{ij} \geq 0 $Π_{i j} \geq 0$
行和 = 供给: \Pi 1 = \mu $Π 1 = μ$
列和 = 需求: \Pi^{\top} 1 = \nu $Π^{⊤} 1 = ν$

目标：总成本最小

\min_{\Pi \in \mathcal{U}(\mu,\nu)} \langle C, \Pi \rangle = \sum_{i,j} C_{ij}\Pi_{ij}

min Π \in U (μ, ν) ⟨ C, Π ⟩ = \sum i, j C_{i j} Π_{i j}

数学语言	与引入问题的对应
源分布	供给端（100,400）
目标分布	需求端（200,300）
传输代价	未显式体现，默认都是单位代价
非负矩阵	传输非负性，不能从需求端分配资源给供给端

听起来这个问题也不难嘛，填填空也就把方案做出来了，那么这个分配方式有什么问题吗？

规模复杂性：如果供给方和需求方数量增加，问题也将复杂起来，由于要求传输非负性，定 1 法可能导致其他位置计算出现负数而需要进行调整
成本敏感性：给定供给方和需求方之间的传输代价，问题复杂度也立马上升
解的稀疏性：定 1 法容易产生大量 0 元素，在应对分布改变和成本改变时不稳定，比如某个供给方断供，其对应的需求方将立刻卡脖子

为了不把鸡蛋放在一个篮子里（解的稀疏性）和解决其他问题，我们需要把分配方式软化，比如这样的分配方式就被认为比之前的方案更加 “软”：

供给 \ 需求	C(200)	D(300)
A(100)	50	50
B(400)	150	250

那么，怎么数学化地计算这种软化方案呢，数学家引入了一种叫熵正则项，用来惩罚传输方案里的极端项，就是让你不要把鸡蛋放在一个篮子里：就算你供给量少，也要拆开卖，万一买家跑了你也不至于全亏损；就算你需求少，也分开买，卖家不稳定了你还有缓冲。于是熵正则最优传输的目标变成:

\min_{\Pi \in \mathcal{U}(\mu, \nu)} \langle C, \Pi \rangle - \varepsilon H(\Pi)

min Π \in U (μ, ν) ⟨ C, Π ⟩ - ε H (Π)

其中，

H(\Pi) = - \sum_{i,j} \Pi_{ij} \log \Pi_{ij}

H (Π) = - \sum i, j Π_{i j} log Π_{i j}

而 \varepsilon $ε$ 代表了分散程度，该值如果取 0，则问题等价于原始的最优传输问题，该值增大，传输方案越软。
增加熵正则项后，目标函数就从线性变成了强凸性的。在给定 \varepsilon $ε$ 的情况下，熵正则最优传输问题的最优解是唯一的，且具有一个非常优雅的结构:

\Pi^* = \mathrm{diag}(u) K \mathrm{diag}(v), K_{ij} = \exp(-C_{ij}/\varepsilon)

Π^{*} = d i a g (u) K d i a g (v), K_{i j} = exp (- C_{i j} / ε)

计算出缩放系数 u $u$ 、v $v$ 就能给出最优解了，这里有个简单的 Sinkhorn 算法，通过交替地更新这两个缩放系数，让边际约束满足:

u \leftarrow \mu /(K v), \quad v \leftarrow \nu /(K^{\top} u)

u \leftarrow μ / (K v), v \leftarrow ν / (K^{⊤} u)

由于该问题变成强凸性，所以上述过程收敛很快（线性收敛），而且迭代过程只涉及逐行逐列的元素归一化（可规模化并行计算），是一个非常实用的方案。

以前述引入问题为例

取 \varepsilon=1 $ε = 1$ , 计算 K 矩阵：

K = \begin{bmatrix} 1 & e^{-1} \\ e^{-1} & 1 \end{bmatrix} = \begin{bmatrix} 1 & 0.36787944 \\ 0.36787944 & 1 \end{bmatrix}

K = [\begin{matrix} 1 & e^{- 1} e^{- 1} & 1 \end{matrix}] = []

第 1 轮迭代后的方案 X^{(1)} $X^{(1)}$

X^{(1)} \approx \begin{bmatrix} 80.92193504 & 25.26714252 \\ 119.07806496 & 274.73285748 \end{bmatrix}

X^{(1)} \approx []

此时行和误差约为 6.1891：

行和 \approx (106.18907756, 393.81092244) $\approx (,)$
列和 = (200, 300) $= (200, 300)$

第 6 轮迭代后的方案 X^{(6)} $X^{(6)}$

X^{(6)} \approx \begin{bmatrix}
76.70375289 & 23.29658735 \\
123.29624711 & 276.70341265
\end{bmatrix}

X^{(6)} \approx []

・行和 \approx $\approx$ (100.00034024, 399.99965976) (已经非常接近供给)
・列和 = (200, 300)

双随机矩阵

解决了熵正则最优问题，我们再来看看这个传输矩阵，如果我们把供给、需求归一化，那么原先的传输矩阵就变成了一个 “分配比例” 矩阵，每个格子不再代表具体分配的额度，而是分配比例。失去量纲让它变得更加通用了，从一个具体的 “分配方案” 变成了一个 “通用的分配规则”。

如果进一步把供给端和需求端设置为均匀分布（都是 1），那么这种 “分配比例” 矩阵会具备如下特点：

所有元素非负
各行元素之和为 1
各列元素之和为 1

具备这些特点的矩阵，取名叫 “双随机矩阵”，因为它每行每列都像是一个随机概率分布。可以把双随机矩阵看成一个软路由表，它规定了供给和需求之间的分配比例，又可以通过软化系数 \varepsilon $ε$ 避免极端分配情况（即不把鸡蛋放在一个篮子里）和快速调整（可学习性）。

容易观察到，它具备乘法封闭性：

任意两个 nxn 双随机矩阵相乘，结果仍然是双随机矩阵。

相当于可以累积这种路由表，而保持供给、需求的分配方案不崩溃 —— 你叠多少层 “软分配”，整体仍然是一个合法的软分配，不会出现 “某个需求方越分越多、某个供给方越分越空” 的诡异情况。如果需要对一个分布进行信息重分配，那双随机矩阵是一个非常好的选择。

诶，既需要避免累积导致模式崩溃，又期望促进不同分布之间进行信息分配，还有良好的可学习性性质，那不正是神经网络中常见的需求吗？这也正是 DeepSeek mHC 引入双随机矩阵（论文里的故事叫 “流形约束”）的重要原因。~~啊这鸡汤真是太好喝了，哦不是，~~ 这矩阵真是太美妙了。

字节的 HC 尝试引入 Mapping 来丰富跨层连接多样性，mHC 则通过双随机矩阵约束改良了 HC 的训练不稳定性（谱范数为 1，累乘封闭性）

（除引入双随机矩阵外，mHC 也做了很多扎实的优化工作，这里就不再赘述和解读了，仅从最优传输角度提供一种浅浅解读）

📌 转载信息

来源：
https://linux.do/t/topic/1400097

原作者：
zhong_little

转载时间：
2026/1/3 14:54:58

DeepSeek 发布新论文 mHC: Manifold-Constrained Hyper-Connections

作者: 纯情
时间: 2026-01-01
分类: 资讯
评论

📌 转载信息

来源：
https://linux.do/t/topic/1393729

原作者：
BunnHack

转载时间：
2026/1/1 16:15:20