标签 mHC 下的文章

DeepSeek提出mHC,改造何恺明残差连接

大模型实验室Lab4AI论文阅读

✔️研究背景

深度学习中,残差连接ResNetTransformer 等架构(含 LLM)的基础,其恒等映射特性保障了大规模训练的稳定性与效率。Hyper-Connections(HC)通过扩展残差流宽度、多样化连接模式提升模型性能,但因连接无约束,破坏了恒等映射特性,导致训练不稳定、扩展性受限,且存在显著内存访问与通信开销,这一问题限制了 HC 在大规模训练中的实际应用,形成研究缺口。

✔️研究目的

本文解决 HC 架构存在的训练不稳定性、扩展性差及系统开销大的核心问题,同时保留 HC 扩展残差连接带来的性能优势,提出一种兼顾稳定性、扩展性与效率的通用残差连接框架,支撑大规模深度学习模型(尤其是 LLM)的高效训练。

✔️核心贡献

提出 Manifold-Constrained Hyper-Connections(mHC)框架,通过将 HC 的残差映射投影到双随机矩阵流形(Birkhoff 多面体),恢复恒等映射特性,保障信号传播稳定性;
对输入 / 输出映射施加非负约束,避免信号抵消,同时通过核融合、选择性重计算、DualPipe 通信重叠等基础设施优化,降低系统开销;
实证验证 mHC 在大规模预训练中的有效性,为深度网络拓扑架构设计提供新视角,推动基础模型的演进。

✔️研究方法

  • 1)核心方法论:采用 Sinkhorn-Knopp 算法将残差映射 H_res 熵投影到双随机矩阵流形,对 H_pre 和 H_post 用 Sigmoid 函数施加非负约束;
  • 2)基础设施优化:基于 TileLang 实现混合精度核融合,通过选择性重计算降低内存占用,扩展 DualPipe 调度实现通信与计算重叠;
  • 3)实验设计:在3B至27B参数的语言模型上进行预训练实验,对比基线、HC和mHC的稳定性、下游任务性能及缩放特性。

✔️研究结果

  • 1)稳定性提升:mHC在27B模型训练中消除HC的损失突增现象,梯度范数保持稳定(对比HC的3000倍信号增益峰值,mHC最大增益仅1.6倍)。
  • 2)性能优势:在推理、阅读理解、数学问题解决等任务上全面优于基线和 HC,27B 模型在 BBH 上较 HC 提升 2.1%;
  • 3)扩展性与效率:支持模型规模与训练数据量的高效扩展,n=4 时仅增加 6.7% 时间开销,显著降低内存访问与通信成本。

Clicks 推出 Power Keyboard 和 Communicator 手机

1 月 2 日,科技初创公司 Clicks Technology 发布了继实体键盘保护壳之后的首批新品。

其中,Clicks Communicator 手机被定义为一款「现代通讯伴侣」,定位类似于 Kindle 之于 iPad,主要作为用户的第二部手机使用。该设备运行 Android 系统,直板设计,配备 4 英寸屏幕与实体全键盘,重 170 克,厚 12 毫米。为了减少信息干扰,其系统界面由 Niagara Launcher 深度定制,摒弃了传统的应用网格,转而采用极简的消息聚合中心。硬件方面,Communicator 有 5000 万像素后摄、2400 万像素前摄,保留了 3.5mm 耳机孔、静音开关与 MicroSD 卡槽,侧面设有可根据通知类型改变颜色的信号灯按键,搭载 4000mAh 电池。处理器和存储参数未公布。该机起售价为 499 美元(约合人民币 3487 元),目前提供 399 美元的早鸟预订价,预计将于今年晚些时候发货。

另一款新品 Clicks Power Keyboard 则是蓝牙键盘与移动电源二合一设备。它支持 MagSafe 与 Qi2 无线充电标准,可以磁吸在手机背面。键盘采用滑盖式设计,除了作为手机的实体键盘外,还支持通过蓝牙 5.4 连接至多三台平板电脑、智能电视等设备。Power Keyboard 重 180 克,厚 15.2 毫米,电池容量为 2150mAh,其中 500mAh 划分给键盘使用。该产品定价 109 美元(约合人民币 790 元),早鸟价 79 美元,将于今年春季正式发售。


Pebble 推出 Round 2 手表

1 月 2 日,智能手表品牌 Pebble 发布 Pebble Round 2。作为品牌重启计划的一部分,Round 2 复刻了 2015 年推出的 Pebble Time Round,旨在通过更现代的技术重现这款当年「业界最薄」的圆形手表经典设计。

在硬件设计上,Pebble Round 2 解决了初代产品边框过宽的痛点。新品在保持 8.1mm 超薄不锈钢机身的同时,搭载了一块 1.3 英寸彩色电子墨水屏,像素密度较前代翻倍至 283 ppi,且具备背光功能。Round 2 保留侧边实体按键,让用户可在会议等场景下通过触觉盲操作。

为实现 10 至 14 天的续航,Pebble Round 2 在功能上做了明显的取舍,仅保留计步、睡眠追踪等基础健康功能,未配备心率传感器,因此不适合作为运动追踪设备使用。系统方面,它运行开源的 Pebble OS,兼容数千款表盘与应用,内置麦克风支持语音输入与回复,但受限于苹果系统限制,该功能目前主要面向 Android 用户,iOS 端的支持将率先在欧盟地区开放。此前,Pebble 已推出过一款具备录音转写功能的低成本 AI 智能戒指,官方表示未来计划将类似的 AI 能力引入手表端。

该产品定价 199 美元(约 1390 元),即日起在官网开启预售,预计将于今年 5 月发货。对于此前已预订方形表盘 Pebble Time 2 的消费者,官方也提供了保留排队位次改订 Round 2 的选项。


DeepSeek 发论文介绍高效训练技术 mHC

1 月 1 日,DeepSeek 发布了一篇由创始人梁文锋合著的技术论文,提出了一种名为「流形约束超级连接」(Manifold-Constrained Hyper-Connections, mHC)的新型深度学习架构。该研究旨在通过优化计算效率,在算力资源受限的环境下,以更低的成本训练更大规模的模型。

mHC 技术是对「超级连接」(Hyper-Connections)架构的进一步改良。超级连接最初由字节跳动研究人员于 2024 年 9 月提出,旨在改进由微软亚洲研究院何恺明等人发明的 ResNet(残差网络)主流架构,以解决深层网络中的信号衰减(信息在传递过程中「声音」越来越小,深层网络接收不到有效信息)与模型坍塌(无论输入什么不同的数据,层层处理后变得相似甚至趋同)。

DeepSeek 团队指出,虽然字节跳动的方案提升了网络复杂度,但在大模型训练中忽略了日益增长的显存成本,导致实际扩展性受限。就此,DeepSeek 的 mHC 方案通过引入特定的流形约束,让数据流仅在特定的几何轨迹(流形)上运行。这在保留超级连接优势的同时,成功解决了内存与成本瓶颈,实现了「几乎可忽略的计算开销」。论文数据显示,DeepSeek 研究团队在 30 亿、90 亿及 270 亿参数规模的模型上测试,实证结果表明 mHC 具备优于传统架构的扩展性,且能维持大规模训练的稳定性。

该论文由梁文锋本人账号上传至 arXiv。梁文锋此前仅亲自发布过 DeepSeek 最重要的技术论文(如 R1 和 V3 模型相关研究),且被列为本文的最后一位作者,这一举动证实了他仍深入参与核心研发,也被视为 DeepSeek 下一代核心模型技术路线确立的信号。目前市场预期 DeepSeek 可能延续 R1 的发布策略,在 2 月中旬的春节假期前发布新款大模型。


华硕通知渠道今起涨价

VideoCardz 报道,华硕于去年 12 月 30 日向合作伙伴发出《2026 年产品价格调整说明函》,宣布将于 2026 年 1 月 5 日起实施价格调整。

该函称,受全球供应链结构性波动影响,多项关键零组件正承受严峻的成本上升压力,特别是 DRAM 内存和 NAND。此变动源于「全球原厂产能配置调整」「先进製程投资成本增加」,以及「AI 算力需求导致的产业结构性缺口」。

尽管华硕未列出具体受影响的型号,但明确表示将「针对部分产品组合策略性价格调整」。由于此次调价生效日期恰逢 2026 年 CES 开幕前夕,业界分析认为,华硕即将在 CES 上发布的新一代硬件产品,特别是 AI PC 及电竞设备,将首当其冲,并可能确立新的市场价格基准。

华硕强调,此次调价是公司在「长期吸收与因应成本压力后所做出的必要决定」,目的是为了「确保稳定供应、维持品质与服务水准」。针对后续影响,华硕业务代表将主动联系合作伙伴,提供详细说明并协助规划最适切的因应方案或配置建议。

华硕公关部门证实了该文件的真实性,但向媒体澄清,这是一份仅供渠道合作伙伴参考的内部商业沟通文件,并非面向公众发布的正式新闻稿。


新一批作品进入公有领域

2026 年 1 月 1 日,全球迎来一年一度的版权释放重要时刻。弗洛伊德、爱因斯坦、汤因比等名家名作分别在美国、欧洲或中国等司法辖区进入公有领域。

在美国,随着 1930 年作品保护期的终结,福克纳的《我弥留之际》、弗洛伊德的《文明及其不满》等著作,《西线无战事》等电影进入公有领域。蒙德里安与保罗·克利的画作、初代「贝蒂娃娃」、迪士尼最早期的普鲁托(当时名为 Rover)形象均不再受版权限制,基于这些早期素材二次创作成为可能。

在实行「作者有生之年加 70 年」版权期限的司法辖区,如欧盟、英国、俄罗斯,1955 年逝世作者作品保护期届满。这意味着物理学家爱因斯坦、《人性的弱点》作者卡耐基、诺贝尔文学奖得主托马斯·曼的作品在这些地区将不再受版权限制。

在实行「作者有生之年加 50 年」版权期限的司法辖区,如中国及亚洲和非洲大部分地方,1975 年逝世的作者作品保护期届满。这包括蒋介石、历史学家阿诺德·汤因比、苏联作曲家肖斯塔科维奇、政治哲学家汉娜·阿伦特等。


比亚迪超越特斯拉成为 2025 年全球电动车销量榜首

据《纽约时报》报道,2025 年,特斯拉失去全球最大电动汽车制造商的位置,首次被比亚迪超越。根据 12 月 31 日公布的数据,特斯拉全年交付量同比下降 9% 至 164 万辆,其中第四季度销量受政策冲击暴跌 16%。相比之下,比亚迪全年纯电车型销量增长 28%,达到 226 万辆,并凭借价格优势在亚洲、欧洲和拉美市场实现了显著扩张。

特斯拉销量的下滑主要受到美国政策急剧转向的冲击。尽管马斯克在 2024 年大选中大力支持特朗普,但共和党重新执掌白宫和国会后,迅速废除了最高 7500 美元的联邦电动车税收抵免,并着手削弱清洁空气法规。特斯拉作为占据美国电动车市场 45% 份额的绝对主力,成为此项政策变动的最大受害者,导致其第四季度交付量从上年同期的 49.6 万辆锐减至 41.8 万辆。

除外部环境恶化外,特斯拉自身的产品迭代滞后也是关键因素。其主力车型 Model Y 自 2020 年上市以来未见重大更新,新推出的 Cybertruck 销量惨淡。在欧洲市场,特斯拉的销量已被大众汽车反超。此外,马斯克将公司重心转向自动驾驶出租车(Robotaxi)和人形机器人,但尚未产生显著营收,且在自动驾驶落地进程上已落后于谷歌旗下的 Waymo。

行业分析师预测,2026 年美国电动车市场将持续低迷,需等到 2027 年更多低于 3 万美元的廉价车型上市后才有望回暖。尽管汽车销售疲软,但华尔街因看好其在自动驾驶领域的长期潜力,特斯拉股价目前仍维持在历史高位。与此同时,比亚迪虽然因高关税壁垒无法进入美国市场,但已确立了其在全球其他市场的领跑地位。


看看就行的小道消息

  • 近日,多名 Reddit 用户抱怨多邻国通过实时活动功能显示订阅广告,而这是 App Store 审核规则禁止的行为,可能被下架处理。多邻国后来似乎停止了广告展示。
  • 据 StackOverflow 官方数据,该站在 2025 年 12 月仅新增 3862 个问题,已低于初创不久时 2008 年 8 月的水平。
  • 据路透社查阅的 Meta 内部文件显示,面对全球监管机构打击社交媒体诈骗广告的压力,Meta 制定了一套名为「全球剧本」(Global Playbook)的应对策略。文件揭露,Meta 并没有全面验证广告主身份、根除诈骗,而是通过操纵搜索结果,使监管机构难以发现违规广告,以此通过合规审查。例如在日本,Meta 团队发现监管机构会通过特定关键词(如名人姓名)在公开的广告资料库中搜索诈骗广告,于是在监管审查前针对性地清洗相关搜索结果,制造出诈骗广告已大幅减少的假象。此外,当一地加强监管时,算法会自动将诈骗广告流量导向其他监管较松的地区。此前,Meta 曾因 Facebook 和 Instagram 上泛滥的投资诈骗和 AI 合成名人代言虚假广告而面临日本、新加坡等国政府的严厉质询。
  • 1 月 3 日晚,雷军在新年直播中披露,2025 年小米汽车交付量目标原本定的是 30 万辆,中间提高到 35 万,最后实现超过 41 万辆,并宣布 2026 年小米汽车交付目标为 55 万辆。当晚,雷军直播四个小时,随工程师团队完整拆解了一台 YU7。拆车结束后,雷军集中回应了近期围绕小米汽车的多项舆情与争议。关于「1300公里只充一次电」「200公里瞬间刹停」等营销表述质疑,雷军表示,相关说法源自驾驶体验展示视频,主要用于展示 SU7 的续航、刹车性能,有完整视频作为佐证,但在传播过程中被「断章取义」。雷军还承认「小字营销」是行业陋习,接受批评,已于去年 11 月要求各业务团队尽量使用大字直观展示。


少数派的近期动态

  • 年末「夯」一下!少数派 2025 年度盘点正式上线
  • 少数派会员年终福利来袭,引荐比例限时上调至 15%,邀请好友享 85 折入会优惠。参与活动
  • 好玩又实用,还有迪士尼授权配件可选,少数派「扭扭宝」充电宝火爆开售。来一个试试
  • GAMEBABY for iPhone 17 Pro & 17 Pro Max 系列现已上市。进一步了解
  • 《蓝皮书》系列新版上架,一起探索全新 iOS 和 macOS 的精彩。试读并选购


你可能错过的好文章


    最优传输问题

    考虑这么一个问题,假设佬友 A、B 分别有 100 刀、400 刀 api,佬友 C、D 分别有 200 刀、300 刀的 api 需求,那么怎么生成一个合理的分配方案

    我们可以很容易列出这么一个表格

    供给 \ 需求C(200)D(300)
    A(100)
    B(400)

    由于供给需求平衡,分配方案是非常多的,比如使用对角线定 1 法,立马就能像填字游戏一样给出一个结果:

    • 对角线定 1:
      供给 \ 需求C(200)D(300)
      A(100)100
      B(400)
    • 填充空格:
      供给 \ 需求C(200)D(300)
      A(100)1000
      B(400)100300

    非常好,我们已经得到一个可行方案了。把上述问题归纳抽象成数学语言,就是一个最优传输 ( Optimal Transport) 问题:

    在给定源分布、目标分布和运输代价矩阵的情况下,求一个非负矩阵,使得它的行和、列和分别等于给定分布,并且总运输成本最小。

    已知供给 μ、需求 ν 、以及每条路的单位成本 Cij
    目标运输矩阵 Π:

    • Πij0
    • 行和 = 供给: Π1=μ
    • 列和 = 需求: Π1=ν

    目标:总成本最小

    minΠU(μ,ν)C,Π=i,jCijΠij
    数学语言与引入问题的对应
    源分布供给端(100,400)
    目标分布需求端(200,300)
    传输代价未显式体现,默认都是单位代价
    非负矩阵传输非负性,不能从需求端分配资源给供给端

    听起来这个问题也不难嘛,填填空也就把方案做出来了,那么这个分配方式有什么问题吗?

    • 规模复杂性:如果供给方和需求方数量增加,问题也将复杂起来,由于要求传输非负性,定 1 法可能导致其他位置计算出现负数而需要进行调整
    • 成本敏感性:给定供给方和需求方之间的传输代价,问题复杂度也立马上升
    • 解的稀疏性:定 1 法容易产生大量 0 元素,在应对分布改变和成本改变时不稳定,比如某个供给方断供,其对应的需求方将立刻卡脖子

    为了不把鸡蛋放在一个篮子里(解的稀疏性)和解决其他问题,我们需要把分配方式软化,比如这样的分配方式就被认为比之前的方案更加 “软”:

    供给 \ 需求C(200)D(300)
    A(100)5050
    B(400)150250

    那么,怎么数学化地计算这种软化方案呢,数学家引入了一种叫熵正则项,用来惩罚传输方案里的极端项,就是让你不要把鸡蛋放在一个篮子里:就算你供给量少,也要拆开卖,万一买家跑了你也不至于全亏损;就算你需求少,也分开买,卖家不稳定了你还有缓冲。于是熵正则最优传输的目标变成:

    minΠU(μ,ν)C,ΠεH(Π)

    其中,

    H(Π)=i,jΠijlogΠij

    ε 代表了分散程度,该值如果取 0,则问题等价于原始的最优传输问题,该值增大,传输方案越软。
    增加熵正则项后,目标函数就从线性变成了强凸性的。在给定 ε 的情况下,熵正则最优传输问题的最优解是唯一的,且具有一个非常优雅的结构:

    Π=diag(u)Kdiag(v),Kij=exp(Cij/ε)

    计算出缩放系数 uv 就能给出最优解了,这里有个简单的 Sinkhorn 算法,通过交替地更新这两个缩放系数,让边际约束满足:

    uμ/(Kv),vν/(Ku)

    由于该问题变成强凸性,所以上述过程收敛很快(线性收敛),而且迭代过程只涉及逐行逐列的元素归一化(可规模化并行计算),是一个非常实用的方案。

    以前述引入问题为例

    ε=1, 计算 K 矩阵:

    K=[1e1e11]=[]

    第 1 轮迭代后的方案 X(1)

    X(1)[]

    此时行和误差约为 6.1891:

    • 行和 (,)
    • 列和 =(200,300)

    第 6 轮迭代后的方案 X(6)

    X(6)[]

    ・行和 (100.00034024, 399.99965976) (已经非常接近供给)
    ・列和 = (200, 300)


    双随机矩阵

    解决了熵正则最优问题,我们再来看看这个传输矩阵,如果我们把供给、需求归一化,那么原先的传输矩阵就变成了一个 “分配比例” 矩阵,每个格子不再代表具体分配的额度,而是分配比例。失去量纲让它变得更加通用了,从一个具体的 “分配方案” 变成了一个 “通用的分配规则”。

    如果进一步把供给端和需求端设置为均匀分布(都是 1),那么这种 “分配比例” 矩阵会具备如下特点:

    • 所有元素非负
    • 各行元素之和为 1
    • 各列元素之和为 1

    具备这些特点的矩阵,取名叫 “双随机矩阵”,因为它每行每列都像是一个随机概率分布。可以把双随机矩阵看成一个软路由表,它规定了供给和需求之间的分配比例,又可以通过软化系数 ε 避免极端分配情况(即不把鸡蛋放在一个篮子里)和快速调整(可学习性)。

    容易观察到,它具备乘法封闭性:

    任意两个 nxn 双随机矩阵相乘,结果仍然是双随机矩阵。

    相当于可以累积这种路由表,而保持供给、需求的分配方案不崩溃 —— 你叠多少层 “软分配”,整体仍然是一个合法的软分配,不会出现 “某个需求方越分越多、某个供给方越分越空” 的诡异情况。如果需要对一个分布进行信息重分配,那双随机矩阵是一个非常好的选择。

    诶,既需要避免累积导致模式崩溃,又期望促进不同分布之间进行信息分配,还有良好的可学习性性质,那不正是神经网络中常见的需求吗?这也正是 DeepSeek mHC 引入双随机矩阵(论文里的故事叫 “流形约束”)的重要原因。啊这鸡汤真是太好喝了,哦不是, 这矩阵真是太美妙了。

    • 字节的 HC 尝试引入 Mapping 来丰富跨层连接多样性,mHC 则通过双随机矩阵约束改良了 HC 的训练不稳定性(谱范数为 1,累乘封闭性)

    (除引入双随机矩阵外,mHC 也做了很多扎实的优化工作,这里就不再赘述和解读了,仅从最优传输角度提供一种浅浅解读)


    📌 转载信息
    原作者:
    zhong_little
    转载时间:
    2026/1/3 14:54:58



    📌 转载信息
    原作者:
    BunnHack
    转载时间:
    2026/1/1 16:15:20