标签 Qwen2.5 下的文章

大模型剪枝新范式：先浓缩，再剪枝——DenoiseRotator技术解读

作者: 纯情
时间: 2026-01-24
分类: 开源
评论

论文原文：https://arxiv.org/abs/2505.23049
项目地址：https://github.com/Axel-gu/DenoiseRotator
视频解读（B 站）：https://www.bilibili.com/video/BV1XDUYBTEjr

在大语言模型（LLM）快速发展的今天，庞大的参数规模带来高昂的推理存储成本和回复时延，已成为实际应用中的关键挑战。特别是在面向人机对话的应用场景，模型推理效率直接影响到对话体验。在推理优化方法中，参数剪枝作为一项经典的模型压缩技术，旨在通过剔除模型中“不重要”的权重来实现参数量的显著降低与计算效率的提升。然而，传统的“剪枝-微调”范式或直接的后训练剪枝方法，往往带来明显的模型性能损失，特别是在硬件友好的半结构化稀疏（如 2:4 稀疏）场景下，该问题尤为突出。这使得应用中的模型效果和推理效率，呈现一个“鱼和熊掌”的两难局面。

面对这项挑战，美团 LongCat Interaction 团队联合上海交通大学听觉认知与计算声学实验室，以及香港科技大学的研究者，共同完成了大模型剪枝方法的创新研究，提出了名为 DenoiseRotator 的新技术。通过首先对参数矩阵进行变换，“浓缩”对结果有影响力的参数，再对重要性最低的参数进行剪枝，实现了大模型剪枝的新范式。DenoiseRotator 能够与现有的剪枝算法快速集成，有效缓解模型压缩带来的性能损失。这一研究成果已在 2025 年的 NeurIPS 会议上发表。

01 动机：传统剪枝的局限性——密集训练与稀疏推理的隐式冲突

传统后训练剪枝的一般流程可概括为：对一个已训练好的 稠密模型，基于某种启发式准则（如权重幅值或 Wanda、SparseGPT 等算法）为每个参数赋予“重要性分数”，随后根据预设的稀疏度阈值，移除分数较低的一部分权重。尽管流程清晰，该方法存在一个本质局限：其整个剪枝过程建立在 固定不变的参数空间 上，本质上是一种 被动的筛选机制。这进一步凸显了以下深层冲突：

密集训练 的本质是隐式地激励模型 充分利用每一个参数。每个参数都承载了一定的知识或推理能力，并通过参数间的协同工作共同支撑模型的整体表达能力。
稀疏推理 则要求模型仅基于 被保留的部分参数 完成推理任务，并保持高性能。

这种训练目标与推理机制之间的内在不一致，意味着 直接裁剪必然会导致部分知识或推理能力的丢失，从而破坏原有参数间协同工作的平衡，引发性能下降。

02 技术方案：DenoiseRotator——从“被动筛选”到“主动优化”的范式转变

针对上述挑战，我们重新思考剪枝范式：能否在剪枝前先对模型进行 稀疏性引导的优化，使其 自身结构更易于被剪枝？基于此，我们提出了“重要性浓缩”的全新思路，并开发了 DenoiseRotator 框架予以实现。

2.1 核心思想：重要性浓缩

我们的核心目标是在执行剪枝之前，将原本分散在众多参数上的重要性，尽可能地 集中到一个较小的参数子集中。这样，在后续剪枝过程中，被移除权重所包含的关键信息将大幅减少，从而显著增强剪枝的鲁棒性。
为量化并优化“浓缩”效果，我们引入了 信息熵 作为衡量指标。通过将参数重要性分数归一化为概率分布，其熵值直接反映了重要性的集中程度：熵越低，表明重要性越集中于少数参数。因此，我们的优化目标明确为 最小化归一化重要性分布的熵。

2.2 实现机制：可学习的正交变换

DenoiseRotator 通过向 Transformer 层中引入 可学习的正交矩阵，实现重要性分布的熵减与浓缩。

如上图所示，我们在 Transformer 层的特定位置（例如 Attention 模块的 Value 和 Output 投影层前后）插入正交矩阵。这些矩阵对原始权重进行“旋转”变换，在 保持模型输出完全不变（得益于正交变换的计算不变性）的前提下，重新分配参数的重要性。

2.3 关键优势

训练与剪枝解耦：DenoiseRotator 采用 模块化设计，正交矩阵的优化与具体剪枝方法完全独立。我们首先利用校准数据，以最小化重要性熵为目标训练这些正交矩阵；训练完成后，将其合并回原始权重。此时，我们获得了一个“易于剪枝”的优化版稠密模型，可 无缝对接 任何现有剪枝工具（如 SparseGPT、Wanda）进行后续操作。

优化过程稳定：正交变换具有保范数特性，确保在重新分布重要性时，既不会人为引入也不会丢失总重要性量，从而保证了优化过程的稳定性，不影响原始模型性能。

下图直观展示了 DenoiseRotator 的有效性。以 LLaMA-3-8B 模型首层输出投影层为例，经我们的方法变换后，参数重要性分布从分散趋于高度集中，为后续剪枝奠定了坚实基础。

03 实验验证

在前文中，我们介绍了 DenoiseRotator 的核心思想——通过重要性浓缩提升剪枝鲁棒性。那么，这一方法在实际效果上表现如何？我们针对多个主流开源大模型进行了全面评测，涵盖语言建模和零样本推理任务，并与现有剪枝方法进行了对比。

3.1 实验设置：覆盖多模型、多任务、多剪枝方法

为全面评估 DenoiseRotator 的有效性，我们在多样化的实验设置下进行了系统性验证。实验覆盖了从 Mistral-7B、LLaMA3（8B/70B）到 Qwen2.5（7B/14B/32B/72B）等多个主流开源大模型，评测任务包括语言建模（使用 WikiText-2 验证集的困惑度 PPL 作为指标）和零样本推理（在 PIQA、WinoGrande、HellaSwag、ARC-e 和 ARC-c 五个基准任务上评估平均准确率）。在基线方法方面，我们将 DenoiseRotator 与三类剪枝方法结合：经典方法 Magnitude，以及先进方法 Wanda 和 SparseGPT，并在非结构化（50%稀疏）和半结构化（2:4 稀疏）两种稀疏模式下进行对比评测。

3.2 主要结果：语言建模与零样本推理全面提升

下表展示了不同模型在剪枝前后的困惑度（衡量语言建模能力）与零样本任务表现。DenoiseRotator 在所有模型和稀疏模式下均显著降低剪枝造成的性能下降，尤其在 2:4 稀疏下提升更为明显。

3.3 深入分析：熵减如何驱动剪枝鲁棒性？

我们通过消融实验验证了 重要性熵与剪枝效果的直接关联。以 LLaMA3-8B 为例，记录不同训练步数下的熵值变化与模型性能：

熵减少 13%（步数 100）即可带来零样本任务准确率提升 3.66%（66.88%➡70.54%），困惑度降低 19.5%（9.567➡7.701）。进一步优化可继续降低困惑度，验证了 重要性集中度与剪枝鲁棒性的正相关。

3.4 部署效率：轻量开销，显著收益

参数增量：每层新增一个（hidden_size, hidden_size）正交矩阵。以 LLaMA3-8B 为例，总参数量增加约 0.5B（占原模型 6.7%）。通过分块对角矩阵（见论文附录）可进一步降低开销，适合资源受限场景。
推理耗时：单层 Transformer 的 2:4 稀疏计算耗时 4.37ms，加入正交矩阵后仅增加 0.32ms（1.24× 加速比 vs 稠密层）。

04 总结

DenoiseRotator 提出了一种创新的剪枝视角：将模型准备（重要性浓缩）与模型压缩（剪枝）两个阶段解耦。通过可学习的正交变换，主动实现参数重要性的浓缩，从而显著提升后续剪枝的鲁棒性。该方法具备 即插即用 的特性，为大规模语言模型的高效、高性能压缩提供了新的技术路径。

项目地址：https://github.com/Axel-gu/DenoiseRotator

希望跟大家一起学习交流。如果大家对这项工作感兴趣，欢迎在 GitHub 上 Star、Fork 并参与讨论！

AI赋能智汇高校 - 从零掌握大模型本地部署与微调全流程

作者: 纯情
时间: 2026-01-20
分类: 资讯
评论

前言：一场技术与激情的双向奔赴

当 2025 年秋季的第一片梧桐叶飘落在交大校园时，一场关于人工智能未来的探索正在悄然展开。这不仅是技术的传授，更是认知的革新——从被动使用AI工具到主动创造智能体，从理论认知到工程实践。上海交通大学“AI赋能智汇高校实训营”正是这样一座桥梁，连接着学术前沿与产业实践，也连接着青年学子与AI的未来。

实训营概况速览

时间: 2025年秋季学期
地点: 上海交通大学（闵行校区）
参与规模: 超过300名交大学子
核心目标: 从零掌握大模型本地部署与微调全流程
特色亮点: 国内首个全面基于NPU生态的大模型实训课程

能力提升三维度评估

同学们的“高光时刻”数据

参与度爆表
- 课程满意度评分：4.8/5.0
- 课后代码提交率：92%
- 平均每人完成3.2个微调实验
- 累计GPU/NPU计算时长：超过5,000小时
成果展示墙
- 37个创意微调项目诞生
- 12个项目进入 AI 社区“优秀案例库”
- 最受欢迎应用方向：科研助手、创意写作、代码生成

技术实践全记录：从环境搭建到模型部署

环境配置篇：跨越“第一道门槛”

挑战场景还原：

“老师，torch_npu导入报错了！”
“镜像选择哪一个是正确的？”
——这是开课时最频繁的问题

我们的解决方案：

# 标准化环境配置流程（最终优化版）
# 1. 镜像选择黄金法则
PyTorch (openeuler-python3.10-pytorch2.1.0-openmind0.9.0) 
# 理由：Python3.10兼容性最佳，torch2.1.0与NPU适配最稳定

# 2. 依赖安装“避坑指南”
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
pip install torch==2.5.1 torch_npu numpy==1.26.4 transformers==4.52.4
# 关键发现：transformers 4.52.4对中文多模态支持最优

# 3. 环境校验“三连击”
python -c "import torch; import torch_npu; import vllm_ascend"
# 绿色√出现时，教室里响起的掌声至今难忘

教学反思：

提前准备的“常见错误对照表”将问题解决时间缩短70%
“三人小组互助制”让基础较弱的同学也能跟上进度
最受欢迎的教学创新：环境配置“闯关游戏”式教程

模型部署实战：见证“Hello World”时刻

技术路线演进：

Week 1: 基础文本模型 (Qwen2.5-3B)
Week 2: 视觉语言模型 (Qwen2.5-VL-3B)
Week 3: 国产多模态 (InternVL3.5-1B)

代码实践精华：

# 从“复杂难懂”到“一键部署”的蜕变

# 初版（学生普遍反映配置复杂）
# vllm serve /path/to/model --port 8000 --max-model-len 16384 ...

# 优化版（封装为simple_deploy.py）
from deployment_kit import ModelDeployer
deployer = ModelDeployer(model_name="Qwen2.5-VL-3B")
deployer.launch(port=8000, api_type="openai")

# 效果：部署时间从平均30分钟缩短至5分钟

互动环节亮点：

“模型对话接龙”：每组微调一个特色模型，串联成创意故事
“Bug排查大赛”：最快解决部署问题的组获得算力奖励
最惊艳的学生作品：《红楼梦》风格的多模态对话模型

微调实操：让模型拥有“交大基因”

LoRA微调实战案例：

# 交大校史知识注入配置（student_project_01）
model_name: Qwen2.5-7B
dataset: sjtu_history_qa.json  # 学生自建的校史问答对
lora_config:
  r: 16
  alpha: 32
  target_modules: ["q_proj", "v_proj"]
training_args:
  num_epochs: 3
  per_device_train_batch_size: 4
  learning_rate: 2e-4

训练成果展示：

微调前：
问：上海交通大学何时成立？
答：交通大学是一所历史悠久的高校...

微调后：
问：上海交通大学何时成立？
答：上海交通大学前身为1896年创立的南洋公学，1921年定名为交通大学...
问：钱学森图书馆在哪里？
答：位于上海交通大学闵行校区，是为纪念校友钱学森而建...

技术突破点：

显存优化：QLoRA+梯度检查点，7B模型在24G NPU上可训练
数据质量：学生创新的“三阶段数据清洗法”
评估体系：自动化的ROUGE-L+BERTScore双指标评估

社区生态共建：AI 平台深度合作

AI 特色功能实践

功能模块	使用频次	学生评价亮点
模型库一键下载	287次	“比HuggingFace快5倍”
在线Notebook	156次	“随时随地继续实验”
模型市场分享	42次	“看到自己的模型被别人使用很有成就感”

优秀学生项目孵化

项目1：SJTU-CodePal

团队：计算机系3名学生
技术：基于DeepSeek-Coder微调
特色：理解交大课程代码规范（如CS1101实验要求）
成果：被《程序设计基础》课程组采纳为辅助工具

项目2：医工交叉文献助手

团队：医学院+电院跨学科团队
技术：Qwen2.5-VL微调
特色：解析医学影像+文献摘要
成果：在生物医学工程实验室实际部署

总结

当钱学森图书馆的灯光照亮同学们调试代码的身影，当东下院的键盘声敲响AI时代的序曲，我们深切感受到：教育最美的模样，就是点燃学生眼中的光。那些为环境配置而紧锁的眉头，那些看到模型成功响应时绽放的笑容，那些跨学科碰撞出的思想火花——这些瞬间汇聚成了2025年秋天最温暖的记忆。

感谢每一位参与其中的交大学子，你们的热情与创造力是这趟旅程最宝贵的风景。感谢所有支持单位提供的资源保障。人工智能的未来属于青年，而你们，正站在创造未来的起点上。

路虽远，行则将至；事虽难，做则必成。