标签 NPU 下的文章

开发者朋友们大家好:

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、Qwen3-ASR 正式开源:包含三款模型,支持 52 种语言与方言

Qwen 团队正式开源 Qwen3-ASR 系列,包括两个强大且全面的语音识别模型 Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B,以及一个创新的语音强制对齐模型 Qwen3-ForcedAligner-0.6B。 Qwen3-ASR 系列的语音识别模型支持 52 个语种与方言的语种识别与语音识别。

依托预训练 AuT 语音编码器与 Qwen3-Omni 基座模型的多模态能力,Qwen3-ASR 系列实现了精准且稳定的识别效果。

其中,1.7B 模型在中文、英文及歌唱识别等场景达到 SOTA,具备复杂文本识别能力及强噪声下的稳定性;0.6B 模型兼顾性能与效率,128 并发下吞吐量达 2000 倍(10 秒处理 5 小时音频)。

两款模型均单模型支持 30 个语种及 22 个中文方言,支持流式/非流式一体化推理,最长可处理 20 分钟音频。

Qwen3-ForcedAligner-0.6B 支持 11 种语言任意位置对齐,精度超越 WhisperX 等主流模型,单并发推理 RTF 仅 0.0089。目前,全套模型权重、结构及支持 vLLM 的推理框架已全部开源。

在模型效果评估方面,Qwen3-ASR 系列在中文/英文、多语种、中文方言、歌声识别及复杂场景下均表现优异:

  • 英文场景:不仅在公开基准上达到最优,在覆盖 16 个国家口音的内部测试集中,整体表现优于 GPT-4o Transcribe、Gemini 系列、Doubao ASR 系列及 Whisper-large-v3。
  • 多语种场景:最高支持 30 种语言,在 20 个主流语种上,1.7B 模型全面超越现有开源模型,取得最佳平均 WER。
  • 中文与方言场景:在普通话、粤语及 22 种地区方言上整体领先,尤其在方言识别上,相比 Doubao-ASR 平均错误率降低了 20%(15.94 vs 19.85)。
  • 复杂场景:面对老人/儿童语音、极低信噪比、鬼畜重复等挑战,仍能保持极低的字/词错误率;歌唱识别支持带 BGM 的整首歌中/英文转写。

此外,该系列在推理效率与对齐能力上也实现了突破。Qwen3-ASR-0.6B 模型在性能与效率间取得了平衡,无论离线或在线高并发场景,均能保持极低 RTF 与极高吞吐。配套推出的 Qwen3-ForcedAligner-0.6B 则支持 11 种语言的任意位置灵活对齐,其时间戳预测精度整体超过 WhisperX、NeMo-ForcedAligner 等主流方案。

目前,Qwen3-ASR 系列模型已在 Github、HuggingFace 和 ModelScope 上线,相关论文及阿里云百炼 API 也已同步发布。

Github:
https://github.com/QwenLM/Qwen3-ASR

HuggingFace:
https://huggingface.co/collections/Qwen/qwen3-asr

识别结果:

蹦出来之后,左手、右手接一个慢动作,右边再直接拉到这上面之后,直接拉到这个轮胎上,上边再接过去之后,然后上边再直接拉到这个位置了之后,右边再直接这个位置接倒过去的之后,再倒一下,然后右边再直接抓住这个上边了之后,直接从这边上边过去了之后,直接抓住这个树杈,然后这个位置直接倒到这个树杈。

识别结果:

拨号,请再说一次,请说出您要拨打的号码。幺三五八幺八八七五七。一三五八二八八八幺八八。纠正纠正。九六九。纠正纠正,不是九六。

识别结果:

Okay, Charles. It looks like we have a problem with the radio. What happened? Yeah, someone spilled water on their machine. I uh, yeah. Charles, can you hear us? Mamma mia.

(@千问 Qwen)

2、Google 推出 LiteRT 推断框架:深度集成 NPU,实现跨平台统一高性能部署

Google 正式推出继任 TensorFlow Lite 的端侧 AI 推断框架「LiteRT」。该框架完成了从经典机器学习向生成式 AI(GenAI)的架构演进,通过深度集成 NPU 加速和全新编排层,实现了跨 Android、iOS、Web 及桌面端的统一高性能部署。

  • 高性能多后端加速:采用下一代 GPU 引擎 「ML Drift」,支持 OpenCL、Metal 和 WebGPU。GPU 性能较 TFLite 提升 1.4 倍,并引入异步执行与零拷贝缓冲(Zero-copy buffer)技术,端到端延迟缩减达 2 倍。
  • 深度 NPU 集成方案:通过抽象层屏蔽不同 SoC 的 SDK 差异,首批支持「MediaTek」与「Qualcomm」NPU。实测 NPU 推断速度较 CPU 提升 100 倍,并提供 AOT(预编译)与 JIT(即时编译)两种部署模式以平衡启动速度与包体积。
  • GenAI 专用技术栈:新增「LiteRT-LM」编排层与「LiteRT Torch Generative API」。在 Samsung Galaxy S25 Ultra 上的基准测试显示,Gemma 3 1B 的 GPU Prefill 速度较 llama.cpp 提升 19 倍,Decode 速度提升 7 倍。
  • 多框架无缝转换:支持 PyTorch、JAX 和 TensorFlow 模型一键转换为 。tflite 格式。其中 LiteRT Torch 库允许 PyTorch 基于 Transformer 的架构直接映射至优化后的底层算子,无需复杂的中间件平移。
  • 全新 C++ API:引入 CompiledModel API 取代传统的 Interpreter 模式,旨在优化多线程环境下的内存复用与硬件调度效率,同时保持与存量 。tflite 模型的向后兼容。

LiteRT 现已进入生产就绪状态,全面支持主流移动端与桌面端操作系统,核心代码已在 GitHub 开源。

GitHub:
https://github.com/google-ai-edge/LiteRT/issues

( @Google for Developers Blog)

3、曝阿里字节春节前后齐发旗舰模型

就在刚刚,据 The Information 援引知情人士消息称,字节和阿里均计划在二月中旬的春节假期前后发布新一代旗舰 AI 模型。

消息人士称,字节将于下月推出三款 AI 产品:新一代大语言模型 Doubao 2.0、图像生成模型 Seedream 5.0 以及视频生成模型 SeedDance 2.0。

阿里方面同样蓄势待发。据直接了解其计划的人士透露,阿里预计将在春节期间推出旗舰模型 Qwen 3.5,该模型针对复杂推理任务进行了专门优化,在数学和编码能力方面表现突出。

本月中旬,阿里官宣对千问 APP 进行重大升级,将其与电商平台、在线旅游服务以及蚂蚁集团的支付系统深度整合,力求打造一个能够协助用户完成订餐、预订旅行等实际任务的全能 AI 助手。

而据内部人士透露,阿里的目标是在 2026 年上半年将所有生态服务整合到千问 APP 中。

此外,报道还提到,阿里和字节都在进行更长远的布局,正在开发能够无缝处理文本、图像、音频、视频和代码的全能型 AI 模型。

( @APPSO)

4、数字人 Tavus 发布 tavus-skills:支持 npx 一键集成实时视频交互组件

数字人 Tavus 推出开发者工具集 tavus-skills,旨在通过标准化的技能模块供智能体调用,快速构建视频 AI 代理。该工具集集成了数字孪生训练、视频流生成及实时对话交互(CVI)能力,支持开发者通过 CLI 工具完成环境配置。

  • npx 模块化分发体系:支持通过 npx skills add Tavus-Engineering/tavus-skills 实现一键集成。开发者可按需拆分安装 tavus-replica(数字孪生管理)、tavus-video-gen(脚本化视频生成)等 8 个独立模块。
  • CVI 专用模型栈集成:底层原生支持 Phoenix-3 视频生成模型、Raven 视觉/音频感知模型以及 Sparrow 实时对话控制引擎,针对实时交互场景优化了响应延迟。
  • WebRTC 实时交互控制:提供 tavus-cvi-interactions 模块,支持在视频流传输中执行实时文本回显(Echo)、指令打断(Interrupt)以及动态上下文注入。
  • 前端工程化支持:配套发布 @tavus/cvi-ui React 组件库与 React Hooks,深度适配 Vite 与 Next.js 框架,简化了实时视频交互界面的 UI 开发。
  • 持久化 RAG 与记忆模块:通过 tavus-cvi-knowledge 模块支持文档上传与知识库构建,允许视频智能体在多次对话间保持长短期记忆。

GitHub:
https://github.com/Tavus-Engineering/tavus-skills

( @GitHub)

02 有亮点的产品

1、AI-Native 用户研究平台 Trooly.AI 获王慧文、高瓴及蓝驰投资,完成近千万美元种子轮融资

据「暗涌 Waves」报道,成立仅 4 个月的 AI-Native 用户研究平台 Trooly.AI 已完成近千万美元的种子轮融资,投资方包括蓝驰创投、高瓴创投和王慧文。

与市面上常见的宏大叙事不同,Trooly.AI 专注于实现商业闭环。其核心产品面向有用户调研需求的 B 端客户,通过多模态 Voice Agent 技术,专注于 45 分钟左右的深度定性用户访谈。该平台宣称可在 10 分钟内协助用户完成研究计划的设置和发布,并在 1 天内交付完整访谈数据和专业洞察总结。

Trooly.AI 的两位创始人王震和孙皓此前均为 Zulution AI 早期成员。Zulution AI 由 TikTok 前身 Musical.ly 创始人阳陆育创办,曾推出 AIGC 角色扮演对话产品「Museland」。王震和孙皓共同经历过 AI 陪伴产品的拓荒期,但在 2025 年春,随着 AI 陪伴产品的用户交互出现边际效应递减,两人选择离开。

在探索了多种产品形态后,创始人团队意识到,在 AI 使内容生成成本趋近于零的时代,竞争壁垒在于「输入」的质量。最昂贵的资产是能为产品决策提供核心「信息增量」的真实用户故事。这一方向的确立也源于王震此前作为甲方的采购经历:传统调研耗资巨大且样本量少。团队发现,此前积累的对话技术天然适合深度定性访谈。

王震指出,相比人类访谈员带来的社交压力,受访者面对「博学且温和」的 AI 更容易敞开心扉。在 Trooly.AI 的实际案例中,AI 访谈员曾引导受访者分享隐秘且深刻的情绪。王震认为,在用户调研中,单纯的事实往往只是边角料,核心在于「用户故事」。只有通过故事感知用户与产品间的真实羁绊,才能弥合产品经理想象与现实之间的鸿沟。

针对产品效能与体验,Trooly.AI 强调以下特点:

  • 效率与成本:相比传统用研流程动辄耗时一两个月,Trooly.AI 的反馈速度提升约 30 倍,成本可压至传统方式的 20%。
  • 交互体验:产品界面摒弃拟人化形象,仅保留流动的声波与配色,以降低社交压力并营造宁静氛围。
  • 技术逻辑:底层注入大量专家知识,Agent 能根据用户背景、情绪信号动态调整追问深度,把控交互节奏。

关于团队建设,王震和孙皓表示经历了从迷信「超级个体」到回归团队协作的转变。他们认为,尽管 AI 能大幅提升执行效率,但无法替代人类在审美、发散性创新与结构化逻辑上的互补。因此,Trooly.AI 倾向于组建由各维度单项顶尖人才构成的精简团队。

面对 AI 时代极其残酷的竞争环境,Trooly.AI 团队认为绝大多数无法形成有效服务的「玩具」类应用终将消亡,因此致力于在利基市场中确立生存优势。

联合创始人孙皓指出,Trooly.AI 的目标不仅仅是做一个工具,而是构建一套让「构建者」能够直达用户真实声音的价值链。王震表示,Trooly.AI 的使命是让消费者洞察直达产品决策者。团队希望帮助全球的产品构建者弥合想象偏差,减少资源浪费,从而在 AI 时代的「生物大爆发」中挖掘真需求,找到自然选择下的最优解。

报道链接:
https://mp.weixin.qq.com/s/E4CJQnezo0J1PuATOQ1ZHg

官网:
https://www.trooly.ai

(@暗涌 Waves)

2、曝豆包手机二代机型二季度发布

据《智能涌现》报道,字节跳动已于去年底正式启动豆包手机助手正式版项目,第二代豆包手机预计将在今年第二季度中晚期发布。

报道称,字节跳动对二代机型的市场预期显著提高,依旧延续与中兴努比亚的合作模式,由中兴负责硬件、豆包负责 AI 能力。

供应链人士称,新机在体验与权限体系上将比初代测试版更成熟。与此同时,豆包团队已与部分互联网服务提供商(打车、外卖、订票等)达成常用权限接入协议,以提升系统级 AI Agent 的可用性。

在合作策略上,豆包正与不同类型的手机厂商展开差异化谈判。对于 OPPO、vivo、荣耀等自研生态完善的大厂,合作主要集中在模型调用、输入法等模块化技术层面;

而对于传音、魅族、联想等市占率较低的厂商,则采取更激进的方案,直接在系统中内置豆包 AI 入口,并以技术授权费与 AI 服务订阅费作为商业模式。

报道还指出,豆包手机正同步推进海外布局,已与包括 vivo 在内的厂商商讨在其海外机型中搭载「豆包手机助手」,但细节仍在谈判中。

同时,字节在硬件形态上持续扩张,正在开发带显示与不带显示的两款 AI 眼镜,前者预计将在今年 Q4 发布,后者将在今年 Q1 推出。此外,字节也在研发带摄像头的 AI 耳机,试图构建多终端协同的智能硬件生态。

( @APPSO)

3、法国政府宣布 2027 年前停用 Teams 和 Zoom,全面转向自研平台 Visio

法国政府周一宣布,计划用本国自主研发的视频会议平台取代微软 Teams 和 Zoom 等美国平台,并于 2027 年前在所有政府部门全面投入使用。

此举属于法国停止使用外国(特别是美国)软件供应商并重新掌握关键数字基础设施控制权战略的一环。 目前,法国与欧洲正处于关于数字主权的关键转折点。

法国公务员与国家改革部部长 David Amiel 表示,目标是结束对非欧洲解决方案的使用,依靠强大且自主的主权工具来保证公共电子通信的安全性和机密性。

政府宣布将转而使用法国制造的视频会议平台 Visio。该平台已进行了为期一年的测试,目前拥有约 4 万名用户。

Visio 是法国「数字套件」(Suite Numérique)计划的组成部分,该计划构建了一个主权工具数字生态系统,用于替代 Gmail 和 Slack 等美国在线服务。这些工具专供公务员使用,不面向公共或私营企业。

该平台还具备由人工智能驱动的会议转录和发言人识别功能,采用了法国初创公司 Pyannote 的技术。Visio 托管在法国公司 Outscale 的主权云基础设施上,该公司是法国软件巨头达索系统(Dassault Systèmes)的子公司。

法国政府表示,切换到 Visio 能够削减许可成本,每 10 万名用户每年可节省高达 100 万欧元。

在此之前,去年发生的美国云服务中断事件引发了欧洲对过度依赖美国信息技术基础设施的质疑。Amiel 指出,这一战略突显了在地缘政治紧张局势加剧以及对外国监控或服务中断的担忧中,法国对数字主权的承诺。

(@Euronews Next )

03 Real-Time AI Demo

1、当乐高遇上 AR 眼镜:开发者利用 Gemini 赋予积木实时声效与交互

开发者 Stijn Spanhove 与 Pavlo 在 Snap Spectacles 上构建了一个概念验证(POC),探索了继 LEGO Smart Bricks 之后,将乐高积木与 AR 眼镜相结合的交互形态。

在该演示中,系统利用 Gemini 模型视觉识别用户搭建的任何乐高作品,即时生成独一无二的音效,并支持用户直接用手进行抓取与互动。

例如,摇晃一架飞机模型时会听到引擎的轰鸣,挥舞一条龙时则伴随着咆哮声。对于每一个不同的拼搭作品,系统都能做出差异化的反应。

开发者提出了一种进一步融合的设想:将 LEGO Smart Play 积木内部的物理传感器、AR 技术以及环绕的生成式 AI 结合在一起。这种组合有望打造出一个既能从内部物理感应做出反应,又能通过眼镜在视觉上「活过来」的乐高城市。

正如开发者所言,这一切并非科幻构想,所有必要的技术组件目前均已存在,该项目展示了这些技术整合后的潜力。

( @stspanho\@X)

04 有态度的观点

1、OpenAI 董事长:Vibe Coding 不是终局,AI Agent 才是软件未来

据《商业内幕》报道,OpenAI 董事长 Bret Taylor 近日在《Big Technology Podcast》节目中表示,「Vibe Coding」将继续存在,但它并非软件行业的最终形态。

Taylor 在节目中指出,依赖自然语言快速生成应用的方式会逐渐变得寻常,而真正的变革来自 AI Agent 对软件结构的重塑。

Taylor 认为,当前围绕「如何更快用 Vibe Coding 做出一个应用」的讨论忽略了关键问题。

他表示,未来的软件形态将不再依赖传统的仪表盘、网页表单或独立应用,而是由可执行任务的 AI Agent 取代。

我们会把任务交给 Agent,它们会直接对数据库执行操作。关键在于,这些 Agent 是谁来做,你是买现成的,还是自己构建。


他同时指出,AI 虽然显著降低了软件开发成本,但并未解决维护难题,也未消除错误风险,因此大多数企业仍倾向于购买成熟方案,以将维护成本分摊给更多客户。

关于 Vibe Coding 的局限性,Google CEO Sundar Pichai 去年在《Google for Developers》播客中表示,这种方式让编码更轻松,也让非技术用户能创建简单应用。

不过,他也指出 AI 生成的代码仍可能冗长、结构不佳或存在错误。他在 Google 母公司 Alphabet 去年 4 月的财报电话会上透露,Google 超过 30% 的新代码由 AI 生成,高于 2024 年 10 月的 25%。

Anthropic 工程师 Boris Cherny 也在去年 12 月的《The Peterman Podcast》中指出,Vibe Coding 更适合原型或一次性代码,而不适用于企业核心系统。

有时候你需要可维护的代码,需要对每一行都非常谨慎。

( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考

前言:一场技术与激情的双向奔赴

当 2025 年秋季的第一片梧桐叶飘落在交大校园时,一场关于人工智能未来的探索正在悄然展开。这不仅是技术的传授,更是认知的革新——从被动使用AI工具到主动创造智能体,从理论认知到工程实践。上海交通大学“AI赋能智汇高校实训营”正是这样一座桥梁,连接着学术前沿与产业实践,也连接着青年学子与AI的未来。

实训营概况速览

  • 时间: 2025年秋季学期
  • 地点: 上海交通大学(闵行校区)
  • 参与规模: 超过300名交大学子
  • 核心目标: 从零掌握大模型本地部署与微调全流程
  • 特色亮点: 国内首个全面基于NPU生态的大模型实训课程

能力提升三维度评估

同学们的“高光时刻”数据

  1. 参与度爆表

    • 课程满意度评分:4.8/5.0
    • 课后代码提交率:92%
    • 平均每人完成3.2个微调实验
    • 累计GPU/NPU计算时长:超过5,000小时
  2. 成果展示墙

    • 37个创意微调项目诞生
    • 12个项目进入 AI 社区“优秀案例库”
    • 最受欢迎应用方向:科研助手、创意写作、代码生成

技术实践全记录:从环境搭建到模型部署

环境配置篇:跨越“第一道门槛”

挑战场景还原:

“老师,torch_npu导入报错了!”
“镜像选择哪一个是正确的?”
——这是开课时最频繁的问题

我们的解决方案:

# 标准化环境配置流程(最终优化版)
# 1. 镜像选择黄金法则
PyTorch (openeuler-python3.10-pytorch2.1.0-openmind0.9.0) 
# 理由:Python3.10兼容性最佳,torch2.1.0与NPU适配最稳定

# 2. 依赖安装“避坑指南”
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
pip install torch==2.5.1 torch_npu numpy==1.26.4 transformers==4.52.4
# 关键发现:transformers 4.52.4对中文多模态支持最优

# 3. 环境校验“三连击”
python -c "import torch; import torch_npu; import vllm_ascend"
# 绿色√出现时,教室里响起的掌声至今难忘

教学反思:

  • 提前准备的“常见错误对照表”将问题解决时间缩短70%
  • “三人小组互助制”让基础较弱的同学也能跟上进度
  • 最受欢迎的教学创新:环境配置“闯关游戏”式教程

模型部署实战:见证“Hello World”时刻

技术路线演进:

Week 1: 基础文本模型 (Qwen2.5-3B)
Week 2: 视觉语言模型 (Qwen2.5-VL-3B)
Week 3: 国产多模态 (InternVL3.5-1B)

代码实践精华:

# 从“复杂难懂”到“一键部署”的蜕变

# 初版(学生普遍反映配置复杂)
# vllm serve /path/to/model --port 8000 --max-model-len 16384 ...

# 优化版(封装为simple_deploy.py)
from deployment_kit import ModelDeployer
deployer = ModelDeployer(model_name="Qwen2.5-VL-3B")
deployer.launch(port=8000, api_type="openai")

# 效果:部署时间从平均30分钟缩短至5分钟

互动环节亮点:

  • “模型对话接龙”:每组微调一个特色模型,串联成创意故事
  • “Bug排查大赛”:最快解决部署问题的组获得算力奖励
  • 最惊艳的学生作品:《红楼梦》风格的多模态对话模型

微调实操:让模型拥有“交大基因”

LoRA微调实战案例:

# 交大校史知识注入配置(student_project_01)
model_name: Qwen2.5-7B
dataset: sjtu_history_qa.json  # 学生自建的校史问答对
lora_config:
  r: 16
  alpha: 32
  target_modules: ["q_proj", "v_proj"]
training_args:
  num_epochs: 3
  per_device_train_batch_size: 4
  learning_rate: 2e-4

训练成果展示:

微调前:
问:上海交通大学何时成立?
答:交通大学是一所历史悠久的高校...

微调后:
问:上海交通大学何时成立?
答:上海交通大学前身为1896年创立的南洋公学,1921年定名为交通大学...
问:钱学森图书馆在哪里?
答:位于上海交通大学闵行校区,是为纪念校友钱学森而建...

技术突破点:

  1. 显存优化:QLoRA+梯度检查点,7B模型在24G NPU上可训练
  2. 数据质量:学生创新的“三阶段数据清洗法”
  3. 评估体系:自动化的ROUGE-L+BERTScore双指标评估

社区生态共建:AI 平台深度合作

AI 特色功能实践

功能模块使用频次学生评价亮点
模型库一键下载287次“比HuggingFace快5倍”
在线Notebook156次“随时随地继续实验”
模型市场分享42次“看到自己的模型被别人使用很有成就感”

优秀学生项目孵化

项目1:SJTU-CodePal

  • 团队:计算机系3名学生
  • 技术:基于DeepSeek-Coder微调
  • 特色:理解交大课程代码规范(如CS1101实验要求)
  • 成果:被《程序设计基础》课程组采纳为辅助工具

项目2:医工交叉文献助手

  • 团队:医学院+电院跨学科团队
  • 技术:Qwen2.5-VL微调
  • 特色:解析医学影像+文献摘要
  • 成果:在生物医学工程实验室实际部署

总结

当钱学森图书馆的灯光照亮同学们调试代码的身影,当东下院的键盘声敲响AI时代的序曲,我们深切感受到:教育最美的模样,就是点燃学生眼中的光。那些为环境配置而紧锁的眉头,那些看到模型成功响应时绽放的笑容,那些跨学科碰撞出的思想火花——这些瞬间汇聚成了2025年秋天最温暖的记忆。

感谢每一位参与其中的交大学子,你们的热情与创造力是这趟旅程最宝贵的风景。感谢所有支持单位提供的资源保障。人工智能的未来属于青年,而你们,正站在创造未来的起点上。

路虽远,行则将至;事虽难,做则必成。


过去两年间,科技行业的领军者 —— 包括英特尔(Intel)、超威半导体(AMD)、高通(Qualcomm)等芯片巨头,以及软件架构巨头微软(Microsoft)—— 都在不遗余力地推广 “AI PC” 概念,试图推动一轮大规模硬件更新周期。然而,戴尔(Dell)近期坦诚承认:对绝大多数消费者而言,人工智能尚不足以成为购买新电脑的动力,甚至可能产生反效果。据《PC 玩家》(PCGamer)报道,戴尔已意识到,行业内铺天盖地的 “AI PC” 营销操作,与终端用户的实际需求之间存在巨大脱节。
戴尔方面表示,尽管公司仍致力于集成神经处理单元(Neural Processing Units, NPUs)并强化设备端推理能力,但市场实证表明,将 AI 定位为核心卖点 “未能有效刺激销量”。对普通消费者(而非科技爱好者)而言,AI 不仅无法激发购买热情,反而常引发他们对数据隐私安全实际用途模糊性的疑虑。戴尔的观察显示,理性消费者仍将决策锚定在传统实用指标上:价格、性能、电池续航与可靠性
与行业执着于 “每秒万亿次运算(TOPS)” 和专属 “Copilot 键” 不同,用户更看重设备的耐用性、运行流畅度和实际价值。这一现象凸显出当前消费级 AI 领域的关键短板:缺乏一款能打动用户的 “杀手级应用(Killer App)”,导致用户不愿为 “理论上的好处” 升级硬件。正因如此,在 2026 年国际消费电子展(CES 2026)上,戴尔发布的 XPS 系列笔记本调整了宣传方向,将重点转向便携性与耐用性。为提升该系列的高端定位,戴尔还采取了大胆的品牌策略:机身标识用 “XPS” 取代原有的 “Dell” logo,且宣传材料中刻意弱化了 AI 功能的提及。
尽管承认营销方向与用户需求存在偏差,戴尔仍强调,AI 仍是未来硬件更新周期的重要长期驱动力。行业共识认为,AI 必须从单纯的 “热门概念” 转变为无缝、可感知的实用工具,而实现这一转变的关键在于构建更完善的软件生态,而非简单堆砌硬件参数。戴尔的坦诚,实则揭开了行业内的 “公开秘密”:2024 至 2026 年间,尽管 NPU 的设备渗透率不断提升,但对普通办公和网页浏览等常规场景的体验提升微乎其微
当 Windows Copilot 等功能仍依赖云端连接,且设备端生成式 AI 能力表现平平之时,消费者自然会回归理性,对比屏幕画质、设备续航等实际参数。AI PC 并非虚幻概念,其发展路径类似早期 5G 手机 —— 必须先搭建好硬件基础,后续才能出现足以证明其价值的软件应用。除非人工智能能进化为类似 Wi-Fi 那样 “无形却不可或缺” 的基础设施,否则过度宣传反而可能引发消费者的抵触情绪,让他们觉得自己是在为冗余功能支付溢价。

前言:一场技术与激情的双向奔赴

当 2025 年秋季的第一片梧桐叶飘落在交大校园时,一场关于人工智能未来的探索正在悄然展开。这不仅是技术的传授,更是认知的革新——从被动使用AI工具到主动创造智能体,从理论认知到工程实践。上海交通大学“AI赋能智汇高校实训营”正是这样一座桥梁,连接着学术前沿与产业实践,也连接着青年学子与AI的未来。

实训营概况速览

  • 时间: 2025年秋季学期
  • 地点: 上海交通大学(闵行校区)
  • 参与规模: 超过300名交大学子
  • 核心目标: 从零掌握大模型本地部署与微调全流程
  • 特色亮点: 国内首个全面基于NPU生态的大模型实训课程

能力提升三维度评估

同学们的“高光时刻”数据

  1. 参与度爆表

    • 课程满意度评分:4.8/5.0
    • 课后代码提交率:92%
    • 平均每人完成3.2个微调实验
    • 累计GPU/NPU计算时长:超过5,000小时
  2. 成果展示墙

    • 37个创意微调项目诞生
    • 12个项目进入 AI 社区“优秀案例库”
    • 最受欢迎应用方向:科研助手、创意写作、代码生成

技术实践全记录:从环境搭建到模型部署

环境配置篇:跨越“第一道门槛”

挑战场景还原:

“老师,torch_npu导入报错了!”
“镜像选择哪一个是正确的?”
——这是开课时最频繁的问题

我们的解决方案:

# 标准化环境配置流程(最终优化版)
# 1. 镜像选择黄金法则
PyTorch (openeuler-python3.10-pytorch2.1.0-openmind0.9.0) 
# 理由:Python3.10兼容性最佳,torch2.1.0与NPU适配最稳定

# 2. 依赖安装“避坑指南”
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
pip install torch==2.5.1 torch_npu numpy==1.26.4 transformers==4.52.4
# 关键发现:transformers 4.52.4对中文多模态支持最优

# 3. 环境校验“三连击”
python -c "import torch; import torch_npu; import vllm_ascend"
# 绿色√出现时,教室里响起的掌声至今难忘

教学反思:

  • 提前准备的“常见错误对照表”将问题解决时间缩短70%
  • “三人小组互助制”让基础较弱的同学也能跟上进度
  • 最受欢迎的教学创新:环境配置“闯关游戏”式教程

模型部署实战:见证“Hello World”时刻

技术路线演进:

Week 1: 基础文本模型 (Qwen2.5-3B)
Week 2: 视觉语言模型 (Qwen2.5-VL-3B)
Week 3: 国产多模态 (InternVL3.5-1B)

代码实践精华:

# 从“复杂难懂”到“一键部署”的蜕变

# 初版(学生普遍反映配置复杂)
# vllm serve /path/to/model --port 8000 --max-model-len 16384 ...

# 优化版(封装为simple_deploy.py)
from deployment_kit import ModelDeployer
deployer = ModelDeployer(model_name="Qwen2.5-VL-3B")
deployer.launch(port=8000, api_type="openai")

# 效果:部署时间从平均30分钟缩短至5分钟

互动环节亮点:

  • “模型对话接龙”:每组微调一个特色模型,串联成创意故事
  • “Bug排查大赛”:最快解决部署问题的组获得算力奖励
  • 最惊艳的学生作品:《红楼梦》风格的多模态对话模型

微调实操:让模型拥有“交大基因”

LoRA微调实战案例:

# 交大校史知识注入配置(student_project_01)
model_name: Qwen2.5-7B
dataset: sjtu_history_qa.json  # 学生自建的校史问答对
lora_config:
  r: 16
  alpha: 32
  target_modules: ["q_proj", "v_proj"]
training_args:
  num_epochs: 3
  per_device_train_batch_size: 4
  learning_rate: 2e-4

训练成果展示:

微调前:
问:上海交通大学何时成立?
答:交通大学是一所历史悠久的高校...

微调后:
问:上海交通大学何时成立?
答:上海交通大学前身为1896年创立的南洋公学,1921年定名为交通大学...
问:钱学森图书馆在哪里?
答:位于上海交通大学闵行校区,是为纪念校友钱学森而建...

技术突破点:

  1. 显存优化:QLoRA+梯度检查点,7B模型在24G NPU上可训练
  2. 数据质量:学生创新的“三阶段数据清洗法”
  3. 评估体系:自动化的ROUGE-L+BERTScore双指标评估

社区生态共建:AI 平台深度合作

AI 特色功能实践

功能模块使用频次学生评价亮点
模型库一键下载287次“比HuggingFace快5倍”
在线Notebook156次“随时随地继续实验”
模型市场分享42次“看到自己的模型被别人使用很有成就感”

优秀学生项目孵化

项目1:SJTU-CodePal

  • 团队:计算机系3名学生
  • 技术:基于DeepSeek-Coder微调
  • 特色:理解交大课程代码规范(如CS1101实验要求)
  • 成果:被《程序设计基础》课程组采纳为辅助工具

项目2:医工交叉文献助手

  • 团队:医学院+电院跨学科团队
  • 技术:Qwen2.5-VL微调
  • 特色:解析医学影像+文献摘要
  • 成果:在生物医学工程实验室实际部署

总结

当钱学森图书馆的灯光照亮同学们调试代码的身影,当东下院的键盘声敲响AI时代的序曲,我们深切感受到:教育最美的模样,就是点燃学生眼中的光。那些为环境配置而紧锁的眉头,那些看到模型成功响应时绽放的笑容,那些跨学科碰撞出的思想火花——这些瞬间汇聚成了2025年秋天最温暖的记忆。

感谢每一位参与其中的交大学子,你们的热情与创造力是这趟旅程最宝贵的风景。感谢所有支持单位提供的资源保障。人工智能的未来属于青年,而你们,正站在创造未来的起点上。

路虽远,行则将至;事虽难,做则必成。

性能提升60%,英特尔Ultra3这次带来了巨大提升

0%
icon展开列表
性能提升60%,英特尔Ultra3这次带来了巨大提升
今天
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
今天
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
今天
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
今天
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
今天
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
今天
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
今天
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
今天
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
今天
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
今天
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
今天
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
今天
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
01月13日
img
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
01月13日
img

性能提升60%,英特尔Ultra3这次带来了巨大提升

上周,英特尔在 CES 2026 上正式发布了代号为 Panther Lake 的 Core Ultra Series 3 处理器,成为了本次展会的绝对主角。它终于让 PC 芯片摆脱了多年挤牙膏的困境,在 CPU、GPU 和 NPU 架构上均带来了显著的「代际」升级。

这是首款基于英特尔自家 18A 工艺(等效 1.8 纳米级别)大规模量产的消费级芯片,桌面端和移动端版本同期推出。对英特尔来说,新制程与新芯片具有重大意义,标志着该公司重新引领芯片性能与方向的开始。

CES 之后,英特尔对下一代酷睿 Ultra 平台作了完整的技术概述。

在新一代 Panther Lake 产品上,能效核 Darkmont 与性能核 Cougar Cove,GPU(升级版 Xe3)都是新架构,引入了第五代 NPU 用于 AI 加速,缓存、图像处理单元都是新的,芯片整体采用了基于 chiplet 的封装,使用 Foveros-S 堆叠技术。

具体来说,每颗 Panther Lake 主要由三种小芯片组成:基于 Intel 18A 的计算芯片、基于 Intel 3 或台积电 N3E 工艺的图形芯片,以及基于台积电 N6E 的平台控制器芯片。每个配置都采用了 Foveros-S 封装,安装在同一个基板上,CPU、GPU、I/O 芯片会被集成到一个紧凑的 SoC 布局中。

英特尔表示,Panther Lake 会具备 Lunar Lake 的能效与 Arrow Lake 的性能,CPU 最多拥有 16 个核心,性能相比上代提升 60%(比之前宣称的 50% 又有提升),低功率情况下,单核性能较上一代提升 40%。

在 CPU 上,Panther Lake 集成了三种类型的核心,Cougar Cove P 核心在 Lion Cove 的基础上进行了改进,增加了 TLB 的容量,配备了更精确的多级分支预测器。每个 P 核心包含 3MB 的 L2 缓存和 256K 的 L1 缓存。Darkmont E 是上一代 Skymont 的升级版,支持 9 路解码,更大的乱序执行窗口和 26 个调度端口。

Panther Lake 还新增了一个四核低功耗集群,它基于 Darkmont 架构,直接位于计算单元上,用于处理后台或轻量级负载。

英特尔表示,重新设计的内存子系统支持 DDR5-7200 与 LPDDR5X-9600,相比前几代产品带宽和容量更高,计算单元可在核心集群上共享 18MB 的 L3 缓存,并连接到 8MB 的内存端缓存,从而减少 DRAM 流量和延迟。

GPU 方面,新一代芯片搭载了全新的 Xe3 架构核显,拥有最多 12 个 Xe 核心,官方宣称游戏性能相比上一代(Lunar Lake)提升高达 77%,同功耗水平性能提升 50%,其性能甚至超越了部分独立显卡(如部分 RTX 4050 移动版)。当然,这一代核显的性能相较 AMD 的同档产品也有巨大的优势。

可见在魔兽世界、群星等游戏上,以后我们基本可以用集显玩了。我们甚至可以展望 Ultra 3 发布会,会有搭载集显的全能笔记本出现。

12 核心的 Xe3 版本使用台积电 N3E 工艺打造,提升了 L1、L2 缓存容量,改进了各向异性过滤和模板渲染速率,并配备了增强型光线追踪单元和动态光线管理功能。

Panther Lake 还首次搭载了 XeSS 3 多帧生成技术,可以通过生成多个插帧的方法实现更加流畅的游戏体验。英特尔计划在其图形软件中增加帧生成覆盖控制功能,从而让用户可以强制指定特定的帧生成模式。

在 AI 计算方面,Panther Lake 采用了更加均衡的 XPU 设计,可实现更高水平的 AI 计算加速,总平台算力超过了 180TOPS。其中 NPU 算力提升至 50 TOPS,支持 FP8、INT8 等量化格式,MAC 吞吐量翻倍,功耗降低 40% 以上。

利用新的线程管理器,Panther Lake 能够适应不断变化的工作负载,在游戏时提升约 10% 的帧率。通过优化 Windows 电源模式,新的芯片在相同的功耗限制下可以把性能提升大约 20%。

Panther Lake CPU 预计将提供八核心 + 两个十六核心的版本,命名为英特尔酷睿 Ultra 处理器第三代(3xx)。另外在连接方面,这一代芯片支持最多 20 条 PCIe 通道,集成雷电 4;无线连接方面则支持 Wi-Fi 7 Revison 2 和蓝牙 6.0Core。

除了个人电脑领域之外,Panther Lake 的应用范围还扩展到了包括机器人在内的边缘应用领域。英特尔提供了 AI 软件套件与参考板卡,能够帮助复杂 AI 应用的客户快速上手,利用新一代 AI 芯片实现控制和 AI 感知,并快速开发机器人。

英特尔表示,得益于 18A 工艺,Panther Lake 芯片的能效比进一步优化,官方宣称部分机型续航可达 27 小时。再加上性能的提升,新一代芯片在轻薄笔记本和游戏本上都会带来更好的体验。

预计搭载 Panther Lake 的笔记本电脑在今年 1 月就会大批量上市。

英特尔还预告了 30W 功率掌机版本的 Panther Lake 的信息,不过更多信息有待公布。

随着 Ultra 第三代产品的推出,AI PC 距离实用化更近了一步。