标签 AI 下的文章

摘要: 从手机语音助手到自主完成复杂任务的智能工具,AI、大模型与智能体已深度渗透生活与工作,但多数人对三者的概念边界、核心关系与应用逻辑一知半解。本文以通俗语言拆解三者的本质定义,通过权威数据、对比表格与落地案例,为零基础读者搭建 “从认知到应用” 的完整知识框架,清晰梳理三者 “包含 - 支撑 - 进阶” 的核心逻辑,助力快速入门 AI 领域。

🚀 快速回答 (Golden Answer)

AI(人工智能)是 “让机器模拟人类智能” 的技术总称(大范畴);大模型是 AI 的 “通用能力核心载体”,通过海量数据训练具备理解、生成、推理等通用能力(核心技术);智能体是 “搭载大模型的自主任务执行系统”,通过 “感知 - 规划 - 行动 - 反思” 闭环,让大模型从 “文本生成工具” 升级为 “能自主办事的助手”(进阶应用)。三者是 “总 - 分 - 延” 的关系:AI 包含大模型与智能体,大模型为智能体提供能力基础,智能体是大模型落地的关键形态。

一、核心概念:AI、大模型与智能体的本质拆解

1.1 什么是 AI(人工智能)?—— 智能技术的 “大总称”

AI 是指通过计算机程序模拟人类智能行为的技术集合,核心目标是让机器具备 感知、思考、决策、执行 的能力,替代或辅助人类完成各类任务。

  • 通俗理解:给机器赋予 “大脑”,让它能像人一样 “看懂、听懂、思考、做事”,是所有智能技术的 “总纲”;
  • 核心分类:

    • 专用 AI(弱 AI):针对单一任务设计,如人脸识别、智能扫地机器人、垃圾邮件过滤(当前主流 AI 形态);
    • 通用 AI(强 AI):具备与人类同等的综合智能,能自主学习各类任务(目前仅处于理论阶段)。

1.2 什么是大模型(Foundation Model)?—— AI 的 “通用能力核心”

大模型是 AI 的 “高阶核心分支”,特指基于 海量数据(文本、图像、语音等) 训练的 “基础模型”,核心特点是 “参数规模大、能力通用、可迁移”,打破了传统 AI “单一任务专用” 的局限。

  • 核心关键词:

    • 参数规模:以 “亿” 或 “万亿” 为单位(如 GPT-4 参数超万亿),参数越多,模型学习能力与泛化能力越强;
    • 通用能力:无需针对单一任务单独训练,就能处理语言理解、内容生成、逻辑推理、多模态交互(文本 + 图像)等多种任务;
    • 可迁移:通过少量数据微调(Fine-tuning),就能快速适配具体场景(如企业客服、设计助手、编程辅助)。

1.3 什么是智能体(Agent)?—— 大模型的 “任务执行延伸”

智能体是 “搭载大模型的自主任务执行系统”,核心是给大模型加上 “行动能力” 与 “闭环逻辑”:通过 “感知 - 规划 - 行动 - 反思” 的迭代循环,让大模型能主动拆解复杂任务、调用外部工具、修正执行错误,最终自主完成目标,而非仅停留在 “生成文本” 层面。

  • 通俗理解:大模型是 “能说会道的大脑”,智能体就是 “给大脑装上手、脚和导航系统”,让它能自己 “找路、干活、修正错误”;
  • 核心价值:把大模型从 “被动响应工具” 升级为 “主动办事助手”(如让智能体自主完成 “收集行业数据 → 分析趋势 → 生成可视化报告”)。

二、直观对比:AI、大模型与智能体的核心差异

对比维度AI(人工智能)大模型(Foundation Model)智能体(Agent)
核心定位智能技术的总称(大范畴)AI 的通用能力核心载体大模型的自主任务执行延伸(落地形态)
能力范围单一任务或多任务(因类型而异)通用能力(理解、生成、推理、多模态)自主任务执行(拆解、行动、修正、闭环)
数据依赖可基于小数据训练(如简单人脸识别)必须依赖海量数据(TB 级以上)依赖大模型训练数据 + 场景化任务数据
交互方式被动响应(如智能门锁识别后开门)被动生成(用户提问 → 输出文本 / 图像)主动交互(自主调用工具、反馈修正)
核心组件算法 + 数据 + 简单逻辑模块Transformer 架构 + 海量参数 + 训练数据大模型 + 规划模块 + 记忆系统 + 工具接口 + 反思机制
典型案例智能扫地机器人、语音识别、人脸识别GPT-4、文心一言、通义千问、MidjourneyCoze(扣子)、AutoGen、LangGraph 构建的任务助手
核心局限专用 AI 通用性差,强 AI 仅存于理论仅能生成内容,无法自主执行任务复杂场景易出错,依赖完善的工具生态

三、技术演进:从 AI 到大模型,再到智能体的跨越

AI 发展已历经 60 余年,核心能力从 “被动响应” 到 “主动执行”,经历了三个关键阶段的飞跃,每一步都离不开技术架构的突破:

发展阶段核心技术核心突破时代特征
传统 AI 阶段(1950s-2010s)规则驱动 + 简单算法(如决策树、神经网络)让机器完成单一固定任务“被动响应” 时代(如早期聊天机器人仅能回应预设问题)
大模型阶段(2020s 至今)Transformer 架构 + 海量数据训练让机器具备通用智能(理解、生成、推理)“能说会道” 时代(如 AI 写作、AI 绘画、智能答疑)
智能体阶段(当前进阶方向)大模型 + 工具协同 + 闭环逻辑(感知 - 规划 - 行动 - 反思)让机器自主完成复杂任务“主动办事” 时代(如自主完成市场调研、生成分析报告、自动化办公)
关键转折点: 2017 年谷歌提出的 ​Transformer 架构​(注意力机制),让模型能理解上下文逻辑,为大模型的通用能力奠定基础;而智能体的爆发,则是因为大模型解决了 “理解与推理” 的核心问题,让 “自主执行” 成为可能。

四、核心能力与应用场景:你能用到的 AI、大模型与智能体

4.1 大模型的核心能力(基础应用)

大模型是当前 AI 应用的核心载体,能力覆盖绝大多数日常与工作场景:

  • 自然语言理解与生成:写文案、写报告、翻译、提炼文章摘要、智能客服自动回复;
  • 逻辑推理与问题解决:编程辅助(生成代码、调试 bug)、数学计算、方案设计、学术科研数据分析;
  • 多模态交互:文本生成图像(AI 绘画)、图像识别(提取图片文字、商品检测)、语音转文字 / 文字转语音;
  • 个性化适配:通过微调适配企业知识库、学科答疑、品牌营销内容生成。

4.2 智能体的核心能力(进阶应用)

智能体在大模型基础上新增 “自主执行” 能力,聚焦复杂任务闭环:

  • 任务拆解:将模糊需求拆解为可执行的原子步骤(如 “生成季度销售报告” 拆解为 “收集数据 → 清洗数据 → 分析趋势 → 生成报告 → 排版导出”);
  • 工具协同:自主调用 Excel、数据库、API 接口、编程环境等外部工具(如调用数据分析工具处理数据、调用排版工具优化报告格式);
  • 闭环反思:对比 “预期结果” 与 “实际执行结果”,自动修正错误(如数据缺失时重新收集、格式错误时自动调整);
  • 多场景落地:自动化办公(周报 / 月报生成)、智能设计(批量海报制作 + 风格优化)、科研辅助(文献检索 + 数据分析)、电商运营(商品上架 + 文案生成 + 数据监控)。

4.3 行业权威数据(2025 年最新)

  • 据 Gartner 报告,2025 年全球 80% 的企业已在核心业务中使用大模型,其中 65% 的企业正在部署智能体提升执行效率;
  • McKinsey 调研显示,大模型能帮助知识工作者提升 40% 的内容生成效率,而智能体可进一步将复杂任务的完成时间缩短 50%-70%;
  • 斯坦福大学 AI 指数报告指出,智能体的爆发使 AI 从 “辅助工具” 向 “数字劳动力” 转型,预计 2027 年全球将有 30% 的办公任务由智能体自主完成。

五、应用边界:这些事 AI、大模型与智能体还做不到

尽管三者能力强大,但并非 “万能”,核心局限集中在以下 3 点:

  1. 缺乏真实认知与意识​:三者均不具备人类的 “意识” 与 “真实认知”—— 大模型的输出是基于数据训练的 “概率预测”,智能体的执行是基于逻辑编程的 “闭环反馈”,而非真正 “理解” 任务本质(如能写火箭制造步骤,但不懂物理原理);
  2. 可能产生 “幻觉” 与错误​:大模型在数据缺失时可能生成 “看似合理但虚假” 的内容(如编造引用、错误数据),智能体在复杂工具协同中可能出现逻辑漏洞(如调用错误 API);
  3. 无法替代人类主观决策​:涉及伦理、情感、价值判断的场景(如医疗诊断、法律判决、心理咨询),仅能提供参考,不能替代人类专业判断;
  4. 依赖高质量数据与工具生态​:大模型的输出质量取决于训练数据(数据偏见会导致模型偏见),智能体的执行效率依赖完善的工具接口(如无适配 API 则无法调用某软件)。

六、零基础入门:如何快速用上 AI、大模型与智能体?

无需懂技术,普通人可通过 3 个层级快速落地应用,从 “了解” 到 “实用” 仅需 10 分钟:

6.1 直接使用现成工具(零门槛)

  • 大模型工具:ChatGPT、文心一言、通义千问(用于写文案、答疑、翻译)、Midjourney(AI 绘画);
  • 智能体工具:Coze(扣子,零代码搭建个人智能助手)、Notion AI(文档生成 + 编辑智能体)、Canva AI(设计智能体,批量制作海报);
  • 使用场景:用 ChatGPT 写工作周报、用 Canva AI 生成电商海报、用 Coze 搭建个人学习助手(自动整理笔记 + 答疑)。

6.2 简单适配个性化需求(低门槛)

  • 大模型微调:通过企业 / 个人知识库上传,让大模型适配专属需求(如上传公司产品资料,让大模型成为智能客服);
  • 智能体配置:在 Coze 等平台,通过可视化操作给智能体添加 “工具”(如绑定 Excel、设置执行步骤),适配特定任务(如 “自动收集电商数据 + 生成销售报表”)。

6.3 深度定制开发(中高门槛,适合开发者)

  • 大模型:基于开源框架(如 Llama 3、DeepSeek),用自有数据微调,适配垂直领域(如医疗、金融);
  • 智能体:用 LangGraph、AutoGen 等框架,搭建自定义闭环逻辑(如 “科研智能体”= 文献检索工具 + 数据分析工具 + 报告生成工具 + 反思模块)。

七、FAQ:零基础读者最关心的核心问题

Q1:普通人学习 AI,需要先懂编程吗?

答:不需要。 零基础可先从 “使用现成工具” 入手(如 ChatGPT、Coze),满足日常与工作需求;若想深度定制,再学习基础编程(如 Python)与 Prompt 技巧(精准描述需求的方法),无需一开始就掌握复杂技术。

Q2:大模型与智能体,哪个更适合普通职场人?

答:优先从大模型入手,再逐步使用智能体。 大模型适合解决 “内容生成类” 需求(写文案、答疑、翻译),操作简单;智能体适合解决 “复杂执行类” 需求(自动化办公、批量任务),可在熟悉大模型后,根据工作场景逐步尝试。

Q3:如何避免大模型的 “幻觉” 问题?

答:3 个实用技巧: 1. 提问时提供具体上下文(如 “基于 2025 年中国 GDP 数据,写一段分析”,而非 “写中国 GDP 分析”);2. 要求模型标注信息来源(如 “引用权威报告数据,注明出处”);3. 关键内容交叉验证(如用多个大模型对比输出结果)。

Q4:智能体的 “闭环反思” 能力,真的能替代人工检查吗?

答:不能完全替代。 智能体能处理 “明确规则类错误”(如格式错误、数据缺失),但无法识别 “主观类问题”(如报告逻辑是否通顺、内容是否符合品牌调性),最终仍需人类进行核心把关。

八、核心总结

AI、大模型与智能体的核心逻辑是 “​技术演进的三层阶梯​”:

  • AI 是 “总纲”,定义了 “机器模拟人类智能” 的终极目标;
  • 大模型是 “核心引擎”,解决了 “通用能力” 的关键问题,让 AI 能 “看懂、听懂、会表达”;
  • 智能体是 “落地载体”,解决了 “自主执行” 的核心痛点,让 AI 能 “自己干活、修正错误”。

对普通人而言,无需纠结复杂技术原理,可根据需求选择合适的工具:需要内容生成,用大模型;需要自动化执行,用智能体。未来,AI 的核心发展方向是 “大模型的能力深化” 与 “智能体的生态完善”,而拥抱这种技术变革,掌握 “人机协同” 的能力,才是应对未来的关键。

参考文献与数据来源

  1. Gartner《2025 年全球 AI 技术趋势报告》
  2. McKinsey《大模型与智能体:重塑工作流程的核心力量》(2025)
  3. 斯坦福大学《AI 指数报告 2025》
  4. LangGraph、AutoGen 官方技术文档
  5. Coze(扣子)《智能体落地实践白皮书》

核心关键词

AI(人工智能)、大模型、智能体、Foundation Model、Agent、人机协同、AI 应用场景、大模型微调、智能体闭环逻辑

科技云报到原创。

2026年伊始,港股市场被AI热潮彻底点燃。

1月8日,智谱AI以“全球通用大模型第一股”身份登陆港交所,1164倍超额认购、首日528亿港元市值,拉开国产AI企业资本化序幕。

仅隔一天,MiniMax接力挂牌,1837倍超额认购、盘中涨幅超109%、市值破千亿港元,刷新港股AI新股热度纪录。

短短48小时,两家头部企业募资近百亿港元,市值总和逼近1700亿港元,这场资本盛宴背后,是市场对AI产业价值的集体押注。

同时,北京智源人工智能研究院发布《2026十大AI技术趋势》,明确指出AI发展的核心转变:从“预测下一个词”的语言游戏,迈向“预测世界状态”的物理规律探索。

当资本泡沫与技术突破碰撞、商业化探索与产业需求对接,2026年的AI行业不再是单一技术的狂欢,而是一场涉及认知范式、智能形态、商业逻辑的全面重构。

 

 

技术成熟度与产业需求的双重共振

AI企业的密集上市,标志着行业正式告别“依赖融资续命”的草莽阶段,迈入“资本化造血”的关键转折期。

这一转变,是技术成熟度与产业需求的深度契合,更暗藏着行业发展的逻辑变化。

从技术层面看,大模型已从参数竞赛进入能力沉淀期,智源报告指出,2026年AI将实现从“感知”到“认知”的跨越,NSP(Next-State Prediction)范式让模型具备物理世界规律理解能力,为商业化提供了技术基础。

从产业需求看,全球AI市场规模将从2025年的7575.8亿美元增至9000亿美元,同比增长18.7%,延续了高增长态势。

国务院“人工智能+”行动将AI定位为新型工业化 “必答题”,工业、金融、医疗等领域的智能化需求迫切,为技术落地提供了广阔场景。

资本的选择也暗藏趋势密码,AI应用与多模态世界模型正成为AGI共识方向。

这意味着,资本不再盲目追逐参数规模,而是聚焦“技术落地能力”与“场景适配性”,这种理性回归将推动行业从野蛮生长走向高质量发展。

从“预测文本”到“理解世界”

智源十大趋势的核心洞察,是AI技术范式从NTP(Next Token Prediction)到NSP(Next-State Prediction)的转变。

这一变革不仅重塑了技术研发逻辑,更将AI的应用边界从数字空间拓展至物理世界,催生了一系列颠覆性创新。

2026年,“能否理解世界运转规律”将成为衡量大模型实力的核心标准。

不同于传统语言模型仅能生成连贯文本,世界模型通过多模态数据统一编码,自主学习物理动态、时空连续性与因果关系,实现“理解-预测-规划”的完整认知闭环。

这一技术突破,让AI从“文字工具”升级为“世界模拟器”。

在海外,OpenAI的Sora 2展现出对真实世界的深度模拟能力,World Labs的RTFM 模型可从单幅图像创建3D空间;在国内,智源悟界・Emu3.5成为NSP范式的标杆,蚂蚁百灵大模型在多模态生成、方言识别领域逼近GPT-5水平。

世界模型的成熟将重构多个行业。自动驾驶领域,通过模拟复杂路况降低实车测试成本;机器人训练中,虚拟场景预训练大幅提升实体机器人的环境适应能力;科研领域,模拟分子运动加速新药研发。

智源报告指出,这一技术将成为AGI的核心共识方向,2026年将有更多企业加入布局,推动认知智能进入规模化应用阶段。

如果说世界模型是AI的“大脑”,具身智能就是让大脑“走进现实”的载体。

2025年的“百机大战”后,2026年具身智能行业进入“出清期”,同质化企业因资金断裂或技术不足被淘汰,头部企业凭借订单优势与技术积累形成格局。

技术层面,“世界模型+强化学习”的闭环进化模式成为主流,智源发布的通用具身大脑RoboBrain2.0与小脑基座RoboBrain-X0,实现跨场景多任务轻量化部署;海外Tesla Optimus 2.5已应用于工厂生产、农场运营等真实场景。

商业化方面,行业从实验室验证转向量产交付,智元、乐聚智能等企业推进上市进程,标志着具身智能从“技术演示”走向“产业工具”。

值得注意的是,具身智能的爆发离不开AI大模型的支撑。大模型赋予机器人自然语言交互能力与复杂任务规划能力,让机器人从“专用设备”升级为“通用助手”。

2026年,工业制造中的精密装配、服务业的个性化服务、医疗领域的辅助诊疗,将成为具身智能落地的核心场景,推动实体产业智能化转型进入深水区。

面对日益复杂的任务需求,单智能体的能力天花板逐渐显现,多智能体系统(MAS)成为解决复杂问题的关键路径。

不同于单智能体的独立工作模式,MAS通过智能体间的协作分工,实现“1+1>2”的认知升级,其逻辑契合“多样性预测定理”——足够多且独立的智能体协作,可使系统准确率逼近100%。

2026年,多智能体发展的核心突破是“协议标准化”。

MCP与A2A通信协议被捐赠给Linux基金会后实现分层融合,成为Microsoft、Google等巨头及LangChain、AutoGen等框架的原生支持协议,IBM计划将ACP协议并入A2A,推动行业标准统一。

这意味着,不同企业开发的智能体将拥有通用语言,能够跨平台协作完成复杂任务流。

应用层面,MAS正从科研领域向产业场景渗透。例如,金融领域的智能体团队可协同完成风险评估、投资分析、客户服务;工业场景中,生产智能体、质检智能体、物流智能体形成协作网络,优化全产业链效率。

ToC与ToB的价值兑现期来临

技术突破最终要通过应用落地实现价值闭环。2026年,AI应用将呈现“ToC超级应用竞逐+ToB垂直突破”的双轨格局,经历早期概念验证的“幻灭期”后,真正可衡量的商业价值将集中爆发。

“All in One”的超级应用成为C端AI竞争的核心战场。这种以单一入口实现信息获取、任务规划、问题解决的闭环模式,依托高算力成本与庞大用户数据迭代,正在重塑互联网流量格局。

海外,ChatGPT、Gemini日活过亿,Gemini已取代Google Maps原生语音助手,实现功能内化;国内,蚂蚁“灵光”AI助手上线6天下载量破200万,支持30秒生成小应用与全模态输出;字节豆包依托抖音生态引流,月活位居全球第二,仅次于 ChatGPT。

 

超级应用的竞争本质是生态整合能力的较量。

字节跳动凭借短视频流量优势,将AI助手深度融入内容创作、社交互动、生活服务场景;阿里以千问App为核心,整合消费、支付、物流等电商生态资源;蚂蚁集团则依托金融科技优势,让“灵光”助手具备理财咨询、生活缴费、政务办理等复合功能。

2026 年,超级应用将进入“生态闭环决战”阶段,能够实现跨场景无缝衔接、个性化精准服务的产品,将定义AI时代的“新BAT”格局。

与此同时,垂直赛道成为中小玩家的突围机会。多模态、大健康、教育等高ROI领域呈现“低频高价值”特征,Google Nano Banana Pro单次调用价格为文本模型的几十倍,但仅需1.5%调用量即可实现同等收入。

国内,蚂蚁“蚂蚁阿福”健康App聚焦慢病管理、健康咨询等场景;MiniMax的海螺AI深耕视频创作赛道,成为自媒体、设计师的必备工具;字节即梦AI在教育领域的个性化辅导功能,精准击中用户痛点。

 

这些垂直应用凭借高用户粘性与强付费意愿,正在构建可持续的盈利模式,成为C端AI商业化的重要补充。

2025年,95%的GenAI Pilot项目未产生可衡量影响,B端AI应用进入“幻灭低谷期”,核心症结集中在数据质量、系统集成、成本失控三大问题:46%企业将“现有系统集成”列为首要障碍,AI应用仍依赖手动操作ERP/CRM;多智能体的涌现行为失控、调试困难导致落地受阻;死循环通信、自我对话等问题造成高额成本损耗,曾有4个LangChain智能体11天消耗4.7万美元的案例。

但行业拐点已现,2026年下半年将迎来V型反转。随着数据治理工具的成熟与行业标准接口的统一,AI与企业现有系统的集成效率大幅提升,多智能体协议标准化解决了互操作性问题,算法优化与硬件升级降低了推理成本,让AI应用的ROI可量化、可追踪。

2026年,B端AI的落地将呈现三大特征:一是行业定制化深化,通用大模型通过微调适配特定场景,例如金融领域的风控模型、制造领域的质检模型;二是轻量化部署成为主流,边缘计算与模型压缩技术让中小企业无需高额算力投入即可享受AI服务;三是价值闭环明确,从“降本”向“增效”“创新”延伸。

 

繁荣背后的隐忧与破局之道

AI产业的爆发式增长,并未掩盖底层矛盾与潜在风险。盈利模式模糊、算力瓶颈、安全合规压力、人才缺口等问题,正在考验行业的可持续发展能力,也成为2026年AI企业必须突破的关键关卡。

智谱与MiniMax的上市招股书,揭开了AI企业的盈利难题。MiniMax三年累计亏损近13亿美元,C端业务依赖营销投放驱动增长,“高投入-高增长-低盈利”模式难以持续,用户留存困境导致营销效率低下。

智谱虽实现亿级收入,但仍未实现全面盈利,大模型研发的高额算力成本与人力成本,对现金流构成持续压力。

这并非个例,当前全球头部AI企业中,除少数企业通过生态协同实现盈利外,多数仍处于“投入大于产出”的阶段。

破局路径集中在三个方向。一是成本优化,通过MoE架构、混合注意力机制等技术创新提升模型效率;二是商业模式创新,B端企业从“一次性部署”转向“订阅制服务”,C端产品深化“免费+增值”模式,提升ARPU值;三是场景深耕,聚焦高价值垂直领域,例如AI制药等高毛利场景成为盈利突破口。

2026年,盈利能力将成为AI企业的核心竞争力,无法构建可持续盈利模式的企业,将在行业洗牌中被淘汰。

算力是AI产业的核心基础设施,2026年将迎来“需求爆发+格局重构”的双重变革。

随着生成式AI与智能体的大规模落地,推理算力需求首次超过训练算力。根据IDC发布的《全球人工智能算力发展白皮书》数据显示,2025年全球AI算力市场规模已突破60万亿元,预计到2026年底将达到120万亿元,正式迈入百万亿规模时代。

但当前算力格局仍受海外垄断,国内高阶AI芯片缺口明显,成为制约产业发展的关键瓶颈。

为突破算力困境,国内正从技术创新与生态建设双管齐下。

一方面,开源芯片架构成熟与国产AI芯片崛起,打破英伟达垄断,2026年中国高阶AI芯片本土份额有望接近 50%,中芯国际、华虹的BCD工艺产能利用率满载;

另一方面,国家层面加快“东数西算”工程建设,推动训练推理分离架构普及,这些举措共同推动算力成本持续下降,为AI普惠奠定基础。

AI技术的快速发展,让安全风险从“模型幻觉”升级为更隐蔽的“系统性欺骗”,深度伪造、模型投毒、数据泄露等问题频发。

据国际刑警组织数据,2025年全球深度伪造诈骗案件数量同比增长87%,涉案金额超30亿美元,安全合规成为企业落地的“生死线”。

2026年,传统网络安全防御体系已难以抵御AI原生攻击,行业正面临从“被动修补”到“原生免疫”的紧急转型,AI安全攻防正式进入“军备竞赛”新阶段。

技术层面,Anthropic的回路追踪研究致力于从内部理解模型机理,OpenAI推出自动化安全研究员,智源研究院联合国际顶尖机构发布全球首个AI欺骗系统性国际报告。

监管层面,欧盟《人工智能法案》已于2025年2月生效,中国出台生成式AI版权保护细则,全球形成差异化监管框架,要求企业公开训练数据清单、建立内容审核机制,合规成本成为企业必须承担的运营成本。

2026,AI成为社会基础设施的元年

站在2026年的时间节点回望,AI产业已完成从“技术概念”到“社会基础设施”的蜕变。

智谱与 MiniMax 的上市,标志着资本对 AI 价值的认可;智源十大趋势的落地,展现了技术从 “实验室” 到 “产业界” 的跨越;ToC与ToB应用的爆发,让AI深度融入日常生活与生产经营。

2026年,AI将实现从“认知”到“创造”的跨越,AI+新能源、AI+医疗、AI+制造等跨界融合深化,推动实体经济高质量发展,重塑就业结构与生活方式,新岗位不断涌现,智能化服务覆盖各个角落。

但AI的发展并非坦途,盈利模式的探索、安全风险的防控、伦理边界的界定,仍需要行业、政府、社会的共同努力。

正如智源研究院理事长黄铁军所言,AI的发展要重视“结构决定功能,功能塑造结构”的相互作用,只有让技术发展与社会需求同频共振,才能推动AI稳健迈向价值兑现的新阶段。

2026年,既是AI产业的价值爆发年,也是行业规范的奠基年。当资本的热度褪去、技术的泡沫消散,真正能够解决社会痛点、创造实际价值的AI企业,将在时代浪潮中脱颖而出。

而我们每个人,既是这场智能革命的见证者,也是参与者和受益者,AI与人类的共生共荣,正在开启新的篇章。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、数博会、国家网安周与全球云计算等大型活动的官方指定传播媒体之一。深入原创报道云计算、人工智能、大模型、网络安全、大数据、区块链等企业级科技领域。

整理 | 华卫

 

“世界上不会再出现第二个我这样的 CEO 了。”近日,英伟达联合创始人兼首席执行官黄仁勋(Jensen Huang)在一场私人访谈中这样说道。

 

据称,这场深度对话已经酝酿了三十年,将黄仁勋鲜为人知的一面展现在大众眼前。主持人 Jodi Shelton 与黄仁勋的职业交集始于三十余年前,彼时,图形处理器(GPU)尚未掀起席卷全球的 AI 革命。从加速计算的源头到生成式 AI 的前景,这场对话堪比一堂远见大师课。

 

在访谈中,黄仁勋表示,从某种意义上说,英伟达其实有 61 位 “CEO”。过去这些年,包括他在内,很多人都犯过严重的错误,但在英伟达,从来没有人因为犯错而被解雇。“我们打造了一个足够安全的环境。”他还透露,CEO 这个职位,远比人们想象的要脆弱得多。“实际上,我们可能是公司里最脆弱的一群人。不过对我来说,承认这种脆弱,并不是什么难事。”

 

有意思的是,他提到,在很多方面,自己都算是一个 “不情愿的 CEO”。“公开演讲简直让我怕得要死。比起待在公司外面抛头露面,我更喜欢扎根在公司内部;比起发表演讲,我更喜欢安静做事;我甚至一点都不喜欢做主题演讲,但为了公司,我必须去做这些事。”

 

此外,黄仁勋称,英伟达的成功,绝不是靠产量取胜。“虽然是英伟达发明了 GPU,但从产量来看,我们其实是全球最小的 GPU 制造商。很多不知名的厂商,GPU 产量都比我们高。”而“没有终极目标” 这一点,对英伟达的发展真的起到了至关重要的作用。

 

对于五年后的世界,黄仁勋断言,英伟达和整个行业在 AI 领域的投入,必将彻底改变计算机的运作模式,未来的计算机,将从 “由人类编程” 进化为 “在人类引导下自主学习编程”。并且,100% 的工作岗位都会发生变化,但不会有 50% 的岗位消失。未来的趋势不会是就业岗位减少,反而是大家会变得比现在更忙碌。并且,那些现在没有工作的人,很可能会因为 AI 获得谋生的手段。

 

网友们纷纷就此次访谈对黄仁勋评价道,“我从未见过他如此坦诚直率,真是不可思议。”

 

以下是详细对话内容,我们在不改变原意的基础上进行了翻译和删减,以飨读者。

“走了整整 33 年才看到成果”

Jodi Shelton:大众其实特别好奇像你这样的人,毕竟你们正在定义科技的未来,而科技的未来就是整个世界的未来。所以我们想做的,是挖掘你成功光环背后的个人经历以及支撑你走到今天的价值观。你对这个定位怎么看?

 

黄仁勋:说实话,不太喜欢。

 

Jodi Shelton:真的不喜欢吗?可你现在是名人啊,大家都想了解名人的故事。

 

黄仁勋:我从不觉得自己是名人,也根本不是什么名人。我只是恰好执掌着一家举足轻重的企业,是这家堪称史上最成功的科技公司之一的 CEO。很早以前,我们就做了一些正确的决策。回溯到 1993 年,我们就立志要重塑计算行业,而且对于计算机的架构,我们有着自己独到的见解。在很长一段时间里,这个观点都不被看好,甚至颇具争议。要知道,当时整个行业的焦点都在微处理器和 CPU 上。说起来,我和你就是在那个时期认识的。我们早在 1993 年底或者 1994 年就相识了,对吧?从那时起,英伟达就在做我们现在依然在做的事:重塑计算。

 

Jodi Shelton:没错,我记得很清楚。那时候的硅谷,正处在 CPU 为王、摩尔定律大行其道、个人电脑革命如火如荼的年代。

 

黄仁勋:是啊。而且我们早期的客户,全都是 PC 芯片组领域的初创公司。这些企业可以说是半导体行业辉煌版图的奠基者,像 Cirrus Logic、S3 Graphics、Western Digital、Trident Microsystems,你还记得这些名字吗?

 

Jodi Shelton:当然记得。

 

黄仁勋:这些公司,称得上是英伟达的 “前辈”。而现在,我们依然在这条路上前行,致力于打造一种全新的计算模式。这条路,我们走了整整 33 年才看到成果。我只是恰好成为了这家公司的 CEO,仅此而已。

 

Jodi Shelton:可能对你来说,这一切是水到渠成,但对整个世界而言,英伟达的崛起堪称横空出世。大概从 2023 年 11 月起,整个世界的科技格局都因你们而改变。你是怎么看待这次转型的?

 

黄仁勋:要知道,想要创造未来,就必须在未来到来之前,先置身于未来之中。坦诚地说,从我们发明 CUDA 技术、推出相关产品的那一刻起,就已经踏上了通往未来的道路。英伟达最让我骄傲的一点是:我们不仅擅长技术发明,更擅长把技术转化为产品推向市场。世界上有太多的公司、科研人员和发明家,他们确实创造出了先进的技术,但最后往往只能感慨 “这个技术我早就做出来了”、“这个想法我早就有了”。每次听到这种话,我都觉得很惋惜。这些优秀的发明家,遗憾的是没能遇上同样优秀的产品创新者。

 

所谓产品创新者,就是能把一项技术发明转化为一款能推向市场的成熟产品的人。而这还不够,你还得为产品制定精准的市场策略,甚至需要亲手培育出一个全新的市场,让市场能够接纳你研发的产品和制定的策略。英伟达就是这样一家公司,我们具备技术发明、产品创新、策略制定、生态构建乃至市场培育的全链条能力,而且我们已经多次成功做到了这一点。所以对我来说,这种 “身处未来” 的状态,已经持续了很长时间。

 

Jodi Shelton:确实如此。

 

黄仁勋:很久以前,我们有一个战略,现在已经不怎么提了,叫 “CUDA 无处不在”。很多人都听过我当年四处推广 CUDA 的故事,跑遍各大高校、初创企业和成熟企业。有时候,台下听众加起来也就三个人,但我还是会掏出笔记本电脑,为他们演示 CUDA,告诉他们这项技术将如何改变世界。我走访了无数科研机构和实验室,参加了数不清的行业会议,推广 CUDA 的次数,估计比世界上任何人都多。长久以来,我一直沉浸在这样的 “未来图景” 里,讲的故事多了,甚至会产生一种 “未来已经到来” 的错觉。

 

Jodi Shelton:确实有这种感觉。

 

黄仁勋:所以现在看到这一切成为现实,我依然满心欢喜。而且在我看来,这一切其实并不意外,因为支撑英伟达发展的是计算机科学领域最根本的底层逻辑,不是靠一时的直觉,也不是凭主观的喜好。从很多方面来说,如今的成果是一种必然。但我想说的是,当你把一件事物的速度提升一千倍,或者规模扩大一千倍、体积缩小一千倍时,无论这件事物原本是什么,都会发生质的飞跃。而这种质变最终带来的结果,往往是超乎想象的。

 

我们早就预见到深度学习技术有着巨大的扩展潜力,这也是我们举全公司之力押注这一领域的原因。我们知道,AlexNet(深度卷积神经网络)绝不会是深度学习的终点,这种技术架构天生具备极强的可扩展性,再加上全球海量的数据资源,深度学习的爆发是水到渠成的事。不过我当时也清楚,有一项技术会成为我们前进路上的障碍,那就是无监督学习,或者说自监督学习,也就是让计算机摆脱人工标注数据的束缚,实现自主学习。因为人工标注数据的效率,迟早会成为技术发展的瓶颈。而当无监督学习技术取得突破的那一刻,我就知道,我们的时代来了。

 

就在不久前的投资者路演上,还有人跟我说,我当时就明确跟他们提过这场 “质变”。如果你去回看当时的财报电话会议,就会发现每当谈到对世界至关重要的技术话题时,我都会把这一点讲得非常透彻。在每一场投资者路演,在每一个我演讲的场合,我都会强调这个观点。如今,无监督学习技术确实取得了重大突破,深度学习的规模效应也彻底释放出来,我们才算真正驶入了发展的快车道。但即便如此,这项技术如今能解决的问题,依然让我感到惊喜。我们早就预料到技术会发生质变、计算平台会迎来变革,但我们没想到,变革的成果如此丰硕。

 

我们现在能够解读蛋白质的 “语言”、细胞的 “语言”、量子的 “语言”,能够读懂世间万物的各种表征形式。过去我们用来描述信息的方式,如今正在被彻底重塑。从几何图形、纹理材质到如今的 3D 高斯和 3D 点云,信息的呈现形式日新月异。这种感觉就好像人类突然变得无比聪慧,连英语这种语言体系都随之改变了。我们不再沿用过去的词汇、语法和句式,因为我们的智慧已经进化到了一个全新维度,能够用一种全新的方式进行交流。或许未来人类的交流方式会变成简单的 “嘀嘀嗒嗒” 的信号声。这让我想起了电影《降临》里的场景,人类突然开始用抽象的图形进行沟通,仅仅通过图形就能传递海量的信息,实现更深层次、更高效率的交流。

 

最不可思议的是,我们现在解决的很多问题在过去是完全无法想象的,而且解决问题的速度也远超以往。过去我们常说摩尔定律,而现在英伟达的发展速度完全可以用 “英伟达定律” 来形容,比过去快了整整一千倍。未来十年必将是波澜壮阔的十年,光是想想就让人无比兴奋。

 

Jodi Shelton:要做到你所做的这些事,要能够预见未来,并且坚信未来一定会到来,需要何等强大的自信啊。就像你之前说的,我们 1994 年就认识了,这么多年来,你一直都是这个样子。

 

黄仁勋:是啊,我记得很清楚。

 

Jodi Shelton:那时候我才二十几岁。你应该比我大一点吧?

 

黄仁勋:当时我差不多 29 岁,快 30 岁了。

英伟达有 61 位“CEO”,从没有人因犯错而被解雇

Jodi Shelton:我还记得我们第一次见面的场景,当时我是为了给杂志写稿采访你。我问你:“黄仁勋,硅谷人才流动频繁,很多人来了又走,你会担心这个问题吗?” 毕竟当时很多 CEO 都在抱怨这件事。而那时你才 29 岁或 30 岁,你是这么回答我的:“英伟达既不是教堂,也不是监狱。想来的人可以来,想走的人也可以走。” 我当时听完特别震撼,心里想着:“这个人到底是谁啊?” 年纪轻轻,却有着如此的自信和智慧。我还听过一个类似的故事,张忠谋( Morris Chang)第一次见到你的时候,你当场就说:“我会成为你最大的客户,至少也是最大的客户之一。” 他当时的反应是:“哇,这小伙子可真有魄力。” 所以我很好奇,你这么年轻的时候,这份自信是从哪里来的?

 

黄仁勋:哈哈,你要知道,什么都懂其实也挺痛苦的,我开玩笑的。对了,张忠谋要是知道英伟达现在是台积电最大的客户,一定会很开心的。

 

Jodi Shelton:那是肯定的,他肯定会为你感到骄傲。

 

黄仁勋:我也为他感到骄傲。要知道,在个人电脑革命时期,英伟达就曾是台积电最大的客户。如今,我们再次成为了他们最大的客户,对此我感到非常欣慰。言归正传,我觉得一个人必须坚信自己所相信的东西。而且这份信念,不能建立在道听途说之上,不能因为别人说了什么,你就去相信什么。你必须认真思考,梳理出自己相信这件事的逻辑,并且把这些逻辑拆解成可靠的底层原则。之后,你还需要定期检验这些原则,确保你所秉持的信念、所付诸的行动,都是建立在坚实的基础之上的。

 

如果这个基础不够稳固,或者因为某些原因发生了变化,那就说明它可能并非真正的底层原则 ,也许它并没有锚定在物理规律或客观事实之上。一旦出现这种情况,你就要重新评估,然后及时调整方向。我一直都是这样做的。而且,如果你真心相信一件事,就应该付诸行动去实现它。我从 1993 年起就坚信我们正在做的事情,直到今天,这份信念依然没有改变。正因为坚信不疑,所以我才会不断地推演,不断地在脑海里进行逻辑梳理。我会持续复盘过去的决策,也会不断预判未来的趋势。

 

就像昨天我们开了那么多场会议,每场会议上,我都会重新梳理我们一路走来的逻辑。你会发现,过去的那些假设,有些是正确的,但也有些是错误的。正是因为我们足够灵活,能够根据实际情况及时调整方向,才最终走到了今天。所以,时常回头复盘、重新推演过往的决策,是一件很有意义的事,它能帮你更好地锻炼向前推演的能力。正因为我一直坚持这样做,所以我始终活在自己认定的真相里。直到现在,我依然觉得自己只是英伟达的一名员工。我非常在乎这家公司,但公司里有很多人都和我一样,对这家公司倾注了深厚的感情。

 

在一家治理完善的公司里,CEO 的角色定位是很明确的。CEO 需要向董事会汇报工作,而董事会则要对股东负责。如果 CEO 的工作表现没有达到董事会的预期,不管董事会有 12 位、13 位还是 15 位成员,他就会被解雇。所以说,CEO 其实也是公司这个组织里的一名员工。这就是为什么我说,英伟达既不是教堂,不是想来就能来;也不是监狱,不是想走都走不了。这种心态能让你始终保持脚踏实地,保持谦逊,保持锐意进取的状态,因为你必须每天都努力,才能对得起自己的这份工作。

 

有时候会有人问我:“黄仁勋,你热爱自己的工作吗?” 我会告诉他们,我并非每天都热爱这份工作,但我每天都会全力以赴去做好它。我觉得,这种态度源于两个方面:第一,我坚信自己是这份工作的最佳人选;第二,我必须每天都努力,才能配得上 “最佳人选” 这个身份。

 

Jodi Shelton:在大家眼里,你就是英伟达的代名词,英伟达就是你。这么多年下来,你已经和这家公司深度绑定了。

 

黄仁勋:我应该是英伟达内部被拍照最多的人吧。

 

Jodi Shelton:没错。不过,要是将来换了新的 CEO,这个人真的能接好你的班吗?

 

黄仁勋:世界上不会再出现第二个我这样的 CEO 了。原因很简单,我是被这家公司一步步培养起来的。刚创立英伟达的时候,我对怎么当 CEO、怎么做战略规划、怎么打造产品、怎么开创一个全新的行业,一窍不通。我只知道怎么融资,却不懂怎么和股东沟通,不了解股东、政策制定者、各国领导人以及企业管理者的想法,也不知道该如何把握员工的心态、如何打造企业文化,甚至连 “企业文化” 这个词到底意味着什么,我都无法准确界定,让我制定公司战略那更是天方夜谭。这就是我第一天接手工作时的真实状态。而在过去的 33 年里,我在这些领域都一步步做到了得心应手。

 

如果说这个世界上有谁能称得上是 “企业战略宗师” 或者 “行业开创者”,那这个人大概就是我这样一个小个子。我把自己的整个职业生涯都投入到学习这些能力上,而且我本身就是个好学生。除此之外,我对这份工作的投入程度和深厚感情,是很难通过招聘来复制的。在我心里,英伟达就像我的孩子一样,我对它倾注了全部的心血。我的家人也陪着我一起,为这家公司的成长付出努力。这种对公司的特殊情感,是很难被替代的。毕竟 33 年来,我见证了英伟达的每一次成功、每一次失败、每一次挫折,亲历了它做过的所有明智决策,也目睹了它犯下的各种错误。这种对公司的深刻理解和情感联结,不是随便招一个能力出众的人就能替代的。

 

不过从另一方面来说,英伟达的管理团队架构其实早就做好了准备。我现在有将近 60 位直接下属,他们中的每一个人,放到其他公司都能胜任世界级 CEO 的职位。我总是当着他们的面推演各种决策逻辑,我的每一个决定,都是在他们的注视下做出的,我会把背后的思考过程原原本本地讲给他们听。公司的每一次成功、每一次挫折、每一个挑战、每一场困境,我都会和他们一起复盘。所以从某种意义上说,英伟达其实有 61 位 “CEO”。他们每个人都对这家公司饱含深情,很多人已经在这里奋斗了 33 年。我认为,英伟达的成长模式是独一无二的,这也造就了它无可比拟的韧性。

 

Jodi Shelton:显然,你搭建的这套管理架构在行业内已经成了一段传奇,所有人都在谈论你这近 60 位直接下属。要让这样的架构顺畅运转,这些人肯定都得是万里挑一的顶尖人才。

 

黄仁勋:没错。

 

Jodi Shelton:他们不光要头脑聪明,毕竟硅谷从来不缺聪明人,更得是适配英伟达的顶尖人才。

 

黄仁勋:确实如此。

 

Jodi Shelton:那你能不能跟我说说,你是怎么筛选和培养这些人才的?另外,我记得你有个原则,找不到合适的人,就宁可让职位空着。我想到了 Colette Kress 的例子,你当时面试了 22 位首席财务官候选人,最终才选定了她。现在她在华尔街已经是一位传奇人物了。你当初是怎么选中她的?你选拔这类核心人才的标准是什么?

 

黄仁勋:在我看来,宁让职位空着,也不能让不合适的人占着位置,所以我从来不会急于招人。就算 CEO 的位置暂时空缺,或者某个副总裁职位没人接任,公司的运转也不会停滞。只要你坚信这一点,坚信 “空位胜于错配”,你就有足够的时间去寻找那个真正合适的人。这个合适的人选,需要满足很多条件,其中很重要的一点,就是你得发自内心地欣赏他、认可他。

 

我记得 Colette Kress 入职第一周的时候,就问过我:“黄仁勋,你希望我在首席财务官这个岗位上干多久?” 我告诉她:“只要我们还活着,只要死亡不将我们分开,你就一直干下去。” 因为任何其他答案都是没有意义的。这份工作没有所谓的 “截止日期”,唯一的终点,就是当她觉得英伟达不再适合自己的时候。这个原则不仅适用于 Colette,也适用于我那 60 位直接下属。我愿意为了等待合适的人,让职位空很久。而在这个过程中,公司依然会稳步向前。无论这个空缺的职位对应着什么使命、什么工作,大家都会主动顶上。退一步说,就算没人接手,我也会尽全力扛起这份责任,保证公司正常运转。

 

这就是我的用人哲学,永远不要让不合适的人占据岗位,耐心等待那个对的人出现。经常有人问我,什么样的员工才算优秀员工,什么样的管理者才算卓越管理者。说来奇怪,我其实没有标准答案。因为能走到我面前的人,都足够聪明、足够能干。你随便找一个首席财务官,我敢保证他绝对胜任本职工作。其他岗位的候选人也是如此。在我看来,英伟达之所以能创造奇迹,关键不在于单个人的能力有多强,而在于团队成员之间的 “化学反应”。更重要的是,这源于我们的企业品格。这种品格,才是一家伟大公司的核心竞争力。市面上有很多公司都在做芯片,虽然是英伟达发明了 GPU,但从产量来看,我们其实是全球最小的 GPU 制造商。

 

这话听起来可能有点不可思议,但事实就是如此,很多不知名的厂商,GPU 产量都比我们高。很明显,英伟达的成功,绝不是靠产量取胜。我认为,真正的秘诀在于我们独特的企业文化和企业品格、团队在逆境中凝聚在一起的力量。在外人看来,我们似乎总是一帆风顺,但其实研发 Grace Blackwell 芯片的过程,差点拖垮了整个公司。但我们硬是咬牙扛了过来。这个项目的复杂度和规模都是前所未有的,外界对我们的期望也高得离谱。我们最终不仅达标,甚至超出了所有人的预期,而支撑我们做到这一点的,100% 是企业品格。这不是靠智商,也不是靠勤奋就能实现的,毕竟这个世界上,聪明又努力的人太多了。

 

这种企业品格,是没法通过面试来筛选的。但我始终相信一件事:几乎任何人进入英伟达之后,都会被这种品格所感染、所塑造。这就是我们公司最神奇的地方:我们能够承受挫折,能够直面各种艰巨的挑战,并且一次次从困境中突围。很少有公司的团队能做到这一点。通常来说,当公司遭遇重大挑战后,总会有人因为心存不满离开,或者因为被当成 “背锅侠” 而被解雇。在团队合作中,出了问题总要有人承担责任,这是毋庸置疑的,就像一场球赛输了,我们必须清楚是谁失误丢了球。

 

在英伟达,我们打造了一个足够安全的环境。过去这些年,包括我在内,很多人都犯过严重的错误,这些失误大家都看在眼里,但从来没有人因为犯错而被解雇。久而久之,英伟达就形成了自己独有的文化和特质。这种文化的核心,就是包容、宽恕,以及从错误中学习。对我来说,有两件事至关重要:只要团队里的每一个人,都为了共同的目标拼尽了全力,这就足够了。

敢叫板 20 岁新锐的黄仁勋,也有至暗时刻?

Jodi Shelton:刚才聊到 “痛苦与磨砺” 的理念,你可以再深入谈谈吗?我最近听 Andy Karp 在播客里说,“人生的二十几岁,要么用来享乐,要么用来打拼事业”。你认同这个观点吗?当然,不是每个人都能成为帕兰提尔或者英伟达的 CEO,但对年轻人来说,想要在事业上有所成就,到底需要付出什么?你想给年轻人传递怎样的职业与成功之道?

 

黄仁勋:Andy 很睿智,总能说出一些深刻的人生哲理。不过我对这类说法,倒没那么执念。我一直很佩服张忠谋先生,他一直工作到 80 多岁,思维依然敏锐得像一把刀。如果要在维基百科里查 “大器晚成” 这个词,配图说不定就是他。能在人生最具创造力的阶段,持续奋斗 50 年,这难道不是一件幸事吗?我自己也倾向于这种人生轨迹。对我而言,投身于有价值的事业,远比用后 20 年的时间环游世界更有意义,当然,环游世界本身也没什么不好,只是我现在就已经在满世界奔波了。

 

不得不承认,二十几岁的我,确实更聪明、专注力更强、思维速度也更快。但那个年纪的人,往往缺少一样至关重要的东西,阅历沉淀出的智慧、处理复杂问题的分寸感、制定长远战略的眼光,以及长线思维的能力。这些能力,光靠读书是学不来的。现在的年轻人可以刷短视频,通过共情去感受别人的经历,算是一种间接的经验积累,这种模仿式学习确实有价值。但还有一样东西,是无法通过旁观习得的,那就是坚韧的意志,是直面痛苦与挫折时,懂得如何应对的底气;是熬过精神内耗、挺过煎熬时刻、战胜内心恐惧的勇气。

 

经营公司的过程中,恐惧是真实存在的。我们的决策,关乎数万人的生计。当公司发展不顺时,一个感受不到恐惧、焦虑和脆弱的领导者,反而是不合格的。如果对结果毫不在意,那未免也太冷漠了。而这些真切的感受和应对的能力,只有亲身经历过,才能真正掌握。所以我觉得,两种人生选择没有绝对的对错。年轻时打拼,确实精力充沛,可以熬夜加班,可以付出十倍的努力,更容易早早取得成功。但我现在身上拥有的东西,是三十岁时的我完全不具备的。

 

如今的我,思维速度虽然慢了,但依靠智慧和经验积累的思维模型,能更快地找到正确答案。就算和二十岁的年轻人同台竞争,我也有信心不输给他。他们未必能胜过现在的我。

 

Jodi Shelton:那我们来聊点更私人的话题吧。能不能说说你的童年?哪些高光或至暗的经历,对你如今的性格特质产生了直接影响?

 

黄仁勋:我从来不觉得自己是天赋异禀的人,智商也算不上出众。小时候入学需要参加考试,我当时的成绩确实很不错,那会儿的考试还是全国性的。我记得母亲总是逢人就说,我是个非常聪明的孩子。不管这话是不是真的,她反复的肯定,无形中给了我一种压力,我必须变得足够聪明。这件事让我意识到,无论是为人父母还是做管理,给身边的人或者整个公司设定一个超出常理的高目标,往往能激发他们的潜能,让他们迎难而上。当然,也有人会被这样的目标吓退,但对我而言,这种激励起到了积极的作用。这是我第一个想到的童年片段。

 

另一件事,是关于我母亲的。当年我们学习英语的时候,她其实根本不懂英文,而且我觉得她可能连高中都没毕业。但这丝毫没有妨碍她每天教我们学英语。你可能会觉得不可思议,一个完全不懂英语的人,怎么教孩子学英语?她的方法很简单:买一本韦伯斯特词典,照着单词的拼写规律,写下英文单词,再标注上中文释义,把纸对折做成单词卡,然后逼着我们背下来。我们的发音准不准确,她其实也无从判断。但这件事,让我学到了一个道理:一个人只要有足够坚定的意志,就算暂时不知道该怎么做,也不该停下脚步。很多事情,其实并没有想象中那么难。小时候的这段记忆,我一直记到现在。

 

还有一段经历,是我们搬到肯塔基州之后。我当时是学校里年纪最小的孩子,就读的奥尼塔浸会学院坐落在山顶。每天上学,我都得走下山坡,穿过一条河,再走过一片广阔的田野,才能到达那所小小的学校。那是 1973 年,我是整个镇上第一个出现的中国孩子。镇上的那些孩子都很野,每次我过吊桥的时候,他们都会找我的麻烦。那座吊桥的桥面是木板铺的,有些木板已经缺失了,桥下的河水很深。而那些孩子,就守在桥的另一头等我。那时候我才 9 岁。

 

Jodi Shelton:天哪,才 9 岁。眼前是一条河,一座破吊桥,桥对面还有等着找麻烦的孩子,这简直太糟糕了。

 

黄仁勋:是啊,但我每天都得走这条路去上学。这大概就是童年时期的 “痛苦与磨砺” 吧。每天早上都是这样。下午放学回家后,我还有任务:打扫卫生间。那时候家里的每个孩子都有分工,我哥哥当时 11 岁,他的活儿是去烟草农场干活,而我的工作就是打扫卫生间,每天都要做。

 

Jodi Shelton:你觉得当年那些找你麻烦的孩子,知道你现在的成就吗?

 

黄仁勋:奥尼塔浸会学院的校长最近还发邮件给我呢。他们每年都会给我寄圣诞礼物,知道我喜欢吃肯塔基风味的香肠肉汁配饼干。

 

Jodi Shelton:这个爱好是在肯塔基养成的吧?

 

黄仁勋:没错。我记得我 45 岁生日的时候,家人带我回了一趟母校。当年食堂里做饭的阿姨们居然还健在,特意回来给我做了一顿饭。

 

Jodi Shelton:天哪,这也太暖心了。

 

黄仁勋:真的特别感动。她们给我做了正宗的肯塔基香肠肉汁配饼干,味道还是小时候的样子。

 

Jodi Shelton:你的父母见证了你的成功吗?

 

黄仁勋:当然,他们现在身体还很好,特别为我骄傲。他们对我的事情了如指掌,我父亲会读所有和我相关的报道。要是看到有人说我的坏话,他还会生气。我总劝他别什么都看,不然天天都得生气,别理会那些负面新闻。

 

Jodi Shelton:挺有意思的。现在功成名就了,你会怀念那些还没这么受关注的日子吗?会想念那些平凡的小事吗?比如你很爱车,现在却没什么机会开车了吧?我记得你是我认识的人里,第一个也是唯一一个拥有柯尼赛格跑车的人。

 

黄仁勋:克里斯蒂安・冯・柯尼赛格真是个天才设计师,那辆车太棒了。启动的时候,引擎声和蝙蝠侠的座驾一模一样。而且启动它得按七个步骤,因为动力实在太强劲了,不能随便让别人碰。不过我现在已经没有那辆车了,也确实很少开车了。

 

Jodi Shelton:会想念开车的感觉吗?

 

黄仁勋:有一点吧。我现在还是会关注新车,比如新款的法拉利,每次看到都觉得很惊艳,这些车真的是工程学的杰作。

 

Jodi Shelton:确实很厉害。我去过法拉利的工厂,亲眼看到一辆车从工业器械一步步变成顶级消费品,现在甚至成了艺术品,这个过程太震撼了。

黄仁勋眼中五年后的世界

Jodi Shelton:如果五年后我们再坐在这里,你觉得到那时的世界会是什么样子?哪些变化会让我们最惊讶?

 

黄仁勋:如果我们回归底层逻辑,再结合现实的实用性和技术落地的规律来判断,有几件事是可以预见的。首先,英伟达和整个行业在 AI 领域的投入,必将彻底改变计算机的运作模式 ,未来的计算机,将从 “由人类编程” 进化为 “在人类引导下自主学习编程”。过去我们是手把手教计算机学日语,未来我们只需要告诉它 “去学日语” 就够了。未来的计算机,将能够处理比现在大十亿倍的问题规模。这个变化的影响之大,我们现在甚至无法完全想象,因为提出解决方案是一回事,而能否构想出需要解决的问题,就是另一回事了。很多问题之所以无法被解决,往往是因为我们连如何定义和描述它们都做不到。

 

未来,无论是数字生物学、物理科学、量子物理还是材料科学的复杂难题,都会变得容易攻克。就算是交通拥堵这种日常问题,也能得到极大改善。就拿智能电网来说,现在的电网存在大量能源浪费,AI 会精准计算出所需的能源量,实现按需分配,从根本上避免过度供应造成的损耗。AI 解决这些日常难题的能力,会让人惊叹不已。到那时,每一个科学领域都会被重塑,当下所有的难题都会被技术赋能、迎刃而解。工具的速度提升了,难题自然就显得 “渺小” 了。举个例子,如果飞机的速度能达到 10 马赫,整个世界就会变得 “小” 很多, 喷气式飞机的出现,其实已经让世界变小了。

 

英伟达制造的计算机也是如此,极致的运算速度让所有问题都变得更容易被解决。就像 OpenAI 的研究人员曾经说的:“为什么不把整个互联网的数据都喂给计算机呢?” 因为在算力爆发之后,全球互联网的数据量,突然就显得微不足道了。现在我们看互联网数据,也会觉得体量很小,原因就在这里。这种心态,未来会渗透到几乎所有的科学领域。过去人们会说 “这是个无解的难题”,未来大家只会觉得 “这事儿很简单”。五年后,每一位科学家、工程师、企业家和创新者,都会抱着这样的心态。曾经的难题变得简单,我们就能解决更多的问题。这是第一个必然结果。

 

第二个结果,就是企业的生产效率会实现质的飞跃。今天的难题变成明天的小事,供应链管理会变得无比顺畅,浪费现象基本消失;计算机的设计流程也会简化,我们可以尝试更多的方案。这并不是说我们会每年推出更多的产品,我们还是保持一年一款的节奏,但每一款产品都会经过更多次的迭代优化,最终呈现的成品会比现在好得多。这样一来,公司的效率会更高,利润会更丰厚,所有企业都会变得更赚钱,整个社会的财富也会随之增长。但还有一个值得深思的点:当所有我们能想到的问题都变得可以解决时,我们就会去探索更多新的问题。

 

所以,未来的趋势不会是就业岗位减少,反而是大家会变得比现在更忙碌。因为以前那些被认为 “不可能完成” 的任务,现在都摆上了台面;那些因为成本太高而无法开展的实验,现在都可以去尝试,AI 还会帮我们推进这些实验。只要我们有足够的想象力,所有搁置的难题,都会找到解决的路径。我可以做一个思想实验。现在我工作时,身边围绕着 60 位顶尖人才,而他们每个人又带着数千名精英。这些人在各自的领域里,能力都远超于我,对我来说,他们就像是 “领域内的人工超级智能”。但和他们合作,我完全没有障碍。现在我使用的 OpenAI、Gemini、Grok、Perplexity、Anthropic 这些 AI 工具,在很多方面也已经比我聪明了,但我每天都在和它们高效协作。

 

不过有一个很有意思的变化:以前我给团队布置一个问题,需要等两三天才能得到反馈和答案,这段时间里我可以思考下一步的计划 ,因为我的决策需要基于这些中间结果。但如果这些答案能在一秒钟内就反馈给我,会发生什么?我的工作节奏会变得无比紧凑,因为我会成为所有事情的关键节点。刚得到一个答案,立刻就要推导下一步,马上启动新的实验。你不觉得吗?现在信息技术的提速,已经让我们变得更忙碌了。信息、知识和答案的获取速度越来越快,我们作为决策节点,自然会比以往更忙。我觉得未来很多人都会有这种感受。

 

最后一点,对于那些没能赶上之前科技浪潮的人来说,AI 会填平技术鸿沟。我特别喜欢 “氛围编程” 这个概念,现在任何人都可以成为软件程序员,借助 AI 写出的代码,甚至比很多专业程序员的作品还要好。我很欣赏 Cursor 这家公司的成果,前几天还见到了 Lovable 的 CEO,他是个很厉害的人,他们的公司在瑞典。AI 会帮助那些在自己的领域很有天赋,但不懂如何用技术放大自身能力的人实现能力的跃迁。Lovable 的 CEO 就跟我说过,很多人用他们开发的软件创办了小公司,现在每年能赚 2300 万美元。这太不可思议了。这些人终于能融入全球经济体系,不再被技术门槛挡住去路,这一切都是 AI 的功劳。

 

五年后的世界,大家会拥有更有价值的工作,经济效率会大幅提升,GDP 有望实现增长,劳动力短缺的问题会得到缓解,通货膨胀也会回落。更多的科学领域会被开拓,更多的难题会被解决。当然,也有一些悲观的论调,认为 AI 会让一半的人失去工作。但我觉得,更可能发生的情况是:100% 的工作岗位都会发生变化,但不会有 50% 的岗位消失。而且,那些现在没有工作的人,很可能会因为 AI 获得谋生的手段。

 

当然,我们的技术会发生翻天覆地的变化,但这些技术层面的革新,反而不是最有意思的。五年后,计算机还是计算机,只是应用变得更智能了,本质上还是软件。我们依然会做电商,只是可能不用自己逛网站了,会有智能代理帮我们购物,但商品还是来自亚马逊这些平台。很多事情,其实都会保持原样。最后我还有一个小小的愿望或者说期待:希望我们在机器人和人形机器人领域的研究能结出硕果,希望未来每个人都能拥有属于自己的 R2-D2 和 C-3PO,它们可爱又贴心。就像在 GTC 大会上,我每次都会邀请迪士尼的机器人上台,那些机器人真的太萌了。

 

为什么不让每个人都拥有一个呢?我还希望迪士尼能把这些机器人做成周边商品,它们真的值得。我的宠物猫莫莫和库玛,也需要这样的 “宠物玩伴” 不是吗?我真心希望这个愿望能实现。现在有很多孤独的人,已经有不少人联系过我,希望能拥有可以在家陪伴自己的机器人,尤其是那些独居的老人。机器人能给他们带来陪伴和帮助,而且它们本身又那么可爱,这绝对是我们技术发展带来的意外之喜。

 

Jodi Shelton:如果以后有机器人帮我们做饭、打扫卫生,你还会像现在这样,饶有兴致地看着别人做饭吗?

 

黄仁勋:当然会。原因很简单,我现在完全有能力不用自己做饭,但我还是会选择下厨。我们完全可以雇很多佣人,但我们没有这么做。我和洛里一直都是两个人自己过日子。昨晚她做了墨西哥辣椒肉酱,味道棒极了,全程都是她一个人忙活的。以后我们大概率还会保持这样的生活。对我来说,最幸福的时刻,就是孩子们回家来,我们一起下厨做饭,喝喝小酒,这就是最完美的时光。

 

Jodi Shelton:一家人在厨房里忙活,这种亲密感真的太美好了。

 

黄仁勋:是啊,人生的幸福莫过于此。我们打拼奋斗,不就是为了这样的时刻吗?

“不爱演讲的黄仁勋”:CEO 是公司里最脆弱的一群人

Jodi Shelton:当一切尘埃落定,你希望后人如何记住你?

 

黄仁勋:首先,能被人记住,本身就是一件很幸运的事。我很庆幸,凭借英伟达的成就,凭借我们打造的事业,凭借我们在全球最重要的科技产业:人类最核心的工具 “计算机” 领域留下的印记,英伟达很可能会在我离开这个世界很久之后,依然对这个世界有着重要的意义。我很庆幸自己能和克里斯、柯蒂斯一起创立这家公司,很庆幸自己能一路学习成长,没有成为拖垮公司的那个短板,反而常常是推动公司走下去的一份力量。我们打造的这家企业,对整个世界都有着深远的影响,而不只是局限于某个行业或某个群体。

 

能做到这一点的人,在这个世界上并不多。我很庆幸自己作为创始人,能亲身参与并见证这一切,见证英伟达成长为如今的模样,见证它对全球各行各业产生实实在在的影响。公司里有很多已经工作了 33 年的老员工,他们的人生因为英伟达变得更加丰盈;现在甚至已经有第二代、第三代员工加入我们。我们在全球各地建立了自己的团队,我很荣幸能和这些员工并肩作战,分享他们一路走来的绝望与喜悦、希望与悲伤。这样的经历,并不是每个人都能拥有的。我为我们在中国的团队感到骄傲,为我们在印度的员工们由衷赞叹,也为欧洲、加拿大的团队感到欣慰。我们在加拿大的团队正在不断壮大。

 

我还希望有朝一日,英伟达能把业务拓展到南半球,让更多地区的人们,也能享受到我们今天所拥有的技术成果。昨天我还和人聊起我们在非洲开展的工作,聊到我们应该在拉美和东南亚投入更多精力。我真的为我们公司带来的这些影响感到自豪。所以,人们会怎么记住我?或许,他们会记得我是英伟达的创始人之一,是这家公司的缔造者之一。或许,还会记得我是个好人。

 

Jodi Shelton:这是毋庸置疑的。

 

黄仁勋:他们或许还会觉得,我是个风趣幽默的人,不喜欢端着架子。其实在很多方面,我都算是一个 “不情愿的 CEO”。比起待在公司外面抛头露面,我更喜欢扎根在公司内部;比起发表演讲,我更喜欢安静做事;我甚至一点都不喜欢做主题演讲,但为了公司,我必须去做这些事。我确实是个不太情愿的 CEO,但我绝对是个满腔热忱的英伟达建设者。只要是为了公司发展必须做的事,我都会全力以赴。说了这么多,其实我也不知道,人们最终会如何记住我。

 

Jodi Shelton:我觉得,看到好人获得成功,总是一件令人开心的事。这么多年来,看着你一路打拼,经历起起落落,最终收获成功,我真的由衷地为你高兴。你这一路走来,见过了形形色色的人。

 

黄仁勋:是啊,真的见过了太多人。我想提醒所有的 CEO,没有人能单枪匹马地成功。

 

Jodi Shelton:确实如此。

 

黄仁勋:我们虽然是 CEO,但这个位置总需要有人来坐。如果不是早年大家对我的提携与帮助,比如你一直不遗余力地宣传英伟达还有张忠谋奖带来的认可,这些都对我意义重大。张忠谋奖大概是我人生中获得的第一个真正有分量的奖项,直到今天,它对我来说依然意义非凡。这个奖项以他的名字命名,而且他还亲自参与了评选,这份认可真的让我铭记于心。还有那些和我们合作的企业,他们的慷慨相助,我也一直记在心里。

 

其实 CEO 这个角色,很多时候都需要寻求帮助。我已经记不清有多少次,我是这样开启一段对话的:“我需要你的帮助。” 很多时候,我是真的需要帮助,而且对方往往是唯一能帮到我的人。一路走来,很多人都慷慨地伸出援手,分享他们的知识,教我做事的方法,帮我解决棘手的难题。这或许才是 CEO 这个角色带给我的真正启示,这个职位远比人们想象的要脆弱得多。

 

Jodi Shelton:而且还是一个很孤独的职位,对吧?

 

黄仁勋:确实可能会感到孤独。但我想说,这种孤独更多是存在于我们的内心世界。当你试图解决一些棘手的难题时,往往需要长时间独自思考,自己跟自己对话。公司发展的每一次转型、每一次跨越,每一次我推动公司自我革新的时刻,我都不知道自己独自思考了多少个小时。在那些时刻,你会真切地感受到孤独。但我们也要明白,其实有很多人都希望我们能成功。就像你之前说的,你很乐意看到我成功,我知道你是真心希望我好,而我也同样希望你能越来越好。从这个角度来说,我们其实并不孤单。

 

所以说,CEO 这个职业,是一份充满脆弱感的工作。你无法单打独斗完成任何事,很多时候都需要依赖别人的帮助与善意。或许在外界看来,我们是强大的领导者,但实际上,我们可能是公司里最脆弱的一群人。我经常说,我是公司里唯一一个离开别人的帮助就寸步难行的人。我想,大多数 CEO 应该都是如此。这或许就是这份职业带给我们的感悟:CEO 们,远比他们愿意承认的要更加脆弱。不过对我来说,承认这种脆弱,并不是什么难事。

“没有终极目标” ,才成就了英伟达?

Jodi Shelton:接下来我们用快问快答收尾。你见过的最聪明的人是谁?

 

黄仁勋:这个问题我没法回答。我知道大家心里对 “聪明” 的定义,就是智商高、会解决问题、技术能力强。但在我看来,这种能力早已经成了一种 “通用品”。而且我们很快就能证明,AI 处理这类问题是最轻松的,不是吗?举个例子,以前大家都觉得软件编程是最考验智商的工作,结果呢?AI 最先攻克的领域之一就是编程。所以说,“聪明” 的定义,其实和大多数人想的完全不一样。

 

在我看来,从长远来讲,真正的 “聪明”,是那种兼具技术洞察力与人文同理心的能力,是能够洞察弦外之音、预判未知风险、看透表象背后本质的能力。那些能 “见人所未见” 的人,才是真正的聪明人,他们的价值是无可估量的。这种人能凭借数据、分析、底层逻辑、人生阅历、智慧经验,再加上对他人的感知,敏锐地捕捉到潜在的风险,在问题发生之前就提前规避。我觉得这才是 “聪明”,而且拥有这种能力的人,说不定在学术能力评估测试(SAT)里的分数惨不忍睹。

 

Jodi Shelton:外界对你有什么误解?

 

黄仁勋:这些问题都好犀利啊。首先,我都不知道外界对我有什么印象。

 

Jodi Shelton:比如,大家觉得你喜欢抛头露面,觉得你是个很棒的演讲者,所以肯定很享受做演讲的过程。但你之前已经说了,事实并非如此。

 

黄仁勋:对,完全相反。公开演讲简直让我怕得要死。不是说站在台上的那一刻害怕,而是现在,想到两周后在华盛顿举办的 GTC 大会,我就焦虑得不行。不,应该说,我已经焦虑一个月了。这种事总是让我心神不宁,脑子里时时刻刻都想着,压力特别大。公司内部的会议演讲也让我紧张到极致。因为台下坐的都是对我而言最重要的人,从某种程度上说,这是我做过的最重要的演讲。但这种演讲根本没法准备,我要讲的所有内容,其实都能在网上的某个视频里找到,他们完全可以自己去看。

 

我很讨厌把那些内容重复一遍讲给他们听,因为你绝不会回家对着家人做一场 GTC 主题演讲,对吧?我也不想那样做。演讲内容必须是真诚的、独一无二的、对听众有价值的、有意义的,能给他们带来改变。毕竟我还在领导这家公司,我希望通过演讲达成一定的目标。所以我必须拿出全新的内容,但不到演讲结束的那一刻,我永远不知道最终效果会怎么样。大家都觉得财报发布周我会很紧张,但说实话,我一点感觉都没有。真正让我紧张的,是公司的内部会议演讲。所以外界的这个印象,真的大错特错。

 

Jodi Shelton:你最受不了的事是什么?

 

黄仁勋:在关键时刻,有人不认真听我说话、不理解我的问题,还胡乱回答。尤其是在我们处理非常棘手、非常困难的问题时,我们需要的是事实,是真相。这个时候我提出问题,如果有人答非所问,我会立刻火冒三丈。我实在无法理解,为什么有人意识不到这场会议的重要性?我们正在为一件至关重要的事努力,我们需要尽快找到真相、解决问题。我到现在都想不通这一点,这种情况每次都会激怒我。谁要是想惹我生气,这招百试百灵。

 

Jodi Shelton:这下我们知道怎么让黄仁勋发火了。

 

Jodi Shelton:最后一个问题,是最近有人问我的,我特别喜欢这个问题。如果让你回到 20 岁,你是想回到自己当年的那个年代,还是活在当下的 20 岁?

 

黄仁勋:我会毫不犹豫地回到自己的那个年代。因为我觉得,我们那一代人的 20 岁,比现在年轻人的 20 岁更快乐。我总觉得,每个人都应该拥有一段 “懵懂无知” 的时光,不必从第一天起就背负着全世界的重担。我坚信这一点,没人能说服我。有时候,“无知” 也是一种快乐,甚至是一种超能力。如果当初我知道创立英伟达是一件 “不可能完成的任务”,那今天的英伟达根本就不会存在。事实就是,创立英伟达这件事,本来就是天方夜谭。但当时的我什么都不懂,所以没人能说服我放弃。

 

我觉得,乐观的人都这样,你永远没法说服他们 “这件事做不成”。他们就是这么 “无知”,对现实的艰难视而不见,所以才会充满乐观。这难道是坏事吗?现在的年轻人,过早地接触到了太多信息,变得越来越愤世嫉俗。他们并不是天生就这么消极,而是因为看到的东西太多太杂了。其实大可不必如此。人需要培养内心的乐观精神,需要在心里留存一份善意,学会只看到世界美好的一面。我们得锻炼这种能力。我们那一代人,有更多这样的机会。我们 20 岁的时候,就是这样的,乐观得像超人一样,觉得凡事皆有可能。所以,我肯定会选择回到自己的 20 岁。

 

Jodi Shelton:真是个完美的收尾。无知是福啊。

 

黄仁勋:没错,无知是福,无知也是一种超能力。任何一个想要开启新征程的人,如果不是因为这份 “无知”,他们一早就会因为觉得事情太难而放弃了。我真的很庆幸,自己当年虽然也算勤奋、也算有一些能力,但那份 “无知” 帮了我大忙。我那时候做任何事都抱着一种心态:“这能有多难?” 结果后来才发现,简直难到超乎想象。你根本没法想象。你看看我今天建立的这一切,如果当初我就知道前路会有这么多艰辛、这么多挫折、这么多失望,把这些困难全都摆在我面前,我绝对不会去做的,绝对不会。所以说,“无知” 真的是一种超能力。

 

还有一种超能力,就是“没有终极目标”。英伟达就没有什么终极目标。总有人问我:“黄仁勋,你的计划是什么?” 我们没有计划,“活下去” 就是我们的计划。我们对未来的世界有憧憬,我们会畅想技术会如何改变世界,但我们 100% 的计划,就是让公司一直运营下去。以前也有人问我,现在也经常有人问:“黄仁勋,你的人生目标是什么?” 我没有什么人生目标,就是想一直工作,一直有事可做,能和一群优秀的人一起做有意义的事。这就是我的目标。

 

所以说,从很多方面来讲,“没有终极目标” 这一点,对英伟达的发展真的起到了至关重要的作用。

 

参考链接:

https://www.youtube.com/watch?v=8FOdAc_i_tM

前言

Apple Intelligence,又称 Apple 智能,俗称「苹果 AI」,发布(WWDC24,2024 年 6 月)已有一年半的时间,从 iPhone 15 Pro 系列开始境外开发者 Beta 测试,到 iPhone 16 全系以 AI 作为主要卖点时国行仍为「为 Apple 智能预备好」状态,再到 iPhone 17 全系国行激活数量超千万(2025 年 11 月),目前国行 Apple 设备依旧停留在「为 Apple 智能预备好」的阶段。

考虑到 2025 年 11 月底 Apple 短时间内上线又下线的简体中文 Apple Intelligence 问卷,以及各路小道消息暗示 Apple Intelligence 上线国行 Apple 设备的前期工作已经接近尾声,也是时候再来聊聊 Apple Intelligence 了。

目前在国行设备上「体验」Apple Intelligence 的方式有限,由于 Apple Intelligence 在国行设备的长期缺席,大多数用户只能通过有限的视频演示或是图文介绍等方式了解,对其认识可能不够系统、全面、客观,甚至存在一些误区;国行 Mac 可以通过脚本启用 Apple Intelligence,但过程中需要关闭系统完整性保护(SIP),也可能会给系统带来风险,这种方法对普通用户而言存在一定的操作门槛;Misaka26 利用已知漏洞,可以在 iOS/iPadOS 26 Beta 1 及更低版本的设备上,修改销售地区和型号版本来启用 Apple Intelligence,但此举会导致设备面临概率性变砖、丢失全部数据、失去保修等风险,且该漏洞已在 iOS/iPadOS 26 Beta 2 上修复。

故通过以上方式开启了 Apple Intelligence 功能的国行设备暂不在本文的讨论范围。


本文旨在尝试用通俗易懂的语言,从技术角度出发解释 Apple Intelligence 的设计架构、选型合理性以及现阶段所面临的困境,尽最大可能为大家提供一个更全面、更系统理解 Apple Intelligence 的视角。

Apple Intelligence 的架构

虽然本文并不是要介绍「什么是 Apple Intelligence」,但要正确理解 Apple Intelligence 我们还是不可避免地要看看它的架构,最直观、最高效的呈现方式是下图:

Apple Intelligence 架构图

上图比较复杂,又非常重要,快速提炼一下:左半边是设备端侧(On-device),右半边是云端服务器(Servers)。

左半边设备端中间的「个人智能系统」(Personal Intelligence System),由三部分组成:语义索引(Semantic index)、App 意图工具箱(App Intents Toolbox)和端侧模型(On-device Models)。

语义索引能够更深入地理解和利用用户的个人数据。这项功能通过创建一个语义索引库,将用户的照片、日历事件、文件、邮件和消息等信息进行组织和索引。通过语义索引,可以实现智能搜索和信息提取。

App 意图工具是面向开发者用于定义配合 Siri、快捷指令或其他系统与 App 功能交互使用的动作。

端侧模型又分为语言模型和图像模型,其中多个小块是语言模型和图像模型被微调为用于不同的任务的微调模型。

引用自知乎,有调整。

注意,「个人智能系统」虽然实际由语义索引、App 意图工具箱和端侧模型三部分组成,但为了下文方便表述我们暂且将它们用「端侧模型」一个词来指代。

不难发现,一些误区例如「Apple Intelligence = 接入 ChatGPT」「Apple 与 Open AI ChatGPT 合作才推出了 AI 功能」中的 ChatGPT,其实压根儿不是 Apple Intelligence 的组成部分,至少不是狭义上 Apple Intelligence 的组成部分。

那么 Apple 为何如此设计 Apple Intelligence?Apple 所指的设备端侧和云端又是怎样分工、怎样协作的?下文将逐步回答这些问题。

个人智能的愿景

要讨论 Apple 为何如此设计 Apple Intelligence,我们必须先探讨 Apple 试图解决什么问题。

在 Apple 的视角里,2023 年(Apple Intelligence 发布的前一年)的 AI 浪潮虽然喧嚣,但当时的 AI 工具对普通用户而言,普遍存在三个主要的体验断层:

  • 「AI 孤岛」造成的数据割裂。2023 年的 AI 在形式设计上大多无外乎两种——独立的 App 或网页,当你需要 AI 帮你处理工作时,你需要把邮件里的内容拷贝出来粘贴给 AI,再将 AI 的回复拷贝粘贴回邮件。
  • 缺乏个人语境。如果一位用户尝试询问 ChatGPT 自己下午是否有空,ChatGPT 将无法回答,因为 ChatGPT 之类的 AI 并没有获取个人日历日程的权限,也不认识用户的朋友或是同事,通用模型拥有海量的世界知识(World Knowledge),但对于用户本身却一无所知。
  • 「隐私焦虑」与「云端算力」存在矛盾。承接上一点问题,用户如果需要获得通用 AI 的智能,则需要牺牲一定的隐私数据上传云端。

Apple 在意的是用户体验的连贯性、软硬结合以及用户隐私保护,因此自然不会满足于已有的 AI 方案。不久前微软 Windows 部门的高管表示要进一步推广 Copilot,将 Windows 打造成「智能体操作系统」(链接)。这一言论引来了大波用户的批评和反对,也证明强行将「聊天机器人」式的 AI 大模型同操作系统各处随意缝合并不是可行之路。

客观上来说,AI 算力设备采购不足以及从 Google 转来的前机器学习与 AI 策略主管 John Giannandrea,彼时并未深度融入 Apple 团队、与 Apple 文化/理念不合,也导致了 Apple 难以拿出与竞争对手匹敌的云端大模型;但或许也是「塞翁失马」,大模型方面的弱势促使 Apple 进一步深入技术、仔细思考「什么才是普通用户都想用的 AI」这个问题,避免了重复造「大模型」轮子。

针对问题解法对模型的要求
「AI 孤岛」造成的数据割裂在系统各处无缝集成规模小而精
「通用 AI」缺乏个人语境在上一点基础上建立基于设备的语义索引(Semantic Index)。理解语言、理解屏幕上的内容、日程以及照片库等多模态
「隐私焦虑」与「云端算力」的矛盾创造一种全新的计算架构。在本地能解决的绝不上云;必须借助云端服务的,则设计一种不留存数据的私有云计算系统以端侧模型为主

在明确了针对问题的对应解法,以及对于 AI 模型的要求之后,我们不难发现:即便基于现有的 AI 大模型方案稍加改良修剪,也无法满足 Apple 的需求。从零开始打造 Apple Intelligence 势在必行。

于是 Apple 选择避开与科技巨头在通用大模型参数上的军备竞赛,转而利用其在芯片、操作系统和隐私安全上的自身优势,去构建一个服务个人、与系统深度集成、端侧优先、隐私至上的混合 AI 架构。Apple Intelligence 没有追求万亿级的参数量,而是选择一条更为艰难但务实的道路:端云协同、以端为主。

可以说 Apple 是用短期技术上的劣势,去验证长期上「个人智能」使用场景路线的可行性。

Apple Intelligence 设计的合理性

Apple 选择将端侧模型作为主力,那么现在的 Apple Intelligence 设计合理吗?

要回答这个问题,我们应该要关注 Apple Intelligence 是否达成了上一节提及的、解决 AI 大模型弊病的目标。

设计目标在实现上的合理性

首先是与系统各处的无缝集成。

目前,写作工具可以在几乎所有地方(有文本框的地方)唤出使用、智绘表情几乎能在所有可以发送 emoji 的位置创作 Genmoji,信息、邮件、备忘录、照片以及提醒事项等众多第一方应用都能见到 Apple Intelligence 的影子。用户不需要为了使用 AI 而打断当前的工作流,AI 不再是喧宾夺主的中心,而是「如影随形」的辅助。

第二是多模态。

写作工具、通知总结、邮件智能回复等功能代表 Apple Intelligence 处理文本内容方面的能力,而图乐园、智绘表情、图像魔法棒等则意味着图像内容的能力。然而语义索引功能,即 Apple Intelligence 最重要的功能之一——基于个人场景的情景智能迟迟未能上线,的确令人失望。

第三是全新的计算架构。

在文章开头我们了解到 Apple Intelligence 中间是「个人智能系统」层,主要有「端侧模型」和「云端模型」两部分,且这两部分都是由 Apple 开发并运行在搭载 Apple 芯片的用户设备/Apple 服务器上;同时我们又已知 Apple Intelligence 能本地解决就不上云的策略,端侧模型能够保证个人数据全部在本地处理,并不会被上传到云端遭受数据泄露的风险。

这里一个最典型的例子是,前段时间基于努比亚 M153 的豆包手机助手技术预览版技惊四座,但频繁截图上传服务器推理的运作方式也令大量用户质疑其隐私安全性。在科技媒体 Android Authority 近日对 ARM 的采访中,ARM 高管 Chris Bergey 也完全认同基于端侧 AI 发展方向。

如果用户最关心的操作无法在本地解决,那 Apple 又是怎么设计云端的呢?这里就引出了 Private Cloud Compute(私有云计算,下文简称 PCC)。

PCC 不是普通的云端大模型,而是一个在硬件层面复刻了 iPhone 安全机制(如 Secure Enclave,安全隔区)的服务器集群。当数据被发送至 PCC 处理复杂任务时,数据是「阅后即焚」的。服务器不保留日志、不存储数据,Apple 的工程师没有权限查看。

Apple 甚至开放了 PCC 的镜像供安全研究人员审查。另外,在用户需要请求 ChatGPT 时,系统会弹窗让用户主动确认,尽最大可能保障用户的隐私安全。这种将隐私保障从「政策信任」提升到「代码与架构信任」的做法,目前在业界应该是独一无二的。

此外笔者认为,结合端侧 AI 功能的技术需求和 Apple 自身的价值观至少这两方面的因素来看,Apple Intelligence 的设计还有以下几点值得讨论:

  1. 不强制依赖网络,各种状态下都能实时响应
  2. 响应/处理速度
  3. 用户的学习成本
  4. 端侧模型的规模与算力/功耗需求
  5. 商业模式的可持续性

这些内容分别对应端侧需求在实现上的合理性、易用性上的合理性、架构设计与伦理上的合理性以及商业上的合理性,下文将逐一展开。

端侧需求在实现上的合理性

首先是实时响应。

实时响应就要求模型能够离线使用、不依赖于网络,这就意味着模型必然是运行在本地的。这样的设计使得用户免受因网络这种外部因素的干扰,保障体验的一致性和连贯性,消除「连上网络是人工智能设备,断开网络就是智障设备」的可能。

第二是响应速度。

这一点需要与 Apple Intelligence 所能够解决的问题或是使用场景结合来看。例如通知总结、邮件总结这类实时性要求高的功能,端侧模型可以自动完成,用户无需介入,整个体验是无感的。

这类需求如果交给云端大模型去做就会面临需要联网、排队、推理、回传等问题,尽管得益于云端模型更大的规模,其生成结果的准确度会更高一些,仅仅为了提升一点准确度要牺牲大量响应时间,即便抛开整个链路的延迟不谈,从技术角度而言也是不合理的——让一个千亿甚至万亿参数的模型去判断你的通知是否重要、如何总结,不仅是算力的极大浪费(大材小用),更涉及复杂的上下文传递。

故在此处云端模型的综合用户体验反而是更差的。

易用性上的合理性

本节讨论用户的学习成本,或者说上手使用的难度。在探讨这个话题前,我们不妨简单讨论一下如何利用好 AI。你肯定看到过或听说过以下故事或情景:

  • 使用不支持多模态的大语言模型处理图像问题。
  • 所有提问都开启「深度思考」功能。
  • 完全相信 AI 生成的全部内容。
  • 忽略 AI 模型 训练所采用数据集/知识库 的日期截止时间。
  • ……

导致上述问题的原因可能并不完全在用户,某些 AI 模型/工具本身的设计也是一方面的因素。目前的 AI 潮流强迫用户学习一种新语言——Prompt(提示词)。这不仅增加了认知负荷,也违背了「科技应当服务于大多数人」的初衷。

这反映出云端大模型的特点:能力上限高、使用难度/充分利用的难度高。

我们说通常如果一个人向他人提出问题,往往具备一定思考、描述更加详细全面的问题会有更高的概率获得更详细更高质量的回答。(如何提出更高质量的问题?这里建议阅读「提问的智慧」,虽然「提问的智慧」起初面向程序员编写,但其中的提问思维则可以供各行各业的人士学习。)

这样的道理对于 AI 大模型来说同样适用。即提示词的质量很大程度上会影响 AI 模型输出回答的质量。例如以下两种提示词:

污水处理厂有哪些种类?
请从污水处理厂处理污水的种类、采用的污水净化技术、处理厂的规模等方面介绍一下污水处理厂有哪些种类。
两种提示词的回复对比图

我们可以直观地看到更详细的提问会收获更详细更优质的回答。

又比如 Google 最近推出的令人惊叹的全新图像生成模型 Nano Banana Pro,在此可以给出两个用于生成自行车部件爆炸图(立体装配图,用于示意自行车各零部件的组成和组装的方式)但描述详细程度完全不同的提示词供大家测试:

请生成一张自行车部件爆炸图。
生成一张自行车车架和组件的爆炸视图,技术蓝图风格,采用蓝版印刷,以毫米为单位注释测量值,齿轮和链条已拆卸,透视图,干净的线条,白色背景,16:9比例。

不幸的是,现实中许多人并不一定擅长将自身需求描述清楚,在这样的情况下很难指望 AI 模型输出高质量的结果。因此云端大模型(尤其指「聊天机器人」式的依赖提示词驱动的 AI)并不适合所有人使用。对于大众用户而言,低学习成本的 AI 才是最好的 AI,要求所有人都写长长的提示词可能并不是现代个人 AI 助手的正确发展方向。

目前 iOS 设备已在全球售出超 20 亿台,iOS 覆盖的用户群极为庞大。尽管这其中并非所有设备都支持 Apple Intelligence,但 Apple Intelligence 有潜力触及到的用户规模仍在不断增长。要为世界级用户规模的操作系统无缝地集成 AI 方面的能力,就必须赋予易用性很高的优先级。

事实确实如此,我们看到 Apple Intelligence 是生长在系统里的,不需要用户费尽心思编写提示词。Apple Intelligence 将 AI 能力拆解为具体的 UI 控件。例如在邮件应用中,它并不是给用户一个对话框让用户输入「帮我把这封信的语气改得更专业」,而是直接提供了一个 [重写] 或 [专业的语气] 的按钮;而在邮件的快速回复中,AI 已经提前阅读了对方发来邮件的内容,并针对可能的回复内容设计了易于选择的选项,用户只要快速点选几个选择就可以得到大差不差的一篇智能回复;又譬如图乐园 App,用户不需要编写冗长的生图提示词,而是可以在上方直接选择生图风格、下方选择内容主题,如需为图片添加更多细节,只需在下方简单输入几个关键词即可。

架构设计与伦理上的合理性

通常 AI 模型会对内存、算力提出很高的要求,功耗也是端侧运行模式下重要的考虑因素。Apple 的做法不是加载一个巨大的通用模型,而是先加载一个核心底座模型(Base Model),然后根据任务动态挂载微小的适配器(Adapters):需要处理文本时,系统加载「写作适配器」;涉及图像处理时,系统加载「图像适配器」。

这样的做法有效避免了庞大模型在内存中的长时间驻留,节省了系统内存占用,又有可控的能耗表现。

在将 AI 封装为确定功能选项实现 AI 易用化的同时,Apple Intelligence 虽然损失了 AI 的多种可能性,但同时也给用户带来了可控性。这种可控性使得 Apple Intelligence 符合伦理、避免幻觉(参考 Google AI 曾建议用户「吃石头」、微软警告用户 Win11 的 AI 智能体可能出现「幻觉」现象),也降低了被注入攻击的风险,是一种克制下的安全。

事实上,Apple 在生成式内容上表现得非常谨慎,更多聚焦于「改写」、「总结」已有信息,而不是「凭空创作」。作为拥有超 20 亿活跃设备的厂商,用稳健的 AI 策略来避免 AI 胡言乱语可能更加稳妥。对于面向大众用户的产品而言,也许「不出错」比「惊艳但会发疯」更重要。

商业上的合理性

最后浅谈一下 Apple Intelligence 的商业策略。

在 AI 的大潮下,大量企业都在亏钱做 AI。这是由于大部分企业都押注大模型、云计算,例如 OpenAI 和 Google 为了应对不断增长的请求,需要不断扩展服务器计算卡的规模,同时负担持续上涨的电费;不仅如此,OpenAI 还在用户侧限制使用额度、推出更为细分的 Plus(20 美元/月)和 Pro(200美元/月)计划,不断提高 AI 的入场门槛。

而 Apple Intelligence 的架构设计则可能形成目前最为可持续的 AI 商业模式。Apple Intelligence 的计算主力在用户端,即用户设备中的 Apple 芯片。这使得 Apple 能够专注于 Apple Intelligence 本身的功能开发,并以极低的边际成本提供 AI 服务。即便 Apple Intelligence 也有私有云计算服务,相比起纯云端 AI 服务供应商,Apple 也不需要在云端服务器方面持续大量烧钱。

有报道称,OpenAI 正在试图构建属于 ChatGPT 的应用商店,通过将第三方 App 能力接入到 ChatGPT 的形式,用户可以让 GPT 完成原先需要手动操作的功能。然而目前接入到 ChatGPT 的应用数量比较有限,许多已经接入的应用与大模型配合工作的效果也不太理想。而时至今日 Apple 的 App Store 已经坐拥数百万款 App,如果 App 的开发商能够适配 Apple Intelligence 未来的情景智能功能,Apple 的各系统平台更有机会在更短的时间内形成一个 AI+App 的生态。

OpenTable出现错误
GPT 使用 OpenTable 时出错

另据多方媒体消息,OpenAI 也在积极开发各类硬件产品,意在融入公司已有的 AI 能力,试图将旗下的 AI 推广至更广阔的用户群体。这似乎暗示了软件或服务必须要依赖硬件载体才能获得更好的发展。软硬结合对 Apple 来说则是一贯的强项,Apple Intelligence 的定位是服务好系统、服务好硬件的务实功能,而不是用于拉高公司市值的叙事手段。

Apple Intelligence 可以依托既有的成熟硬件(iPhone、iPad、Mac 等)、成熟系统(iOS、iPadOS、macOS 等),通过系统更新就能实现更广的覆盖和更高效的用户触达,降低了用户使用的门槛;同时 Apple Intelligence 又融于系统的方方面面,它不仅仅是一种「能力」,更是一种「体验」。

所以当我们看到邮件 app 自动标出「优先邮件」、或者在备忘录里随手画的草图被「图像魔法棒」美化成精致插画时,感受到的不是不断修改提示词的疲惫,而是设备本身变得更懂自己的需求了。这是一种极其微妙却又极具粘性的体验,也是那些竞争对手难以复制并超越的「护城河」。

Apple Intelligence 推出至今虽有针对其功能方面的批评,但未见大规模的反对声音或者有关从系统当中彻底移除 Apple Intelligence 功能的讨论。至此我们可以下一个结论:虽然 Apple Intelligence 目前上线的功能仍有不全之处,但是其设计理念和思维总体瑕不掩瑜;Apple 通过工程化手段、硬件垂直整合和隐私架构创新,在功耗、隐私、性能和体验之间找到了一个平衡点。

Apple Intelligence 目前的困境

既然 Apple Intelligence 在技术选型和实现上总体是合理的,那么为什么如今对于 Apple Intelligence 的主流评价是喜忧参半的呢?

抛开一些已被反复提及反复讨论的话题,这里笔者认为还有几个方面的内容值得讨论,分别是边界感问题、短时刺激与长期发展的矛盾、预期管理问题。

边界感问题

前文提到,Apple Intelligence 将多种能力封装为确定性功能选项提高了 AI 工具的易用性,但这也使得 Apple Intelligence 具有明显的边界——选项里的操作全部可用,选项外的可能性一概没有。用户以 Apple 所构画的方式使用 Apple Intelligence 时可以获得流畅连贯的体验,而一旦用户的需求超出了可选项的范围则需要寻求其他方案,就会导致使用体验出现一个明显的割裂。

因此平衡易用性与工具能力是 Apple 需要面对的难题。Apple 或许应逐渐提供更多的选项,亦或是将 Apple Intelligence 在某些方面设计成半开放形式,允许用户在一定范围内进行渐进式的需求明确。

短时刺激与长期发展的矛盾

在云端 AI 大模型领域,每个季度甚至每个月都有新的更强的模型/更好的应用出现。这样的更新节奏不断刺激着用户,并在媒体的进一步催化下,普通用户逐渐习惯于快节奏的模型迭代和不断刷新认知的模型能力上限。

相比之下,受限于 Apple Intelligence 的定位(集成于系统各处的功能)和其本身的迭代节奏,Apple 难以高频率地拿出各不相同又抓人眼球营销材料,让用户直观感受到 Apple Intelligence 的变化。因此验证长期上「个人智能」使用场景路线的可行性,与满足短期刺激上的矛盾在一时间可能无法调和。

预期管理问题

从心理学的角度而言,厂商的营销策略作用于消费者预期管理的有效性会在很大程度上影响产品的销量和评价。例如分析师和爆料人员经常放出新一代 iPhone 可能涨价的信息,这可能导致消费者潜意识地认为下代 iPhone 必然会涨价。然而当新一代 iPhone 正式推出并维持与前代相同的起售价时,消费者可能会对现有的价格表现出更高的接受度。

而若从同样的视角看,Apple Intelligence 的营销则是预期管理失误。Apple 的高管在 WWDC 2024 上详细展示了Apple Intelligence 的所有能力,甚至包括技术团队从 Keynote 演示中首次得知的某些功能。尽管对于 Apple 而言,在 AI 浪潮的压力下急于推出解决方案、回应市场需求的做法存在一定的合理性,但这一详细的展示无疑过度拉高了用户对于 Apple Intelligence 的预期值,以至于当用户实际体验 Apple Intelligence 时,演示内容与实际落地功能之间的落差令用户感到失望。

雪上加霜的是,WWDC 2024 上所展示的重头戏——基于个人场景的情景智能时至今日仍未落地,进一步影响了 Apple Intelligence 的口碑。

一些误区

Apple Intelligence 就是套壳的 ChatGPT?

这可能是最大的误解。前文已经展示了 Apple Intelligence 的架构,它是一个完整的、多层次的技术栈,包含了:

  1. 端侧模型(On-device Model):处理绝大多数日常、高频、隐私敏感的任务。
  2. 私有云计算(Private Cloud Compute):处理端侧算力不足的中等复杂度任务。

ChatGPT 至少并不是狭义上 Apple Intelligence 的组成部分,而只是一个可选的第三方扩展。真正的核心智能则完全由 Apple 自研模型驱动。

Apple 需要放弃隐私才能换来 AI 能力的提升?

有人认为 AI 需要海量的数据来训练和调优,Apple 在严格的隐私数据保障情况下无法提升 AI 的能力。

在这里广泛的「数据」概念不能同「隐私数据」混为一谈,并且 AI 的发展与个人的隐私数据理论上不存在对立关系。个人数据是隐私(Privacy),而互联网上公开领域的数据很多是知识(Knowledge)。

用知识来训练 AI 是行业共同的方式,至于 Fine tuning 微调,理论上也不需要个人数据。因为生的(Raw)训练数据要做标记、要经过清洗等前处理才能利用。可以借助已有的 AI 来生成标准化的「伪个人数据」(pseudo data)提高效率。

其次 Apple Intelligence 的主力是端侧模型,能有效保证推理过程中需要用到的敏感数据全部保存在本地。而私有云计算(Private Cloud Compute)则是通过独特的架构设计和开放安全审查保证个人隐私不会妥协。

Apple Intelligence 由于云端模型国内合作伙伴的问题,导致无法落地?

前文已经展示了 Apple Intelligence 的架构,云端模型并非狭义上 Apple Intelligence 的组成部分,且国内已备案商用的云端大模型已有许多选择,并不构成 Apple Intelligence 落地的障碍。

Apple 在 AI 方面已经远远落后?

结合前文的讨论理性地来看,Apple Intelligence 与其他厂商在 AI 领域走不是同一个方向/赛道。

Apple Intelligence 不是一个仓促上马的 App /「聊天机器人」,而是对 iOS、iPadOS 和 macOS 方方面面能力的深度改进;它将 AI 变成了像文件系统、网络协议一样的基础设施。

其他厂商在 AI 大模型本身领先,而 Apple 则是聚焦于软硬结合,专注于个人智能系统的布局。

尾声

作为一名技术爱好者,剥离营销术语、探索底层技术架构是令人兴奋的。

Apple Intelligence 的出现,意味着 AI 不一定是一种需要用户主动探索的「工具」,而可以是一种无处不在的「能力」。Apple Intelligence 不是成为最会写诗的 AI,但它很有可能是第一个真正了解你、尊重你,并且能默默完成日常任务的 AI——然而不完整的落地功能、失误的预期管理也让 Apple Intelligence 暂时不能让人完全满意,对 Apple 而言实现美好的 AI 蓝图还有很长的一段路要走。

最后感谢您读到这里。以上内容仅为笔者基于现有的信息和理解所做的整理和总结,其中难免存在技术错误或理解偏差。个人水平有限,文中若有不当之处,恳请各位前辈和同行不吝指正,以便不断改进与提升。

扩展阅读:Apple Intelligence 面面观:「果味」模型是怎样炼成的?

 

> 关注 少数派公众号,解锁全新阅读体验 📰

> 实用、好用的 正版软件,少数派为你呈现 🚀

    语音输入法对我们来说已经不是什么新鲜事了,从早年间的讯飞输入法、Apple 自带输入法,到今年微信输入法和豆包输入法更新支持了语音输入功能,使用语音输入法的人越来越多。不过这些语音输入法希望实现的目标都是尽可能 100% 还原人类口中说出的语句,看起来好像没有什么问题,但是忽略了一个很重要的事实:人不是完美的,因此口头表达也不会 100% 正确。

    我们在打字的时候,可以很方便地反复编辑,但是说话的时候一旦进行「编辑」,语音输入法就会准确地记录下我们的「编辑」过程,而这自然不是我们想要的效果。因此,我向来就不习惯于使用语音输入法,特别是在篇幅较长的表达场景中,完全没有把握自己能够完成 100% 准确无误的表达。

    直到 Typeless 的出现,我认为它让语音输入法从「追求 100% 精确度的语音转录」跨越到了「追求还原大脑中的原始表达」这一个层级,让语音输入法真正地达到了好用、实用的境界。

    基础功能

    在介绍 Typeless 的 AI 进阶功能之前,我想先让大家知道 Typeless 的基础功能,这些完善的基础功能是促使我坚持使用 Typeless 的前提。

    首先,Typeless 支持 100 多种语言的混合输入。我相信很多人在日常表达中不会 100% 只包括一种语言,对我来说中英文混合识别就非常重要。以下是我对 Typeless 多语言混合输入的测试,相信可以很直观地展示它的识别能力。

    其次,Typeless 在输入法界面中内置了多个实用的按键来辅助语音输入,包括 @、空格、删除以及 Return。值得注意的是,Return 按键在不同的应用下对应了不同的功能:在微信等即时通行工具中,Return 对应了发送信息功能;在文本编辑器中,Return 则对应了回车换行功能;在搜索栏中,Return 对应了搜索功能。这四个按键的存在一方面使 Typeless 保持了极其克制的设计,另一方面也免去了来回切换输入法的麻烦。

    最后,Typeless 提供了词典功能,让语音输入更加准确和个性化。我们可以通过手动创建,或者通过语音重新编辑来创建自己专属的词典条目。创建完成后,Typeless 在后续输入这些词条时,就可以实现精准匹配以及相应的输入,让这些生僻词或者专有名词完全对应你的预设内容,避免重复修改的麻烦。

    虽然在 Typeless 的官网中没有提及这项功能,但对我这样的 i 人来说,Typeless 支持 Whisper 轻声输入真的是 i 人福音。不管是走在大街上还是在办公室里,如果使用正常的音量来进行语音输入,对 i 人来说简直就是「社死」。但是使用 Typeless 的时候,我可以对着麦克风轻声说出想输入的文本,Typeless 依旧可以精准地识别我的声音并转录成文本。

    除此之外,当我在 iPhone 上戴着 AirPods 听歌或者使用扬声器外放音乐的时候,我也可以使用 Typeless 进行语音输入,既不会打断原来的歌曲播放,也不会被歌曲播放的声音所影响。

    进阶功能

    如果说基础功能是 Typeless 的骨架,那么 AI 进阶功能则是 Typeless 的血肉,这些进阶功能让 Typeless 成为了超越其他语音输入法的杀手锏。

    下面我为大家一条一条逐个解析:

    Typeless 支持在语音输入时自动移除语气词和重复输入。语气词就比如说是中文里的「嗯、啊、额、那个」等表达,英文中的「ah、um、uh、you know」等表达,Typeless 会通过 AI 技术进行识别并自动从输入中移除。移除重复输入很好理解,当我们在语音输入时出现口吃卡顿或者思考犹豫时,Typeless 会识别语音表达中邻近的重复表达,自动移除重复部分并保留正确的表达。

    左侧:系统自带语音输入法;右侧:Typeless

    Typeless 支持在语音输入时进行实时编辑。如开头提到的,大部分语音输入法致力于还原口述者的所有语音输入,但是当口述者改变了主意或者口误时,无法进行修改。Typeless 则支持口述者在进行语音输入时对之前的表述进行修改,Typeless 会对相应的部分自动完成纠正。

    举个例子,当我说「明天上午 9 点打算去医院打点滴,感觉身体不太舒服,啊不对,还是明天下午 3 点去吧」,Typeless 会自动将内容修改为:「明天下午 3 点打算去医院打点滴,感觉身体不太舒服啊」。

    左侧:系统自带语音输入法;右侧:Typeless

    Typeless 支持对语音输入的内容进行自动排版。当我们通过 Typeless 进行语音输入的内容包含多个要点,或者包含一些清单、排列内容时,Typeless 会自动对内容进行排版,以更加清晰直观的样式来表达。同样举个例子,当我对 Typeless 说「My Shopping List, Bananas, Oat Milk, Dark Chocolate」时,Typeless 就会自动输出排版后的内容。

    左侧:系统自带语音输入法;右侧:Typeless

    Typeless 可以针对不同的场景提供相应的语气改写和词汇匹配。以下面这段话为例:

    Yo! Are we still on for tonight? Heard that new marvel flick is actually fire, kinda wanna check it out.If you're too tired tho strictly no pressure, we can just grab a beer and chill. Lmk!

    当我在短信 App 和 Gmail App 中分别通过 Typeless 进行语音输入时,出现了一些明显的差异。在短信 App 中,「kinda wanna」这样口语化的表达被完整保留,而在 Gmail App 中,「kinda wanna」被修改为了更加书面化的「I kind of want to」。另外,像「tho」这样非常简略的表达也在两个 App 中都被改写成为了完整的「though」。

    总结

    作为一款 AI 时代的全新语音输入法,Typeless 在保障语音识别率的基础上,充分考虑了语音输入重度用户的实际使用痛点,通过 AI 技术来提供相应的解决方案。Typeless 不是一款大厂炫技的作品。它的出现真真实实地解决了「语音输入不够实用」的问题。

    自从开始使用 Typeless 后,我在 iPhone 和 Mac 上都很喜欢用它来进行输入,取代了很多实体键盘输入的场景。

    在 iPhone 上,我喜欢用 Typeless 来发送以及回复微信消息,特别是在路上或者家里,既免去了打字的麻烦,也避免了让对方听微信语音的尴尬。

    在 Mac 上,我喜欢用 Typeless 来进行写作或者记录想法。在 iPhone 上切换键盘会打断心流,所以我更推荐大家进行长篇幅的语音输入后,再切换回普通键盘进行修改。在 Mac 上则不存在这样的问题,我们可以无缝地在语音输入法和实体键盘之间进行切换,这也就意味着我们可以用 Typeless 作为主力输入工具,然后再使用实体键盘进行实时的微调修改。

    Typeless 目前支持 macOS、Windows 和 iOS,可以在 App Store (外区) 和官网免费下载使用,第一次使用可以获得 30 天的免费 Pro 体验,到期后可以按照 12 美元/月(年付)或者 30 美元/月(月付)的价格订阅 Pro 计划,并解锁每月 4000 词的限制。

     

      语音输入法对我们来说已经不是什么新鲜事了,从早年间的讯飞输入法、Apple 自带输入法,到今年微信输入法和豆包输入法更新支持了语音输入功能,使用语音输入法的人越来越多。不过这些语音输入法希望实现的目标都是尽可能 100% 还原人类口中说出的语句,看起来好像没有什么问题,但是忽略了一个很重要的事实:人不是完美的,因此口头表达也不会 100% 正确。

      我们在打字的时候,可以很方便地反复编辑,但是说话的时候一旦进行「编辑」,语音输入法就会准确地记录下我们的「编辑」过程,而这自然不是我们想要的效果。因此,我向来就不习惯于使用语音输入法,特别是在篇幅较长的表达场景中,完全没有把握自己能够完成 100% 准确无误的表达。

      直到 Typeless 的出现,我认为它让语音输入法从「追求 100% 精确度的语音转录」跨越到了「追求还原大脑中的原始表达」这一个层级,让语音输入法真正地达到了好用、实用的境界。

      基础功能

      在介绍 Typeless 的 AI 进阶功能之前,我想先让大家知道 Typeless 的基础功能,这些完善的基础功能是促使我坚持使用 Typeless 的前提。

      首先,Typeless 支持 100 多种语言的混合输入。我相信很多人在日常表达中不会 100% 只包括一种语言,对我来说中英文混合识别就非常重要。以下是我对 Typeless 多语言混合输入的测试,相信可以很直观地展示它的识别能力。

      其次,Typeless 在输入法界面中内置了多个实用的按键来辅助语音输入,包括 @、空格、删除以及 Return。值得注意的是,Return 按键在不同的应用下对应了不同的功能:在微信等即时通行工具中,Return 对应了发送信息功能;在文本编辑器中,Return 则对应了回车换行功能;在搜索栏中,Return 对应了搜索功能。这四个按键的存在一方面使 Typeless 保持了极其克制的设计,另一方面也免去了来回切换输入法的麻烦。

      最后,Typeless 提供了词典功能,让语音输入更加准确和个性化。我们可以通过手动创建,或者通过语音重新编辑来创建自己专属的词典条目。创建完成后,Typeless 在后续输入这些词条时,就可以实现精准匹配以及相应的输入,让这些生僻词或者专有名词完全对应你的预设内容,避免重复修改的麻烦。

      虽然在 Typeless 的官网中没有提及这项功能,但对我这样的 i 人来说,Typeless 支持 Whisper 轻声输入真的是 i 人福音。不管是走在大街上还是在办公室里,如果使用正常的音量来进行语音输入,对 i 人来说简直就是「社死」。但是使用 Typeless 的时候,我可以对着麦克风轻声说出想输入的文本,Typeless 依旧可以精准地识别我的声音并转录成文本。

      除此之外,当我在 iPhone 上戴着 AirPods 听歌或者使用扬声器外放音乐的时候,我也可以使用 Typeless 进行语音输入,既不会打断原来的歌曲播放,也不会被歌曲播放的声音所影响。

      进阶功能

      如果说基础功能是 Typeless 的骨架,那么 AI 进阶功能则是 Typeless 的血肉,这些进阶功能让 Typeless 成为了超越其他语音输入法的杀手锏。

      下面我为大家一条一条逐个解析:

      Typeless 支持在语音输入时自动移除语气词和重复输入。语气词就比如说是中文里的「嗯、啊、额、那个」等表达,英文中的「ah、um、uh、you know」等表达,Typeless 会通过 AI 技术进行识别并自动从输入中移除。移除重复输入很好理解,当我们在语音输入时出现口吃卡顿或者思考犹豫时,Typeless 会识别语音表达中邻近的重复表达,自动移除重复部分并保留正确的表达。

      左侧:系统自带语音输入法;右侧:Typeless

      Typeless 支持在语音输入时进行实时编辑。如开头提到的,大部分语音输入法致力于还原口述者的所有语音输入,但是当口述者改变了主意或者口误时,无法进行修改。Typeless 则支持口述者在进行语音输入时对之前的表述进行修改,Typeless 会对相应的部分自动完成纠正。

      举个例子,当我说「明天上午 9 点打算去医院打点滴,感觉身体不太舒服,啊不对,还是明天下午 3 点去吧」,Typeless 会自动将内容修改为:「明天下午 3 点打算去医院打点滴,感觉身体不太舒服啊」。

      左侧:系统自带语音输入法;右侧:Typeless

      Typeless 支持对语音输入的内容进行自动排版。当我们通过 Typeless 进行语音输入的内容包含多个要点,或者包含一些清单、排列内容时,Typeless 会自动对内容进行排版,以更加清晰直观的样式来表达。同样举个例子,当我对 Typeless 说「My Shopping List, Bananas, Oat Milk, Dark Chocolate」时,Typeless 就会自动输出排版后的内容。

      左侧:系统自带语音输入法;右侧:Typeless

      Typeless 可以针对不同的场景提供相应的语气改写和词汇匹配。以下面这段话为例:

      Yo! Are we still on for tonight? Heard that new marvel flick is actually fire, kinda wanna check it out.If you're too tired tho strictly no pressure, we can just grab a beer and chill. Lmk!

      当我在短信 App 和 Gmail App 中分别通过 Typeless 进行语音输入时,出现了一些明显的差异。在短信 App 中,「kinda wanna」这样口语化的表达被完整保留,而在 Gmail App 中,「kinda wanna」被修改为了更加书面化的「I kind of want to」。另外,像「tho」这样非常简略的表达也在两个 App 中都被改写成为了完整的「though」。

      总结

      作为一款 AI 时代的全新语音输入法,Typeless 在保障语音识别率的基础上,充分考虑了语音输入重度用户的实际使用痛点,通过 AI 技术来提供相应的解决方案。Typeless 不是一款大厂炫技的作品。它的出现真真实实地解决了「语音输入不够实用」的问题。

      自从开始使用 Typeless 后,我在 iPhone 和 Mac 上都很喜欢用它来进行输入,取代了很多实体键盘输入的场景。

      在 iPhone 上,我喜欢用 Typeless 来发送以及回复微信消息,特别是在路上或者家里,既免去了打字的麻烦,也避免了让对方听微信语音的尴尬。

      在 Mac 上,我喜欢用 Typeless 来进行写作或者记录想法。在 iPhone 上切换键盘会打断心流,所以我更推荐大家进行长篇幅的语音输入后,再切换回普通键盘进行修改。在 Mac 上则不存在这样的问题,我们可以无缝地在语音输入法和实体键盘之间进行切换,这也就意味着我们可以用 Typeless 作为主力输入工具,然后再使用实体键盘进行实时的微调修改。

      Typeless 目前支持 macOS、Windows 和 iOS,可以在 App Store (外区) 和官网免费下载使用,第一次使用可以获得 30 天的免费 Pro 体验,到期后可以按照 12 美元/月(年付)或者 30 美元/月(月付)的价格订阅 Pro 计划,并解锁每月 4000 词的限制。

       

        本来想做导航网站的,后来感觉做新标签页也不错,于是让 AI 也做了浏览器扩展版
        网页: https://lumina.jkai.de/
        扩展:

        1. 下载最新版本

          • 访问 Releases 页面
          • 下载 lumina-extension-v1.0.0.zip
          • 解压到任意文件夹
        2. 加载扩展

          • 打开 Chrome 浏览器,访问 chrome://extensions/
          • 开启右上角的 " 开发者模式 "
          • 点击 " 加载已解压的扩展程序 "
          • 选择解压后的文件夹



        📌 转载信息
        原作者:
        qinmu
        转载时间:
        2026/1/12 10:32:48

        文献下载一时爽,打开阅读火葬场。
        天书难啃骨头硬,管家嚼碎再喂粮。

        想着稍后阅读的论文,最后却变成了永不阅读?
        长篇大论的学术论文,有翻译却也抓不住重点?

        我在读文献时经常被以下问题所困扰:

        • 痛点一:文章太多,读不过来。即便让 AI 辅助阅读,却还要一篇一篇的发给 AI,效率低下。
        • 痛点二:读完就忘,需要反复重新阅读。 辛辛苦苦读完一篇,两天后就忘了,想回忆又得从头看起,浪费时间。
        • 痛点三:文章太长,即使有翻译插件,也难以抓住重点,读下一页忘上一页。

        于是我写了一款 Zotero 插件 Zotero-AI-Butler,来彻底解决这些问题!

        一、 核心理念:拒绝手动,自动化接管

        Zotero-AI-Butler 的设计哲学很简单:您只负责思考,Zotero-AI-Butler 将为您的阅读扫清障碍!

        1.1 真正的 “无感” 阅读

        不同于市面上需要你 “主动投喂” 的 AI 工具,Butler 学会了自动巡视。

        只要你在设置中开启 “自动扫描”,当你把新下载的 PDF 拖进 Zotero 的那一刻,管家就已经在后台开工了。它会利用大模型将论文精读、揉碎、嚼烂后,整理成一份热腾腾、条理清晰的 Markdown 笔记塞进您的 Zotero 条目下。

        1.2 无损多模态阅读

        很多插件还在用传统的 OCR 提取文本,而 Butler 支持 Base64 多模态直读(需要大模型本身支持多模态,国外御三家大模型都支持多模态)。这意味着:

        • 复杂的数学公式不会乱码;
        • 精妙的实验数据图表不会被忽略;
        • 双栏排版不会读串行。

        1.3 沉浸式侧边栏

        Butler 内置了深度集成的侧边栏,支持 GitHub 和 红印 等多种 Markdown 主题渲染。右键侧边栏的 AI 管家图标可以进一步固定侧边栏窗口,切换论文也再也不会打断心流。

        • LaTeX 公式完美渲染:数学系、物理系同学的福音。
        • 临时追问:读到不懂的地方?直接在侧边栏选中文字发起追问,不仅能解惑,还能将对话保存到笔记中。

        1.4 一图胜千言 (One-Image Summary)

        借助 Nano Banana Pro 的图像生成能力,Butler 能自动为论文生成一张精美的学术海报。

        无论是组会汇报前的快速回顾,还是文献管理时的直观索引,这一张图,就能让你瞬间 Recall 起整篇文章的核心逻辑。

        二、 为什么选择 Zotero-AI-Butler?

        市面上的工具那么多,为什么要用这一款?

        1. 完全开源,隐私掌握在自己手中:代码公开透明,支持自定义 API(OpenAI, Gemini, Claude, 甚至本地模型)。
        2. 多轮总结机制:觉得一轮总结太浅?使用 “多轮总结” 模式,自定义提示词,让 AI 分别从研究背景、方法技术、实验结果多个维度进行多轮深度解析,最后汇总成文。
        3. 旧文献批量复活:对于那些积灰已久的存量文献,一键点击 “扫描未分析论文”,管家会帮你排好队,在后台默默把它们 “啃” 完。
        4. 成本极低:完美适配 Google Gemini 模型,配合 Gemini 反代可获取几乎用不完的免费额度。


        更详细介绍欢迎去 Github 进一步了解!

        项目名:zotero-AI-Butler

        开源地址:GitHub - steven-jianhao-li/zotero-AI-Butler: 【Zotero AI 管家】会调用大模型,自动精读论文库里的论文,总结为 Zotero 笔记。支持主流大模型平台!您只需像往常一样把文献丢进 Zotero, 管家会自动帮您精读论文,将文章揉碎了总结为笔记,让您 “十分钟完全了解” 这篇论文!

        项目 Wiki:Zotero AI Butler 使用文档

        视频配置教程:www.bilibili.com/video/BV1cYyQBZE4k

        您只负责思考,Zotero-AI-Butler 负责为您的阅读扫清障碍!


        如果这个项目有所帮助,欢迎在 GitHub 点个 Star,这是对我最大的鼓励!


        📌 转载信息
        转载时间:
        2026/1/7 19:22:18

        如果把过去十年的 AI 落地情况简单概括为一句话,那大概是:AI 学会了“看”和“判断”,却还没真正学会“动手”。

        在这段演进过程中,算法被装进摄像头、产线和各类终端设备,AI 在真实世界中承担起感知与决策的角色,成功完成了从实验室到产业化的跨越。

        但在范浩强看来,这条路径始终存在一个边界——智能还停留在系统里,很少真正介入物理世界本身。

        从某种程度上来说,范浩强的职业路径,正是沿着这条 AI 落地的主线一路走来的。

        2025 年初,范浩强做出了一个在外界看来有点“不走寻常路”的选择:

        作为旷视科技的第一位算法研究员,在 AI 1.0 时代经历了计算机视觉与 AIoT(AI 技术 + 物联网设备)的规模化落地之后,范浩强选择转身进入具身智能,一个技术门槛更高、研发周期更长的赛道。

        他参与创办的这家公司,名为 Dexmal 原力灵机(下文简称原力灵机)。与他并肩创业的汪天才、周而进,同样来自于“AI 四小龙”之一的旷视。

        围绕这次转身,AI 前线与范浩强展开了一次深度访谈,聊到了他的创业选择、具身智能的技术演进以及产业趋势等话题。谈及为何要去做机器人,范浩强表示:

        “在 AI 的道路上,机器人是一个绕不过去的点。”

        至于为何选择在 2025 年初这个时间点入局具身智能,范浩强的给出了一个冷静而务实的理由:

        “之前没做,是因为我觉得还不成熟;现在这个时间点,硬件和算法的拼图终于开始拼起来了。”

        “硬件和算法的拼图终于拼起来了”

        在 2024 年,具身智能可谓是“火出圈”的——随着大模型能力外溢、真机效果显著提升,以及头部厂商集体入场,这一方向首次从学术讨论走向产业共识,成为 AI 领域最受关注的新热点之一。

        到了 2025 年,更多变化已明显发生,首先是硬件侧

        在过去两年里,机器人关键零部件——尤其是关节的国产化率出现了明显提升。

        相比早期高度依赖进口方案,如今国内供应链在性能、稳定性和交付节奏上都逐步可用,这使得机器人在成本控制、系统集成和快速迭代上的不确定性大幅下降。

        范浩强提到,这种变化并不意味着硬件问题已经被彻底解决,但至少从“不可控”,走向了“可工程化”:

        “当供应链能跟得上研发节奏时,很多事情才有可能往前推进。”

        与硬件变化几乎同步发生的,是算法侧出现的拐点。

        Diffusion、Transformer 等模型开始进入机器人动作生成与控制领域,机器人不再只依赖规则或手工调参,而是可以通过数据学习复杂行为。在范浩强看来,这意味着具身智能不再只是“能演示”,而是开始具备系统性提升能力的基础。

        也正是在这样的背景下,他判断:硬件和算法这两块长期错位的拼图,终于开始对齐了

        再往前看,范浩强对下一阶段算法能力的期待,并不止于“动作更像人”。他认为,更关键的是机器人能否真正理解人的意图,并在交互过程中持续修正自身行为。

        比如通过对话澄清不明确的指令,或在操作被打断、纠正后继续完成任务。这些能力,将决定具身智能能否从“可用”,走向“好用”。

        具身智能研发,算法先行还是硬件先行?

        近两年,机器人从动作到形态的进步都“肉眼可见”:能跑能跳已经不稀奇了,有的还能丝滑跳舞、打太极;而且过去只能在科幻片里看见的人形机器人也越来越多,甚至已经有不少进入了量产阶段。

        伴随着这些变化,围绕机器人形态、硬件、整机能力的讨论也逐渐升温。

        硬件之外,算法对于机器人的能力泛化和长期演进也很关键。那么算法与硬件在具身智能领域如何协同推进,在各家公司的具身智能早期研发中,是算法先行还是硬件先行?

        对此,范浩强直言道:

        “在我们看来,其实都是算法先行。”

        他认为,即便是在外界看来以硬件能力见长的公司,其关键突破往往仍然来自算法层面。不同之处在于,这些算法未必是通用意义上的大模型,而可能是更偏底层的能力,例如运动控制(locomotion)相关算法。

        他指出,当运动控制等核心算法成熟到一定阶段后,原本难以实现的动作能力会自然被解锁,硬件形态也随之发生变化。从这个意义上看,硬件能力的提升更像是算法突破之后的结果,而非起点。

        基于这一判断,原力灵机内部在反复强调一条方法论:“模型解锁场景,场景定义硬件。”

        模型能力决定了哪些任务和场景可以被真正解决,而具体场景的需求,才反过来塑造硬件的结构、配置与形态。

        同时,范浩强也强调,硬件研发本身有其客观周期,无法被简单压缩;真正需要持续保持高节奏竞争的,是算法能力的演进速度。

        在他看来,具身智能是一场长期竞争,不同环节在不同阶段承担的角色并不相同,但算法能力的迭代效率,始终是决定整体进展速度的重要因素之一。

        原力灵机的路线:多模态、真机数据,先把规矩立住

        那么,要如何保证算法能力的高节奏演进速度?

        原力灵机作出的选择,是一条更贴近落地需求、也更耐磨的路线

        首先,他们是从一开始就做多模态

        在范浩强看来,传统的 VLA(Vision–Language–Action)框架,如果过度依赖视觉信息,在真实场景里很快就会撞上天花板。比如机器人真正“干活”时,面对的不是干净的画面,而是接触、摩擦、受力和空间约束,这些信息单靠“看”是远远不够的。

        因此,原力灵机并没有把 Vision 当作默认前提,而是从模型训练阶段就引入 Multimodality:除了视觉,还包括深度信息、力觉、触觉,必要时甚至加入声音信号

        这样做并不是为了把系统搞复杂,而是出于一个非常现实的判断——如果机器人要稳定、安全地完成任务,这些感知维度缺一不可

        第二点,是在数据上选择“慢一点,但更真”

        在数据策略上,原力灵机把重点放在真机遥操数据上,并且明确坚持“质量优先”。范浩强多次提到,机器人做的往往是“细活”:一个抓取动作是否成功,差别可能只在几毫米、几牛顿的力控误差。

        这也意味着,数据采集本身就不能是“顺手一录”,而必须被当作一项工程来设计——包括传感器的同步方式、遥操流程的规范程度,以及操作行为本身的可复现性。

        只有在这样的基础上,算法训练出来的能力,才有可能在真实场景中稳定复现。

        此外还有一个重点,就是得赶紧先把“怎么比”这件事说清楚

        在范浩强看来,具身智能仍处在早期阶段,行业里一个明显的缺口是:缺少统一、可信的评测体系。如果没有清晰的 Benchmark,不同方案之间很难进行有效比较,也很难形成真正的技术共识。

        因此,原力灵机选择在早期就投入精力,联合 Hugging Face 共同推出真机评测平台 RoboChallenge 以及相关开源工具的建设,比如一站式 VLA 工具箱 Dexbotic 和公司首个开源硬件产品 DOS-W1。

        用范浩强的话说,就是先把规矩立住,再谈模型强不强:

        “我们希望先把比较的方法拿出来,让大家在同一套标准下形成共识。之后再在这些已被认可的方法上,去验证和证明我们模型的表现,这样也更利于外界准确理解我们的能力。”

        从多模态感知,到真机数据,再到评测体系,每一步都指向同一个目标:让算法能力能够被验证、被复现、被长期积累。

        [todo-t] 完整 Claude Code兼容 [/todo-t]
        [todo-t] 流式响应零延迟 [/todo-t]
        [todo-t] 工具调用完整支持 [/todo-t]
        [todo-t] 多模态图片处理 [/todo-t]
        [todo-t] 支持多账号 [/todo-t]
        [todo-t] 支持IdC和Social认证方式 [/todo-t]
        [todo-t] 保持agentContinuationId减少kiro vibe次数扣减 [/todo-t]

        [bsgit user="caidaoli"]kiro2api[/bsgit]