2026年2月

HTML编码/解码 核心JS实现

这篇只讲本项目里 HTML 编码/解码工具的核心 JavaScript 实现,重点是编码规则、解码逻辑和交互动作如何串起来。

在线工具网址:https://see-tool.com/html-encoder
工具截图:

1)状态与模式

工具的核心状态很直接:输入、输出、编码模式、是否全量编码、是否编码换行。

const inputText = ref('')
const outputText = ref('')
const encodingMode = ref('named') // named | decimal | hex
const encodeAll = ref(false)
const encodeNewlines = ref(false)

这几个状态决定了全部行为:

  • encodingMode 控制输出实体格式(命名实体、十进制实体、十六进制实体)
  • encodeAll 控制是否只编码基础危险字符,还是扩展到更多字符
  • encodeNewlines 控制 \n / \r 是否转换为实体

2)实体映射:命名实体的基础表

命名模式需要一张字符到实体的映射表,基础字符和常见符号都在其中。

const namedEntities = {
  '&': '&',
  '<': '&lt;',
  '>': '&gt;',
  '"': '&quot;',
  "'": '&apos;',
  ' ': '&nbsp;',
  '©': '&copy;',
  '®': '&reg;',
  '™': '&trade;'
}

const basicChars = ['&', '<', '>', '"', "'"]

这里 basicChars 很关键:不管用户有没有开启“全量编码”,这几个字符都要优先转义。

3)单字符编码:统一出口 encodeChar

单字符编码被集中在一个函数里,避免分散判断。

const encodeChar = (char, mode) => {
  const code = char.charCodeAt(0)

  if (mode === 'named' && namedEntities[char]) {
    return namedEntities[char]
  } else if (mode === 'decimal') {
    return '&#' + code + ';'
  } else if (mode === 'hex') {
    return '&#x' + code.toString(16).toUpperCase() + ';'
  }

  return '&#' + code + ';'
}

这段逻辑的好处是:

  • 三种编码模式都走同一个出口
  • 命名实体查不到时自动回退到数值实体
  • 十六进制统一大写,结果更稳定

4)是否需要编码:shouldEncode

编码前先判断字符是否应被处理。

const shouldEncode = (char, encodeAllFlag) => {
  if (basicChars.includes(char)) return true

  if (encodeAllFlag) {
    const code = char.charCodeAt(0)
    return code > 127 || namedEntities[char]
  }

  return false
}

规则非常明确:

  • 默认只处理基础字符
  • 打开全量编码后,再处理非 ASCII 字符和映射表内字符

5)主编码流程:逐字符扫描 htmlEncode

主流程采用逐字符遍历,便于精细控制换行和实体转换。

const htmlEncode = (text, mode, encodeAllFlag, encodeNewlinesFlag) => {
  let result = ''

  for (let i = 0; i < text.length; i++) {
    const char = text[i]

    if (char === '\n') {
      result += encodeNewlinesFlag ? '&#10;' : char
      continue
    }
    if (char === '\r') {
      result += encodeNewlinesFlag ? '&#13;' : char
      continue
    }

    result += shouldEncode(char, encodeAllFlag)
      ? encodeChar(char, mode)
      : char
  }

  return result
}

这里把“换行实体化”作为独立分支,避免和普通字符逻辑混在一起。

6)解码流程:利用浏览器原生能力

解码实现没有手写完整解析器,而是直接借助浏览器对实体的原生解析。

const htmlDecode = (text) => {
  const textarea = document.createElement('textarea')
  textarea.innerHTML = text
  return textarea.value
}

这样可以同时处理命名实体、十进制实体和十六进制实体,代码量很小,行为也一致。

7)动作函数:编码、解码、交换、清空、复制

工具的交互动作都由独立函数管理。

编码与解码入口:

const handleEncode = () => {
  if (!inputText.value.trim()) return
  outputText.value = htmlEncode(
    inputText.value,
    encodingMode.value,
    encodeAll.value,
    encodeNewlines.value
  )
}

const handleDecode = () => {
  if (!inputText.value.trim()) return
  outputText.value = htmlDecode(inputText.value)
}

交换输入输出:

const swapInputOutput = () => {
  const temp = inputText.value
  inputText.value = outputText.value
  outputText.value = temp
}

复制结果(现代 API + 兼容兜底):

const copyResult = async () => {
  if (!outputText.value.trim()) return

  try {
    await navigator.clipboard.writeText(outputText.value)
  } catch {
    const textarea = document.createElement('textarea')
    textarea.value = outputText.value
    document.body.appendChild(textarea)
    textarea.select()
    document.execCommand('copy')
    document.body.removeChild(textarea)
  }
}

这部分让工具在真实使用中具备完整闭环:输入 -> 转换 -> 复制/反向处理。

8)实现小结

本工具的核心 JS 可以归纳为四层:

  1. 状态层:输入输出与编码选项
  2. 规则层:实体映射与编码判定
  3. 转换层:htmlEncodehtmlDecode
  4. 动作层:编码、解码、交换、清空、复制

整体实现没有依赖第三方编码库,完全基于浏览器原生能力和 Vue 响应式状态完成,逻辑清晰,维护成本也低。

大家好啊,我是甲木。

今天是 2026 年,年后复工第一天,先祝大家复工愉快(bushi

春节期间,好几个朋友问我同一个问题:「你不是搞 AI 的吗,我也想学学,从哪开始啊?」做老师的、做销售的、刚毕业的学生、创业十几年的老板,当然也包括后台经常私信我的粉丝朋友们。

背景完全不同,困惑高度一致,想用 AI 却不知从何入手。

一搜「AI 学习路线」,弹出来的东西直接劝退:线性代数、概率论与数理统计、机器学习、深度学习balabla一堆…直接从入门到放弃..

所以趁着复工第一天,我把这两年自己摸索的、观察到的、跟各路高手聊出来的经验,做一次彻底的梳理。给大家一份AI学习路线图

先说清楚:这篇文章不是写给 AI 工程师的。 如果你是计算机科班出身,想去大厂做算法岗,传统路线图对你有用,按部就班学就好。但如果你是运营、老师、创业者、学生、自由职业者,不打算靠「造 AI」吃饭,但想把 AI「用好」,那这篇写给你。

简单说说这篇文章的构成:

全文分四个模块,按需跳读:

  • Part1:方法论 摆正心态,掌握五个不会过时的学习心法
  • Part2:入门篇 选工具、找场景、学会跟 AI 交互,从零上手
  • Part3:进阶篇 底层逻辑、提示词进阶、Agent、Workflow、VibeCoding、信息源推荐
  • Part4:洞察篇 一手信息源、资本风向、行业趋势、职业发展
公众号回复“学习清单”,获取AI学习资源包~

如果你已经在用 AI,日常有了自己的工具和习惯,可以直接跳到第三章「进阶篇」和第四章「洞察篇」,那里有更系统的方法和前沿资源信息。

如果你还没开始用 AI,或者只是偶尔试试,建议从头读起。第一章帮你建立正确心态,第二章手把手带你上手。

好,我们开始。

Part1:摆正心态、掌握心法

你不会被 AI 抛下

我知道很多小伙伴内心有一种隐隐的焦虑,FOMO心态。

朋友圈天天刷到「AI 取代 XX 职业」的标题,公司同事已经在用各种 AI 工具提效了,自己还停留在跟春晚用豆包、千问、元宝帮忙抢几个红包..这种感觉就像一列火车正在加速驶离站台,而你还在找站台入口。

但我想说,这种焦虑大可不必。

一项真正具有革命意义的技术,它的特点恰恰是,不会轻易甩下任何人。你想想电的普及。19 世纪末电灯泡刚发明的时候,普通人也不懂交流电直流电的区别,也不知道发电机的工作原理。但这妨碍你现在用电吗?你每天开灯、充手机、用电脑,从来不会停下来想「我得先搞懂电磁感应定律」。

AI 也一样。它正在变成像水和电一样的基础设施。未来你打开的每一个 App、用的每一个软件,底层都有 AI 在运转。你一直在用,但不会有明显的感知,就像你用电的时候不会去想电流是怎么从发电厂到你家插座的。

所以,随时上车都不晚。今天是 2026 年 2 月,现在开始完全来得及。说真的,AI 应用这件事一直在路上。

那问题来了:既然不需要焦虑,我应该把自己摆在什么位置?

我觉得有一个简单的三层模型可以参考:

  • 底层——研发者:训练大模型的人,研究 Transformer 架构的人,OpenAI、DeepSeek 这些公司的核心算法团队。全球也就那么几万号人。
  • 中间层——开发者:用大模型的 API 去搭建应用、做 Agent、写 Workflow 的人。程序员、产品经理、技术创业者居多。
  • 应用层——使用者:用 AI 产品来解决自己工作和生活问题的人。绝大多数人在这一层。

绝大多数人的定位就是「应用者」,这就够了。

你不需要会训练模型,不需要会写代码,你只需要学会「跟 AI 协作」「让 AI 帮你做事」。就像你不需要会修车才能开车,不需要会做菜才能点外卖。

万维钢老师说过一句话,我印象特别深:

「我们永远不会在 AI 面前失去自我,我们不但应该,而且必须,而且可以,以'我'为主,人要比 AI 凶。」

什么意思呢?就是你别怕它、别仰视它。AI 很强,但做决策的永远是我们,是人。你得主动去驾驭它,而不是被它牵着走。

把心态摆正了,接下来聊方法。

五个学习心法:比任何工具教程都重要

工具会变,产品会迭代,今天的热门 App 明天可能就凉了,在 AI 时代尤其为甚。但方法论不会过时。这五个心法是我之前就在不同场合跟大家反复去讲,验证过的,你可以带着它们去学任何 AI 相关的东西。

心法一:动手为先

这条是我放在第一位的,因为它最重要,也最容易被忽略。

太多人的学习路径是这样的:先买本书→再报个课→看了三天视频→觉得「差不多了解了」→然后就没有然后了。

别这样。

你今天就可以打开 ChatGPT、豆包、Kimi、Claude,随便哪个都行,开始跟它聊。问它一个你工作中真实遇到的问题。让它帮你写一封邮件。让它帮你整理一份会议纪要。让它帮你翻译一篇英文报告。

就这么简单。别把它神秘化。

站在岸边永远学不会游泳。你得先跳下水,呛两口水,才知道手脚该怎么划。

刀哥之前给过一个特别实在的建议:他们公司实习生/应届生进来之后,拉一个群,推荐一款AI产品,用上一个月,之后再换其它,慢慢形成习惯。

ps. 其实你用着用着,很多原理性的东西反而自然就懂了。比「先学原理再动手」高效十倍。

心法二:场景驱动

动手是第一步,但别漫无目的地用。你得从自己的「真实需求」出发。

我见过太多人学 AI 的方式是:今天看到别人说 Midjourney 好,就去画两张图;明天看到 Suno 火了,就去生成一首歌;后天又跑去试 AI 编程。每样都浅尝辄止,最后什么都没留下。

正确的打开方式:想想你日常工作或生活中,有哪些事情是重复的、耗时的、让你头疼的。那就是你的切入场景。

  • 你是学生?那你的场景可能是:论文文献整理、PPT 制作、学习笔记总结、英语写作润色。
  • 你是职场人?那你的场景可能是:会议纪要、周报月报、数据分析报告、客户邮件。
  • 你是内容创作者?那你的场景可能是:选题策划、文章大纲、配图生成、短视频脚本。

找到你的场景,然后针对性地去研究「AI 在这个场景下能怎么帮我」。这比泛泛地「学 AI」有效太多了。

心法三:溯源学习

这条是关于信息获取的。

现在讲 AI 的内容铺天盖地。公众号、小红书、抖音、B 站,到处都是「AI XX 教程」「十分钟学会 XX」。信息不是太少,是太多了。多到你根本分不清哪些靠谱、哪些是营销号在蹭流量。

我的原则是:尽量往信息的源头去找。

信息有一条明确的「食物链」:

官方文档 > 权威科技媒体的一手报道 > 大 V 的深度解析 > 营销号的转述

各大 AI 实验室的官方文档是源头,最准确、最全面,但不一定好读。权威科技媒体(国内的话机器之心、量子位等等,国外的话MIT Technology Review、The Verge、The Batch的原创报道等)基于一手素材做分析,会加入行业判断,信息失真很小。大 V 的深度解析是二次加工,质量取决于作者水平,好的大 V 能帮你消化复杂信息,差的可能带偏你。营销号的转述就不用说了,基本是三四手信息,能避则避。

举个例子。你想学豆包怎么用,最好的方式不是去小红书搜「豆包使用技巧」,而是先看豆包官方的使用指南和帮助文档更为系统化。

好友冷逸说过一段话,讲得特别到位:

「萃取、消化第一手知识,重视第二手知识,轻视甚至无视第三、第四手知识。」

信息经过每一次转手,都会失真一点。到了三手、四手,可能已经面目全非。养成溯源的习惯,你获取信息的质量会比大多数人高一个档次。

心法四:功利学习

这条可能听起来不那么「正确」,但我觉得特别实用。

学东西要功利一点。诺贝尔奖得主赫伯特·西蒙说过:「信息的丰富导致注意力的贫乏。」他本人就是 AI 领域的奠基人之一,同时也研究人类认知的局限性。他的结论是:人的认知资源是有限的,必须做取舍。

别因为焦虑就什么都想学。你的时间和精力是有限的,每学一样新东西都有成本。所以在决定「要不要学这个」之前,先问自己三个问题:

  • 它能帮我省时间吗?
  • 它能帮我赚钱(或者省钱)吗?
  • 它能帮我做到之前做不到的事吗?

三个问题里如果至少有一个答案是「能」,那就值得投入精力去学。如果三个答案都是「好像不太能」或者「不确定」,那先放一放也没关系。

功利一点,学你现在用得上的。用不上的,知道有这么个东西就行了,等需要的时候再深入不迟。

心法五:输出与沉淀

前面四条都在讲「输入」。怎么开始、往哪用、去哪学、学什么。但光输入不输出,你的学习就像往一个没有底的杯子里倒水。

费曼说过一句话,大意是:如果你不能用简单的语言把一件事讲清楚,说明你还没真正理解它。

这条在 AI 学习上特别适用。你可能刷了几十篇教程、试了七八个工具、收藏了一堆「AI 神器」合集。但如果有人问你「AI 到底怎么帮到你了?」,你说不出个一二三来。

怎么破?两个字:输出

试着把你学到的东西讲给别人听。跟同事分享一个你用 AI 提效的小技巧。在朋友圈发一条你用 AI 画的图。甚至只是在微信群里说一句「我今天发现 XX 这么用特别好」。

不用多正式。但说出来的那一刻,你会被迫把模糊的感觉整理成清晰的表达。哪里其实没想通,一讲就露馅了。这个过程本身就是最高效的学习,费曼学习法值得拥有。

而且它有一个额外的好处:你帮别人入了门,在朋友眼里你就成了「懂 AI 的那个人」。这种社交资产,是刷再多教程也换不来的。

输出之外,还有一件事同样重要:沉淀

用到一个好的提示词?存下来。摸索出一个高效的工作流?记录下来。发现某个工具在某个场景下特别好用?标注一下。(或者前两者都可以直接沉淀为Skills方便下次复用..

这些东西单独看很小。但三个月后你打开自己的「AI 工具箱」,里面有二三十条经过验证的提示词、五六个跑通的工作流、十几个场景下的最佳实践。这时候你和那些每次都从零开始的人,差距就出来了。

AI 领域变化快,工具可能一两个月就换一茬。但你积累下来的「怎么跟 AI 协作」的经验不会作废。提示词会变,但你对「怎么把需求说清楚」的理解只会越来越深。工具会换,但你搭过的工作流逻辑可以直接迁移到新工具上。

这就是沉淀的复利效应。今天存下来的每一条经验,都在为未来的你省时间。


五个心法说完了:动手为先,场景驱动,溯源学习,功利学习,输出与沉淀。

当然还有一个就是:持续学习,这点不必多说了..

你可能注意到了,我一个具体的 AI 工具都还没教你用。别急,方法论是地基,地基不稳,上面盖什么都白搭。

地基打好了,接下来就该真正上手了。

第二章:上手就用(入门篇)

道理聊完了,该动手了。

很多人学 AI 的第一步就卡在「选哪个工具」上,打开手机应用商店一搜,几十个 AI 应用齐刷刷排在那儿,每个都说自己最强。然后就开始纠结,纠结着纠结着,一周过去了,啥也没用上。

没必要。

我的建议特别简单:随便选一个,先用起来。 用错了也没关系,又不要你签三年合同。AI 工具之间切换的成本几乎为零,你在这个上面打的字,换一个照样能打。但是你纠结的那一周,是真的浪费了。

好,那我还是帮你捋一捋,省得你连「随便选」都不知道从哪选。

2.1 先挑一个趁手的

这部分内容大家可以参考我之前写过的【2026年开年推荐的AI工具】,里面有详细的说明,

在这里简单说说,现在市面上的 AI 工具,大致可以分成这么几类:

对话类:你的日常首选

这类工具就是你跟 AI 聊天的入口。问问题、写东西、翻译、分析、头脑风暴……基本上你能想到的文字类需求,它们都能接住。

豆包、千问、Kimi、DeepSeek、ChatGPT、Claude、Gemini都可以考虑,各有各的特点。

创作类:按需选,按兴趣选

如果你对视觉创作感兴趣,AI 绘画AI视频都可以玩玩。即梦 AI 和可灵 AI 都是国内的,用着方便,效果也不错。即梦的Seedance2.0已经火爆国内外了。

AI 音乐呢,Suno 是目前最火的,你哼个旋律、写几句歌词,它就能给你生成一首完整的歌,第一次用的时候真的会有点上头。

搜索类:用过就回不去了

秘塔 AI 搜索,Kimi 的搜索模式都很好用,会帮你多轮检索、交叉验证,搜出来的内容很扎实。

用过 AI 搜索之后你会发现,传统搜索引擎那种「输入关键词 → 翻十页链接 → 自己拼凑答案」的模式,属实有点原始了。

海外工具:有条件的话值得体验

ChatGPT、Claude、Gemini,御三家,目前全球范围内综合能力最强的。

所以到底选哪个?

我的建议:先选 1 个对话类 + 1 个你感兴趣的创作类。就两个,够了。

对话类里面,豆包或者通义千问,二选一,装上就行。如果你经常需要处理长文档或者做深度搜索,再加一个 Kimi。创作类的,看你兴趣。喜欢画画就下个即梦,喜欢音乐就试试 Suno。

用上一个月,用熟了,你自然就知道自己还需要什么了。

2.2 从你自己的场景切入

工具选好了,下一个问题来了:用它干嘛?

「用它干嘛」这个问题,答案其实不在 AI 那边,在你这边。你是谁?你每天在干嘛?你有什么事情觉得烦、觉得重复、觉得耗时间?

从那里开始就对了。

如果你是学生

你可以让 AI 当你的「私人 AI 导师」。不是夸张,你想想,一个 24 小时在线、不会不耐烦、你问多少遍都不嫌烦的老师,以前得花多少钱请家教才能有这待遇?

看论文、读文献觉得头大?把 PDF 丢给 Kimi,让它帮你总结核心论点、梳理论文结构、提取关键数据。Kimi 的长文处理能力在这个场景下特别好用,几十页的论文它能一口气吃进去。

期末要做 PPT 和报告?用 AIPPT、Gamma、Dokie,给它一个主题,它能直接帮你生成一份带设计感的 PPT。当然你得自己改改内容、调调逻辑,但至少不用从一张白页开始了。

在大学这个最美好的时期,最纯真的爱情当然不能缺席。你可以让 AI 帮你写三行情诗、分析聊天记录里对方的态度(别笑,真的有用)、甚至帮你策划一个有创意的表白方案。AI 不能替你谈恋爱,但可以帮你成为一个更有趣的人。

如果你是职场人

开完会写纪要是不是很烦?千问、听悟,你开会的时候打开录音,它会自动帮你转文字、提取要点、生成会议纪要。我身边好多朋友用上之后都说回不去了。

周报月报这种东西,真的不值得你花一个小时去憋。把这周做了什么要点告诉 AI,让它帮你润色成一篇结构清晰、措辞得体的周报,五分钟搞定。你省下来的五十五分钟,用来干点真正有价值的事情不好吗?

数据分析也是。你把 Excel 表格丢给 AI,让它帮你找规律、做可视化、写分析报告,这在以前可能得专门找个数据分析师干的活儿。

如果你是创作者或自媒体人

AI 辅助写作是基本操作了。注意我说的是「辅助」,不是「替代」。让 AI 帮你列提纲、扩写段落、换个说法、找案例素材,这些都是很好的用法。但核心观点和个人风格得是你自己的,不然读者为什么要关注你而不是直接去问 AI 呢?

文章配图是个刚需。以前写公众号,找配图要么用免费图库(千篇一律),要么冒着版权风险从网上扒(别这么干),现在用 AI 画一张独一无二的配图,又好看又没版权问题。

日常生活

辅导孩子作业,你未必记得住初中数学公式,但 AI 记得。让它一步一步讲解解题思路,比你吼孩子有效多了。关键是它不会生气。

旅行规划,把你的时间、预算、偏好告诉 AI,让它帮你做攻略。比你在小红书上刷几十篇游记再自己拼凑行程效率高太多了。


说了这么多场景,我知道你可能看完有点懵。没关系,一张速查表帮你对号入座:

这个表不是标准答案,是起跑线。用着用着就会自然迭代出属于自己的工具组合。

2.3 学会跟 AI 沟通

工具有了,场景也有了,但你可能很快会遇到一个问题:怎么 AI 给我的回答这么「平庸」?

大概率不是 AI 的问题,是你「问的方式」的问题。

你跟 AI 说话的那段文字,有个专门的名字,叫「提示词」(Prompt)。说白了就是你输入给 AI 的指令。你给的指令越清晰、越具体,AI 回你的内容就越靠谱。

这跟你跟人沟通是一样的道理。你跟同事说「帮我整理一下那个东西」,对方大概率一脸问号。但你说「帮我把上周五会议的三个待办项整理成表格,列出负责人和截止日期」,对方立刻就能动手了。

AI 也是一样。就这么简单。

几个主要元素:背景、目标、要求、示例,归根结底就是要把上下文说清楚!

当然,关于 Prompt 是一门大的学问,大家可以关注下述内容再学习,这里就不展开了。

想更系统地学提示词?推荐几个资源:

  • LangGPT 结构化提示词(https://langgpt.ai/): 很实用的提示词写作框架
  • 提示词工程指南(https://www.promptingguide.ai/zh):中文提示词教程

多跟 AI 对话,用得多了,你自然就知道怎么「说话」它才听得懂。

当然这里需要注意,不要指望一次就得到完美答案,多追问,迭代几轮,效果会更好。

2.4 试试让 AI 帮你跑完全程

到这里,你已经会跟 AI 聊天了。提个需求,它给你回复,一问一答,很好。

但 AI 能做的不只是「你问我答」。

有些任务不是一个问题就能解决的?比如「帮我调研一下竞品,整理一份分析报告」。这个任务里包含搜索、筛选、对比、整理、排版好几个步骤。如果你一步步跟 AI 聊,也能做,但得来来回回好多轮。

有没有可能,你只说一句「帮我做竞品分析」,它就自己去搜、去查、去比较、去整理,最后给你一份完整的报告?

可以的,智能体(Agent)

最通俗的理解:普通 AI 对话是「你说一句它做一步」,智能体是「你交代一个任务,它自己规划步骤,帮你跑完全程」。就像你交代一个靠谱的助理「帮我订周五从北京到上海的差旅」,你不需要告诉他先查航班、再比价格、再订酒店、再填报销单,他自己就把这些全办了。

去哪儿能体验到?

最简单的方式:去逛逛智能体商店。扣子(Coze,字节做的 coze.cn)上面有大量别人做好的智能体,技能商店,各种功能都有。豆包 App 里也内置了不少智能体,打开就能聊。智谱的 GLMs 商店也类似。

一些很有意思的 AI Agent 产品也值得关注:

  • Manus Agentmanus.im): 全球首款通用型 AI Agent,你给它一个复杂任务,它会自己拆解成多个步骤去执行
  • Lovarthttps://www.lovart.ai/):AI 设计平台,自动完成从概念到成品的设计流程
  • OpenAI Operatoroperator.chatgpt.com):ChatGPT 内置的 Agent 模式,能帮你在网页上完成操作
  • OpenClaw :开源 AI Agent,运行在你自己的设备上,通过 WhatsApp、Telegram、Slack、Signal 等聊天工具进行交互,能执行 shell 命令、浏览器自动化、邮件、日历和文件操作。
  • Zapier Agents:支持用自然语言描述来创建 Agent,并可连接 8000+ 应用,非常适合跨工具自动化。
  • Quizletquizlet.com):AI 融入学习过程,根据你的掌握程度自动调整复习策略

代码领域的 Agent 已经相当成熟了。Claude Code、Cursor、Trae 这些工具,让你用自然语言就能写代码。这个话题展开比较深,放到后面进阶篇再聊。

你现在不需要每个都去试。知道有这么个东西就行,等你用熟了基础的 AI 对话之后,再慢慢探索 Agent 的世界。

2.5 给自己找个学习大本营

AI 这个领域变化太快了。真的是今天的新闻明天就过期的那种快。你需要一个「根据地」,能持续获取新信息、跟上节奏。

第一个要收藏的:通往AGI之路 - 飞书云文档(https://waytoagi.feishu.cn/)

WaytoAGI 知识库是目前互联网上我见过的最全面的 AI 开源知识库。从基础概念到进阶教程,从工具推荐到行业动态,分类清晰,持续更新。你如果只收藏一个网站,就收藏这个。

上面有各路 AI 英雄豪杰的最新的洞察,以及各种实操教程。

大家需要善于使用飞书的搜索功能,在上面搜索自己想要关注的内容,从而找到相关的文章。同时WaytoAGI还有免费的学习社群和免费的线下活动,非常推荐大家参与!

值得关注的博主和公众号

入门阶段,信息源不用多,但要靠谱。推荐几个我觉得质量一直在线的:量子位、机器之心、赛博禅心、歸藏的AI工具箱、数字生命卡兹克、Agent橘。这几个先关注上,日常刷刷就能保持基本的信息敏感度。更完整的推荐列表,我放在后面了。

LangGPT 知识库:feishu.langgpt.ai

里面有大量提示词模板和案例。当你想把提示词技巧再往前推一步的时候,去那里逛逛会很有收获。


好了,到这里「入门篇」差不多了。你现在已经有了工具、有了场景、有了基础的提示词技巧、知道了智能体是什么、还有了持续学习的信息源。

说实话,如果你只是想让 AI 在日常生活和工作中帮上忙,大部分人把这些用熟,效率提升就已经很明显了。

但我猜,你用了一段时间之后,一定会开始好奇更多的东西。为什么有时候 AI 说得特别好,有时候又会一本正经地胡说八道?我能不能自己搭一个智能体?能不能用 AI 写代码、做产品?

这些好奇心特别好。带着它们,我们接着往下聊。

第三章:从「会用」到「用得好」(进阶篇)

会用 AI 和用好 AI,中间隔着什么?

我觉得隔着一层「理解」。你不需要成为 AI 专家,但当你大概知道它怎么工作的、知道怎么更好地跟它协作、知道怎么把零散的用法串成体系,你会发现,同样一个工具,到了你手里,就是比别人顺。

这一章,我想和你聊五件事:AI 的底层逻辑、提示词的进阶玩法、工作流搭建、Vibe Coding,以及怎么建立你自己的 AI 信息网络。

不用怕。都是大白话。

3.1 搞懂 AI 的底层概念

很多人对 AI 有一种隐隐的不安:我天天在用它,但我完全不知道它是怎么运作的。

这种感觉很正常。你不需要去读论文、学数学,但花十分钟了解三个核心概念,会让你对 AI 的能力边界有一个更清晰的判断。知其所以然,你才知道什么时候该信它,什么时候该怀疑它。

Transformer:大语言模型的「发动机」

所有你用过的 ChatGPT、Claude、Kimi、豆包,底层都跑在同一个架构上,叫 Transformer。

一句话解释:它让 AI 学会了「注意力」——在一大段文字里,自动判断哪些词和哪些词之间关系更紧密。就像你读一篇长文章时,大脑会自动在关键信息之间建立连接,Transformer 做的事差不多,只不过它用的是数学。

想深入了解:李沐在 B 站讲的《Attention Is All You Need》论文精读https://www.bilibili.com/video/BV1pu411o7BE。原论文在这里https://arxiv.org/pdf/1706.03762.pdf

Context Engineering:大模型时代的编程
AI 系统效果,很大程度取决于上下文设计。角色、任务规则、示例、知识与工具说明共同构成模型的工作环境。Agent、RAG、本地知识库,本质都是上下文工程。

生成模型三路线:自回归、扩散、潜空间
自回归:逐步预测下一个元素,语言模型与部分生图模型采用,结构稳定、可控性强。
扩散:从噪声逐步去噪生成图像,擅长写实与细节,Stable Diffusion、Midjourney 属此类。
潜空间(VAE/GAN):在低维表示中采样生成,是早期图像与语音生成基础。

Agent:从回答到执行
Agent 让 AI 能拆解目标、调用工具并完成任务。它依赖大模型推理与上下文工程,是系统形态升级。

理解这些,你就知道 AI 在做什么,也知道它何时可靠。

想系统学?这几门公开课够了

中文方面,李宏毅老师的课是我最推荐的https://speech.ee.ntu.edu.tw/~hylee/GenAI-ML/2025-fall.php,当然他在 B 站有一些搬运的视频,讲底层原理讲得最透彻,而且幽默。李沐的「跟李沐学 AI」系列也非常好,他还有一套 D2L 动手学深度学习https://zh.d2l.ai,2025 版有 171 集。

英文方面,吴恩达的 [Deeplearning.ai] https://www.deeplearning.ai/courses 是经典中的经典。

但我要强调一点:这些不是必修课。你不学这些,照样能把 AI 用得很好。它们的定位是「知其所以然」,感兴趣就深入,不感兴趣,跳过这一节完全没问题。

3.2 从提示词到 Skills:让 AI 越用越顺手

入门篇里讲了提示词的基础用法:说清楚你要什么,给点背景信息,指定输出格式。

但用久了你会发现,光靠「说清楚」还不够。你开始想:有没有更系统的方法?有没有办法让我的提示词变成一种可以反复使用的东西?

有的。

提示词进阶:从「随手写」到「有结构」

如果你只学一个进阶技巧,我推荐「结构化提示词」。最典型的是 LangGPT 方法,它把一条提示词拆成几个模块:角色、背景、任务、要求、输出格式。

再往上走,有几个高级技巧值得了解:

多轮迭代优化:不要指望一次就得到完美答案。很多高手的秘诀不是提示词写得多精妙,而是他们特别会追问。

Meta-Prompting:让 AI 帮你写提示词。套娃,但有效。

一条进化线索:Prompt → Context → Skills

大家其实会明显感觉到,圈子里的关键词换得越来越快。前几年大家讲 Prompt。后来大家讲 Context Engineering。再后来,Skills 变成了高频词。

这不是换个名字炒概念。背后有一条清晰的进化线索:

Prompt 时代,你给 AI 的是一次性的显式指令。每次对话都从零开始。

Context 时代,你开始「经营」一个信息场。不只是告诉 AI「做什么」,还把相关的背景、约束、知识一起喂给它。

Skills 时代,你把自己的经验和流程封装成一个「能力包」,让 AI 在需要的时候自动调用,稳定复用。

私以为不管是 Context 或是 Skills,都是 Prompt 的一部分,对于模型来说都是 Token。但从用户的角度看,这三者的区别在于:你和 AI 协作的颗粒度变了。从一句话,到一个场景,到一个可复用的能力单元。

Skills 到底是什么?

说得通俗一点:Skills 就是你把自己做某件事的经验和步骤,用自然语言写成一个「扩展包」,AI 在处理任务时会按需加载它。

门槛低,会写 Prompt 就会写 Skills。它比单条 Prompt 强在哪里?可复用、可分享、可迭代。

这个概念已经在国内落地了。字节的 Trae 有「技能」模块,扣子 2.0 也在往这个方向走。而且它是纯自然语言形式的,比搭积木式的 Workflow 更符合大多数人的习惯。

就这么简单。别把它神秘化。可以看之前发过的一篇文章【插入Skills文章链接】

推荐资源:

  • [LangGPT 开源项目] https://github.com/langgptai/LangGPT:结构化提示词框架
  • [Prompt Engineering Guide] https://www.promptingguide.ai/zh:最全的提示词工程中文指南
  • [Anthropic 官方提示词指南] https://www.anthropic.com/learn:写得很实在
  • [GitHub - Awesome-claude-skills] https://github.com/travisvn/awesome-claude-skills:一些很不错的ClaudeSkills

3.3 Agent & Workflow

提示词和 Skills 解决的是「单次对话怎么更好」的问题。但很快你会遇到另一个需求:我能不能把好几个步骤串起来,让 AI 自动跑完?

能。这就是 Workflow。

想象一条工厂流水线:原材料进去,经过切割、打磨、组装、质检,成品出来。Workflow 就是你给 AI 搭的一条流水线。你设定好每一步该做什么、数据怎么流转,触发之后它自动从头跑到尾。

比如:每天早上自动抓取行业新闻 → AI 总结成摘要 → 推送到你的飞书。整个过程不需要你动手,每天起床就能看到。

从哪里开始?

[扣子(Coze)] https://www.coze.cn是国内首选,拖拖拽拽就能搭。[n8n] https://n8n.io 是开源的,灵活度非常高,免费这一点也很香。Dify 更适合想做 AI 应用的人。

我的建议是:先从一个简单的场景入手。先做一个「每天自动给我推送行业新闻摘要」的小 Workflow,跑通了,你就有感觉了。

在企业的 AI 应用场景中,我们最看重的是其稳定性和确定性。

通过 Workflow 的形式,能够更好地确保 AI 运行的每个节点都不超出预期,让它完全按照我们的想法执行。

3.4 Vibe Coding:每个人都可以是创造者

接下来要聊的这个话题,我个人非常兴奋。

Collins 英语词典把「Vibe Coding」评为了 2025 年度词汇。不是什么 AI 术语、不是什么技术名词。一个关于写代码的概念,成了年度词汇。这本身就说明了一些事情。

什么是 Vibe Coding?

你不写代码。你用中文告诉 AI:「我想做一个番茄钟应用,要能设定工作时长和休息时长,界面简洁,用暖色调。」然后 AI 帮你把整个应用写出来。

就这样。你描述需求,它生成代码,你看效果,给反馈,它修改。来回几轮,一个能用的产品就出来了。

这件事最颠覆的地方在于:它模糊了「用户」和「开发者」的边界。

以前你想做一个小工具,你得学编程。学变量、学循环、学函数,怎么也得几周到几个月。现在呢?用自然语言描述你想要什么,几小时甚至几分钟,一个能跑的应用就出来了。

聊聊 Claude Code

在 Vibe Coding 工具里,我想重点聊聊 Claude Code。

Claude Code 是 Anthropic 推出的命令行 AI 编程工具。它不是一个编辑器插件,本质上是一个 Agent。你把它放到项目里,它能理解整个代码库的结构,自主规划该怎么做,然后一步步执行。

有一点技术门槛,你得会打开终端、敲命令行。如果你连终端是什么都不知道,可以先从 Cursor 或 Trae 这种有图形界面的工具开始。

但如果你有一点点基础,Claude Code 的体验是非常惊艳的。你可以跟它说「帮我把这个项目的登录功能改成支持手机号登录」,它会自己去读代码、理解架构、做修改、跑测试。

想入门的话:

  • [官方中文文档] https://code.claude.com/docs/zh-CN/overview
  • [awesome-claude-code] https://github.com/hesreallyhim/awesome-claude-code(21.6k Stars)
  • B 站 [30 个进阶技巧] https://www.bilibili.com/video/BV1XGbazvEuh/(12 万播放)
  • [刘小排 Claude Code 实战分享] https://mp.weixin.qq.com/s/sOPO_MWq9xsiHzYapszK5Q:全球 Claude Code Token 消耗量「榜一大哥」的实操经验

Vibe Coding 工具全景

工具公司特点费用
CursorAnysphere最流行的 AI 编程编辑器$20/月
Trae字节跳动部分免费,全中文,600 万+用户免费 & 收费
CodeBuddy腾讯完全免费,插件+IDE+CLI免费 & 收费
WindsurfCognition自有模型速度是 Sonnet 的 13 倍有免费额度
GPT CodexOpenAI可独立工作超 7 小时$20/月起

如果你在国内,入门推荐 Trae 和 CodeBuddy,免费额度、中文好、不用折腾网络。

普通人用 Vibe Coding 做了什么?

这部分是我最想写的,因为每一个案例都在打破「编程是程序员的事」这个旧观念。

CNBC 有个记者,完全没有技术背景,参加了一个 2 天的 Vibe Coding 训练营,出来的时候手里拿着一个完整的 App。两天。一个记者。

菲律宾有个叫 Pablo 的白领,直到成年才开始用电脑。他花了 2 小时,做出了一个费用管理 App

一个做营销的女生 Maddy Osman,只有最基础的编码知识,用 Vibe Coding 独立做出了好几个产品

创造的门槛正在被拉平。你脑子里那些「要是有这么一个工具就好了」的念头,现在真的有可能自己动手实现。

目前全球约 41% 的代码由 AI 生成。Lovable(一个 Vibe Coding 平台)上线 8 个月就达到了 1 亿美元的年化收入。

这,是一场正在发生的变革。

3.5 你的第一个「数字员工」:OpenClaw

前面聊了 Vibe Coding,你可以用自然语言造产品。接下来说说:用自然语言雇一个 24 小时在线的数字员工。

2026 年初,AI 圈有一个项目彻底出圈了,叫 OpenClaw(openclaw.bot)。GitHub Stars 飙到了 22 万+,各家云厂商争相接入,可以说是今年 Agent 领域最值得关注的现象级项目。

OpenClaw 是什么?

一句话说:它是一个开源的 AI Agent,运行在你自己的电脑或云服务器上,能通过 Discord、Telegram、飞书、WhatsApp 等聊天工具跟你交互。你在手机上发一条消息,它就在服务器上帮你干活。

跟前面 2.4 提到的那些 Agent 产品不同,OpenClaw 更像是一个你「自己养」的 AI 助手。它跑在你自己的环境里,能读文件、执行命令、浏览网页、操作各种工具,而且 7×24 小时在线。

如果说前面聊的那些 Agent 产品是"别人家的员工帮你跑腿",OpenClaw 更像是"你自己雇了一个实习生,住在你办公室里,随叫随到"。

它的灵魂在于 Skills

OpenClaw 最核心的设计是 Skills 生态。你给它装什么技能,它就能干什么活。这跟我们前面 3.2 聊的 Skills 概念一脉相承,只不过在 OpenClaw 里,Skills 变成了 Agent 的「能力包」,装上就能用。

比如你给它装上搜索 Skill,它就能帮你每天定时抓取行业新闻,整理成摘要推送给你。装上代码执行 Skill,它就能帮你写网页、跑脚本。装上金融数据 Skill,它甚至能帮你监控行情,有重大波动立刻通知你。

而且 Skills 是纯自然语言写的,会写提示词就会写 Skills。社区里已经有大量现成的 Skill 库可以直接用:

  • [ClawHub Skills] https://www.clawhub.ai/skills:官方精选 Skill 市场
  • [awesome-openclaw-skills] https://github.com/VoltAgent/awesome-openclaw-skills:社区整理的精选合集

能用它做什么?

举几个我自己跑通的场景:

  • 自动新闻监控:设好关键词和信息源,它每隔一段时间自动帮你抓取、筛选、总结,推送到你的聊天工具里。起床就能看到。
  • 自然语言建站:手机上发一句「帮我做个番茄闹钟的网页,要有不错的交互」,它直接在服务器上写代码、部署上线,几分钟后甩给你一个链接。
  • 文件处理助手:丢给它一个 PDF 或表格,让它分析、提取、转换格式,全程不用开电脑。
  • 定时任务执行:每天早上八点自动执行某个流程,周报自动生成,数据自动备份……设一次,跑很久。

为什么说它代表了一个重要趋势?

OpenClaw 最有意思的一个设计叫 Gateway——它在 Agent 和各种通讯工具之间搭了一座桥。这意味着你不需要打开电脑、不需要登录某个网站,直接在微信、飞书、Discord 这些你每天都在用的工具里,就能跟 Agent 对话,让它帮你干活。

这件事的意义在于:Agent 第一次真正融入了你的日常通讯流。它不再是一个你需要专门去访问的工具,而是像一个同事一样,住在你的群聊里,随时待命。

更深一层,OpenClaw 的 Skills 还能自举——Agent 可以在执行任务的过程中,自己发现可复用的经验,自己封装成新的 Skill,自己装上。也就是说,它会越用越好用,这跟我们前面心法五讲的「沉淀复利」是同一个道理,只不过这次沉淀经验的不是你,是 Agent 自己。

怎么开始?

【插入之前OpenClaw Kimi的文章】

  • [OpenClaw 官网] https://openclaw.ai/
  • [GitHub 仓库]https://github.com/openclaw/openclaw

一句话总结:OpenClaw 把"AI 会聊天"这件事,推进到了"AI 能干活"。 如果说 2025 年的关键词是 Vibe Coding,那 2026 年你一定会反复听到的词,就是 Agent。
而 OpenClaw,是目前这个方向上最值得体验的项目之一。

3.6 建好你的「雷达系统」:AI 信息网络

AI 领域变化太快了。你不可能靠一次性学习就一劳永逸。

你需要的不是「学完」,而是建立一个持续获取信息的网络。

下面这些是我个人关注多年、反复筛选后留下来的信源,很多都是线下的好朋友。

因为我看公众号比较多,所以大多数都是以微信生态为主的..小红书、B站了解的朋友可以评论区见!

中文博主推荐(几大分类)

① AI General

量子位、机器之心、数字生命卡兹克、赛博禅心、Agent 橘子、特工宇宙、卡尔的AI沃茨、沃垠 AI、夕小瑶科技说、张咋啦。这几个覆盖了 AI 领域大部分重要动态,选 1-2 个固定关注就够了。

② AI Prompt & Agent

宝玉AI、李继刚、云中江树、向阳乔木、一泽、云舒的AI实践日记、甲木等。还有一个必须提的是「归藏的 AI 工具箱」,信息密度极高。

③ AI Design

汗青、海辛和阿文、阿真Irene、TATALAB等,对非设计师也很有启发。

④ AI Tech

苍何、袋鼠帝、刘聪 NLP、花叔、饼干哥哥。技术含量高,但不至于看不懂。

⑤ AI Product

AI 产品阿颖、洛小山、AI 产品银海、AI产品黄叔等。

⑥ AI Tutorial

Rico 有三猫、栗噔噔、摸鱼小李、AIGC新知等,风格轻松,跟着做就能出活。

💡 关于 Claude Code 和 Vibe Coding,特别推荐看刘小排的分享

海外信息源

X(Twitter)是最快的,OpenAI、Anthropic 的重要发布基本都先在 X 上出来。YouTube 上 Lex Fridman 的深度访谈质量很高https://www.youtube.com/@lexfridman。The Information 和 TechCrunch 是产业分析的标配。

X的推荐博主,在第四章给大家列出来

「可是我英文不好怎么办?」装一个「沉浸式翻译」浏览器插件,英文网页秒变双语对照,语言不再是信息壁垒。

播客推荐

英文:Lex Fridman、20VC。中文:Founder Park、十字路口 Crossing。

最后一点:不要试图关注所有信源。

信息过载和信息匮乏一样有害。固定 1-2 个每天看的,1-2 个每周看的,其余放收藏夹,有需要的时候再翻。用 AI 帮你做信息筛选和摘要,不要跟信息流拼体力。


到这里,你已经有了一张比较完整的能力地图。但你可能已经开始想一个更深的问题了:AI 这么猛,它到底会走向哪里?钱在往哪流?我该怎么提前站位?

这些问题,我们下一章聊。

第四章:看得远——源头信息与前沿洞察(洞察篇)

前面三章,我们聊的是怎么把 AI 用起来、用好、用出花来。

但你有没有想过一个问题:你用的这些工具,半年后还在不在?你学的这些技巧,一年后还管不管用?

AI 这个领域变化太快了。你今天觉得很厉害的功能,三个月后可能变成免费标配。你今天花大力气学的某个平台,半年后可能已经被收购或者关停了。

所以光会「用」还不够。你得学会「看」。

看懂 AI 正在往哪走,你才能提前站到对的位置上。

4.1 别喝二手水:去源头获取一手信息

我有一个习惯,看到任何 AI 相关的新闻,我都会去找原始出处。

不是因为我不信媒体,而是这个领域的信息衰减太严重了。一篇论文发出来,经过英文科技媒体报道、国内媒体翻译、自媒体二次加工、短视频三次加工……到你手里的时候,可能已经面目全非。

跟对人:AI 领域值得关注的头脑

第一类是技术大佬,他们的观点值得深度消化。

图灵奖三巨头:Yoshua Bengio、Geoffrey Hinton、Yann LeCun。有意思的是,Hinton 现在是「AI 末日派」,LeCun 是坚定的「AI 乐观派」,Bengio 在中间偏谨慎。三个人经常互相怼。看他们争论,比看任何分析文章都有营养。

李飞飞和吴恩达。李飞飞对 AI 与人文的交叉思考非常有深度。吴恩达是 AI 教育界的传奇,而且他一直在一线做项目,不是那种脱离实践的学者。

Ilya Sutskever,OpenAI 的联合创始人。这个人很少公开发言,但每次说话都值得反复品味。

国内这边,梁文锋,DeepSeek 背后的人。他很少接受采访,但 DeepSeek 的技术路线本身就是他最好的表达。

第二类是商业领袖,他们的观点要带「滤镜」看。

Sam Altman、马斯克、黄仁勋、扎克伯格、李彦宏……这些名字你肯定不陌生。

但冷逸有个观点我很认同:「他们的采访都是有商业目的的,要么提高公司估值,要么寻找投资人,以及迷惑竞争对手。」

所以听他们说什么,更要看他们做什么。把钱投到哪里,比嘴上说什么诚实得多。

获取渠道推荐:

  • X(原 Twitter):AI 领域最重要的信息广场,没有之一
  • Lex Fridman 播客:长对话,动不动三四个小时,但深度是真的深度
  • 20VC:偏投资和商业视角

建议关注的X账号列表

官方科研博客

海外:Anthropic Research(写得最好https://www.anthropic.com/research)、OpenAI Newshttps://openai.com/news、Google DeepMindhttps://deepmind.google/research/publications、Meta AI Bloghttps://ai.meta.com/blog

国内:Qwen 博客(通义千问团队https://qwenlm.github.io/blog/)、Seed(字节跳动https://seed.bytedance.com)、腾讯混元、Kimi/智谱/DeepSeek 的公众号。

养成习惯,每周花 20 分钟扫一遍这些源。不需要每篇都精读,扫标题就行。

还有 Reddit,国外版小红书。很多越狱提示词、时髦玩法都来自这里
https://www.reddit.com/

论文没你想的那么可怕

你不需要看懂每一个公式。你只需要知道:这篇论文在解决什么问题?效果怎么样?对我有什么影响?

而且现在有 AI 帮你。Kimi 学术搜索可以帮你快速理解一篇论文的核心内容。BabelDOC 可以把整篇论文翻译成排版精美的中文版。

如果你只读三篇论文:

  • 《Attention Is All You Need》:Transformer 的开山之作,改变了整个 AI 的发展轨迹
  • 斯坦福小镇(Generative Agents):让 25 个 AI 角色在虚拟小镇里自主生活
  • ReAct:推理和行动结合,当前 AI Agent 框架的理论基础

4.2 想深入?这些课和书值得花时间

好消息是,全世界最顶级的 AI 课程,绝大多数都是免费的。不是打折,是真的免费。

课程列表

课程来自一句话描述费用
Stanford CS336斯坦福带你从零构建一个语言模型免费材料
Berkeley CS294UC Berkeley高阶 LLM Agent 课程免费材料
DeepLearning.AI 短课DeepLearning.AI每门 1-2 小时的主题短课免费
Hugging Face 全家桶Hugging Face6 门课覆盖 NLP 到多模态免费
LangChain AcademyLangChain专注 Agent 开发基础免费
fast.aifast.ai代码优先的实践派免费

如果你完全没有编程基础,从 DeepLearning.AI 的短课开始。如果你有一点编程基础,fast.ai 非常适合。如果你是在校学生想往 AI 方向走,Stanford CS336 和 Berkeley CS294 是天花板级别。

书单:这几本值得放在手边

  • 《深度学习》 Ian Goodfellow 著。圈内人叫它「AI 圣经」。不需要从头读到尾,当工具书翻就行。
  • 科普类:《这就是ChatGPT》《深度学习革命》《AI未来进行式》都挺不错
  • 哲思应用类:《拐点》《人比AI凶》——万维钢《关于说话的一切》——写Prompt有帮助
  • 轻度技术类:《GPT图解》《智能体设计指南》《动手做AI Agent》
  • 技术进阶类:《RAG实战课》《这就是MCP》等
  • llya推荐的30个阅读清单
    https://arc.net/folder/D0472A20-9C20-4D3F-B145-D2865C0A9FEE

还有两本免费电子书特别推荐:黄叔的《AI 编程蓝皮书》2.0,以及姚金刚和向阳乔木的《GEO 白皮书》(21 万字)。

4.3 钱往哪里流,行业就往哪里走

这个小节,我想跟你聊点不一样的。不聊技术,聊钱。

因为资本的流向,是预判未来最诚实的信号。投资人可以在采访里说漂亮话,但他们不会拿真金白银开玩笑。

值得追踪的 AI 投资风向标

  • 红杉资本(美国红杉 Sequoia Capital):sequoiacap.com
  • a16z:a16z.com,每年发布的《State of AI》报告是行业必读
  • Y Combinatorycombinator.com,每期批次里 AI 项目的比例就是行业温度计
  • 奇绩创坛miracleplus.com,陆奇创办的,可以理解为「中国版 YC」

2026 年初,我们站在哪里?

先看钱的规模。2025 年,全球 AI 领域的私人融资总额达到了 2258 亿美元。科技四巨头 2026 年计划的资本支出合计达到 6350 到 6650 亿美元,其中大部分用于 AI 基础设施建设。六千多亿美元砸下去建数据中心和买 GPU,这种级别的投入,在人类商业史上也是罕见的。

再看企业采用。McKinsey 2025 年的报告显示,88% 的组织已经在使用 AI。但其中只有 6% 真正从 AI 中获得了显著商业价值。大多数公司还处于「用了,但没用好」的阶段。这恰恰是巨大的机会。谁能帮企业把 AI 从「用了」变成「用好」,谁就能吃到最大的红利。

Agent 方向全面爆发。2025 年 AI Agent 市场规模 78.4 亿美元,预计 2030 年达到 526 亿美元。YC 最近几期的批次里超过 80% 的项目跟 AI 相关,Agent 是最热的方向。Gartner 预测 2026 年 40% 的企业应用会嵌入 Agent。

垂直行业的渗透速度也让我很惊讶。医疗领域,医生使用 AI 的比例从 38% 飙升到 66%。法律行业,律所 AI 采用率从 19% 涨到 79%。金融领域,银行的生成式 AI 采用率从 8% 蹿到 78%。如果你在这些行业里,AI 能力已经不是加分项了,它是基本功。

国内外的差异也值得关注。目前美国占全球 AI 投资的 79%。海外侧重基础模型研发和开发者生态,国内侧重应用落地和场景创新。简单说:海外在造「发动机」,国内在造「车」。

几份报告值得收藏

  • 红杉资本《AI in 2026》 (https://sequoiacap.com/article/ai-in-2026-the-tale-of-two-ais/)
  • a16z《State of AI》 (https://a16z.com/state-of-ai/)
  • Stanford HAI《AI Index 2025》(https://hai.stanford.edu/assets/files/hai_ai_index_report_2025.pdf)(400+页)
  • McKinsey《The State of AI》(https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai)
  • Anthropic《2026 Agentic Coding Trends Report》(https://resources.anthropic.com/2026-agentic-coding-trends-report)

对普通人意味着什么?

选什么技能?看资本在追什么。Agent 开发、AI 应用集成、提示工程,这些方向在未来两三年确定性很高。

进什么行业?看 AI 在哪些垂直领域渗透最快。医疗、法律、金融、教育,这些行业的 AI 改造才刚刚开始。

做什么产品?看 YC 和奇绩创坛每期在孵化什么。它们的项目列表就是一份「未来热门方向预告片」。

4.4 职业发展:用作品说话

聊完了大趋势,回到一个很现实的问题:这些东西怎么变成我的职业竞争力?

我的建议只有四个字:用作品说话。

在 AI 领域,没人在乎你的简历上写了什么。他们在乎的是:你做了什么?

在 Coze 上打造一个爆款智能体,用户量破万。在 GitHub 上开源一个 AI 项目,拿到几百个 Star。在 ProductHunt 上发布一个 AI 小工具,被社区推荐到首页。这些事情,每一件都比任何证书有说服力。

说到证书,说句实话:目前市面上还没有一张 AI 证书是被行业真正认可的。了解一下可以,但不要把主要精力放在考证上。

与其花时间考证,不如花时间在这几个平台上建立存在感:

  • X:关注行业动态,参与讨论,分享你的思考
  • GitHub:你的代码作品集
  • HuggingFace:AI 领域的「GitHub」,分享模型和数据集
  • ProductHunt:发布你的 AI 产品,获取真实用户反馈
  • 飞书:国内很多 AI 社群在飞书上,信息密度高

在一个快速变化的领域里,你的学习能力和实际产出,永远比一纸证书更有价值。

结语

写到这里,一万多字了。

如果你从头读到这儿,辛苦了。如果你是跳着读的,也完全没问题,这本来就是给不同阶段的人准备的。

你不需要从线性代数开始。你不需要学会写代码。你不需要读完所有论文。你只需要打开一个 AI 工具,开始跟它对话。

我一直觉得四个阶段:了解 AI,走进 AI,驾驭 AI,「超越 AI」。

超越不是说你比 AI 厉害。而是你知道怎么跟它协作,让 1+1 大于 2。你知道什么时候该依赖它,什么时候该相信自己。你能用它放大你的优势,而不是被它取代。

万维钢说过:「我们永远不会在 AI 面前失去自我,我们不但应该,而且必须,而且可以,以'我'为主。」

是的,以「我」为主。

AI 是工具,是伙伴,是放大器。但掌舵的那个人,始终是你自己。

人要比 AI 凶。

知易行难,从 0 到 1 最难。但开始了,路就清晰了。

如果你今天只做一件事,我的建议是:打开一个 AI 工具,跟它聊 10 分钟。随便聊什么都行。

不要等到「准备好了」再开始。没有人准备好了才开始的。都是开始了,才慢慢准备好的。

说不定下一个惊艳世界的点子,就来自你此时此刻的好奇心。

以上。


我是甲木,热衷于分享一些AI干货内容,同时也会分享AI在各行业的落地应用,我们下期再见👋🏻

参考文章与资源

行业报告

参考文章

本文由mdnice多平台发布

中小企业CRM核心能力横向对比:从功能深度到场景适配的专业解析

在数字化转型中,CRM(客户关系管理)已从“销售工具”升级为“全业务协同平台”,核心价值在于打通“线索-合同-售后-供应链”全链路,通过AI智能提升效率。本文基于超兔一体云、Freshsales(Freshworks)、钉钉营销服CRM、销售易、SuiteCRM、 EC (六度人和)的公开能力,从合同订单、售后、团队协同、采购、AI智能五大维度展开深度横评,结合流程图、脑图与雷达图,为企业选型提供专业参考。

一、核心能力横向对比总表

先通过结构化表格呈现各品牌的核心差异(满分5分,分值越高表示功能深度与场景适配性越强):

维度超兔一体云Freshsales钉钉营销服CRM销售易SuiteCRMEC(六度人和)
合同订单管理544523
售后管理453524
团队协同545433
采购管理524521
AI智能453524

二、五大维度深度对比与场景解析

1. 合同订单管理:从“流程覆盖”到“全链路协同”

合同订单是CRM的“业务起点”,核心需求是适配多业务模型、自动化执行、财务风险管控

各品牌能力拆解
  • 超兔一体云: 覆盖服务型(合同视图)、实物型(订单锁库)、特殊型(维修/外勤工单)三大业务模型,订单执行自动化(自动生成采购计划、供应商直发),并实现“应收-开票-回款”三角联动(控制账期、信用度,规避坏账风险)。 场景适配:设备销售+维保、工程服务、贸易公司(多业务类型混合)。 流程图:超兔订单执行逻辑

flowchart LR
  A[销售生成订单] --> B{业务类型}
  B -->|服务| C[合同视图]
  B -->|实物| D[订单锁库→采购计划]
  B -->|特殊| E[维修/外勤工单]
  C/D/E --> F[触发应收]
  F --> G[财务三角联动]
  G --> H[订单状态更新]
  • 销售易: 提供合同全生命周期管理(电子合同签署、行业合规校验,如医疗设备资质审核),与财务系统联动确保“合同-发票-付款”一致性,同时对接供应链系统(采购/生产/委外),实现“订单驱动供应链”。 场景适配:医疗、制造业(需合规与供应链整合)。
  • Freshsales: 聚焦“线索到订单”流程,通过AI从邮件/通话中自动提取客户信息(填充合同/订单),支持DocuSign电子签约,订单状态自动更新(如“已付款”触发“发货”)。 场景适配:SaaS、电商(销售流程标准化)。
  • EC: 简化私域场景合同流程,AI自动填充客户信息(如微信社群中的用户资料),适合“小订单、高频率”的零售业务。

2. 售后管理:从“问题解决”到“客户复购”

售后的核心是全渠道响应、流程闭环、复购挖掘,而非仅“处理投诉”。

各品牌能力拆解
  • Freshsales(Freshworks) : 依托Freshdesk(全渠道售后平台),整合邮件、电话、聊天、社交媒体的请求为统一工单,通过Freddy AI实现:

    • 24/7自助服务(常见问题自动回复);
    • 工单智能分配(根据技能/负载);
    • 跨部门协作(复杂问题共享工单给产品/技术)。 数据表现:26%更快首次响应、34%更短解决时间。 流程图:Freshdesk售后流程
flowchart LR
  A[多渠道请求] --> B[Freshdesk工单]
  B --> C{AI判断}
  C -->|简单| D[Freddy回复]
  C -->|复杂| E[分配客服]
  E --> F[跨部门协作]
  D/E --> G[SLA跟踪]
  G --> H[解决闭环]
  • 销售易: 打通“线索-交付-维保”全流程,通过IoT数据预测设备质保到期时间(提前提醒续签),AI智能派单(如“北京地区设备故障”分配给当地工程师),实现“预测性服务”。 场景适配:制造业(设备维保)、医疗设备(合规售后)。
  • 超兔一体云: 提供客服总控台(岗位权限隔离),通过RFM模型(客户价值分析)挖掘复购潜力(如“3个月未下单的高价值客户”),并跟踪维修/外勤工单全流程(来店维修→配件采购→上门服务)。 场景适配:零售(复购挖掘)、服务行业(现场服务)。
  • EC: 基于微信社群数据,AI生成售后话术模板(如“客户抱怨快递慢”自动推荐“补偿优惠券”),提升私域客户体验。

3. 团队协同:从“信息共享”到“生态联动”

团队协同的核心是权限可控、数据打通、多端联动,避免“信息孤岛”。

各品牌能力拆解
  • 钉钉营销服CRM: 依托钉钉生态,实现目标管理-绩效考核-业务数据的闭环:

    • 目标设定(如“季度销售额100万”)→ 实时追踪(销售进度可视化)→ 奖金核算(数据自动关联);
    • 低代码平台扩展(如自定义“客户跟进”流程)。 场景适配:中小企业(内部协同频繁)。
  • 超兔一体云: 采用全局自动权限机制(上级管下级、同级隔离、老板全局),支持项目全周期管理(在一个视图内整合项目组、合同、采购、收支),适合“大型项目交付”(如工程、系统集成)。 多端协同:Web、App、小程序、RPA插件(如财务用RPA自动对账)。
  • 销售易: 通过伙伴云整合渠道资源(如代理商、经销商),团队成员可共享“客户上下文”(如“该客户之前投诉过产品bug”),并通过NeoAgent(AI智能体)自动化重复任务(如数据录入、流程触发),释放人力做高价值工作。

4. 采购管理:从“需求发起”到“供应链协同”

采购的核心是订单驱动、供应商管理、流程透明,而非仅“下采购单”。

各品牌能力拆解
  • 超兔一体云: 提供智能采购(库存缺口自动计算→生成采购计划→匹配历史供应商),通过OpenCRM(上游协同平台)实现:

    • 询价比价(自动对比供应商报价);
    • 供应商评级(雷达图显示“价格-质量-交付”得分);
    • 采购单“三流合一”(单据-货物-发票关联)。 场景适配:贸易、零售(依赖供应链效率)。
  • 销售易: 订单直接联动供应链,支持采购/生产/委外协同(如“客户下单100台设备”→ 自动触发“采购配件→生产→委外组装”),与ERP系统实时同步库存(避免“超卖”)。 场景适配:制造业(产供销一体化)。
  • Freshsales: 需集成ERP或第三方工具(如SAP)实现采购管理,原生功能较弱。

5. AI智能:从“辅助工具”到“决策核心”

AI的价值是替代重复劳动、提供预测性 insights,而非“炫技”。

各品牌能力拆解
  • 销售易: 基于Einstein AI(Salesforce同款引擎)实现:

    • 赢单概率预测(准确率85%+,优先跟进高潜力线索);
    • 合同风险检测(识别“霸王条款”“合规漏洞”,准确率85%+);
    • 智能客服(自动化录入售后数据,降低人工成本)。 场景适配:中大型企业(需要深度决策支持)。
  • FreshsalesFreddy AI覆盖全流程:

    • 销售端:自动生成邮件序列(如“跟进潜在客户”的话术)、线索评分(高意向客户标红);
    • 售后端:实时翻译工单(支持50+语言)、生成回复建议;
    • 自动化:无代码工具自动执行重复任务(如“新员工入职”模板),节省60%手动时间。 场景适配:跨境电商、科技企业(依赖AI自动化)。
  • 超兔一体云: 支持自定义AI智能体(嵌入客户/机会/项目视图),可调用Coze工作流(如“客户视图中自动生成‘复购建议’”),并通过多引擎分析(数字卡片、同比环比、多表聚合)提供数据驱动决策。

三、品牌优势场景与选型建议

通过雷达图(分值越高能力越强)可清晰看到各品牌的“长板”:

品牌核心优势最佳适配场景
超兔一体云多业务模型、采购协同、项目管理设备销售+维保、工程服务、贸易公司
Freshsales销售自动化、全渠道售后、Freddy AISaaS、电商、科技企业(销售流程标准化)
钉钉营销服CRM生态联动、目标管理、团队协同中小企业(钉钉深度使用)
销售易全流程打通、行业合规、Einstein AI医疗、制造业(中大型企业,需合规与供应链)
SuiteCRM开源定制、预算有限初创公司、传统行业基础CRM需求
EC私域裂变、复购提升零售(微信/抖音私域)

四、总结:CRM选型的3个关键

  1. 匹配业务模型:如“多业务类型”选超兔,“私域”选EC,“供应链整合”选销售易;
  2. 聚焦核心需求:如“售后”选Freshsales,“团队协同”选钉钉,“AI决策”选销售易;
  3. 考虑生态兼容性:如钉钉生态选钉钉CRM,已用Freshdesk选Freshsales。

CRM的本质是“业务赋能”,而非“技术堆叠”——选择最贴合自身场景的工具,才能真正提升效率与客户价值。

PingCastle 3.5.0.40 - Active Directory 安全检测和评估

活动目录域安全分析工具

请访问原文链接:https://sysin.org/blog/pingcastle/ 查看最新版。原创作品,转载请保留出处。

作者主页:sysin.org


在 20% 的时间内获得 80% 的 Active Directory 安全性

PingCastle

Active Directory 正迅速成为任何大型公司的关键故障点,因为它的安全既复杂又成本高昂。

人员和流程

PingCastle 的诞生基于一个发现:仅基于技术的安全是行不通的。这就是为什么 公司关注流程和人员 而不仅仅是技术。我们不卖产品!

PingCastle

使用我们的工具并应用我们的方法或查看我们的合作伙伴如何为您带来更多价值。

基于成熟度的方法论

我们不提供保护您的基础设施的解决方案 (sysin)。相反,我们提供工具来发现您必须保护的内容、评估其安全级别并提供有关分配的预算是否得到有效利用的见解。

PingCastle

对于 IT 运营

帮助检测关键安全问题、了解技术状况并提供解决问题的指导和建议。

对于 IT 管理

评估当前的安全级别,指出是否存在严重风险,并就行动计划的优先事项提供建议。

成熟度和结果

建立 IT 管理和 IT 运营之间的通用词汇并提供成熟度评估

可交付成果

我们专注于您需要的可交付成果。您的关键程度是多少?您知道您有多少个域名吗?你能制作一个用于管理的仪表板吗?

健康检查

可以快速收集 Active Directory 最重要的信息以对其进行概述。它根据模型和规则评估Active Directory子进程的分数。然后基于此评估,报告其风险评估。

PingCastle

示意图

绘制地图是通过“信任”链接的活动目录的表示 (sysin)。根据信息的新鲜度和信任链接的深度,它可能更不准确或更准确。事实上,当开始这个过程时,没有太多可用的信息,PingCastle 使用了一组技巧来尽可能地扩展它。

PingCastle

概览

当上下文信息可用时,PingCastle 可以生成一个仪表板以方便表示其收集的数据。这种视图既有全局层面的,也有局部层面的。

PingCastle

新增功能

PingCastle 3.5.0.40

此版本仅错误修复。

PingCastle 3.5.0.37

发布说明

🔐 特权模式更新

  • S-Vuln-MS14-068
  • S-Vuln-MS17-010

    • 检测逻辑现在会检查域控制器上已安装的热修复程序(hotfix)
如果未启用特权模式,这些规则将不再被评估。

🛠️ 规则更新与修复

DNS 区域规则

A-DnsZoneUpdate1 & A-DnsZoneUpdate2

  • _msdcs.* 区域现在被归类为关键基础设施
  • 报告内容已扩展 (sysin),新增包含:

    • 区域名称
    • 域名
    • 可分辨名称(Distinguished Name)
    • 分区(Partition)

这使 DNS 相关信息更加清晰,并简化了后续的修复与整改规划。

P-Kerberoasting

  • 修复了当用户同时属于多个特权组时产生重复发现项的问题,使结果更加聚焦。
  • 报告现在显示:

    • 每个存在风险的用户仅一行
    • 所有关联的组和 SPN 进行汇总展示

T-SIDFiltering

  • 修复了在旧版 Windows 2000 林内信任关系中的误报问题。
  • 这些信任关系通常由于历史域升级,导致 TrustAttributes = 0
  • 新增基于 CrossRef 的过滤逻辑 (sysin),能够正确识别林内信任关系,并且不再将其错误标记为不安全。

Microsoft Defender 攻击面缩减(ASR)

  • Microsoft 在 Windows Server 2025 中更改了 ASR 策略的位置。
  • PingCastle 现在会检查全部三种可能的 GPO 路径
  • 确保在混合服务器版本环境中,ASR 检测依然可靠。

其他规则修复

  • A-DnsZoneAUCreateChild

    • 修复了当域控制器上不存在 DNS 分区时出现的漏报问题。
    • 之前由于一段无法到达的代码路径,部分环境会被完全跳过。
  • S-FolderOptions

    • 修复建议现在指向正确的 GPO 路径

🚀 平台更新:升级至 ASP.NET 8

PingCastle 已升级至 ASP.NET 8,以与 PingCastle Enterprise 保持一致,并希望借此减少过去几个月在部分环境中观察到的杀毒软件误报问题

你可以预期的变化

  • 可执行文件体积更大(约 200 MB)

    • ASP.NET 8 被直接打包进可执行文件中,以简化运行方式。
    • 不再需要任何外部运行时依赖 (sysin)。
  • 配置文件变更

    • 配置文件从 PingCastle.exe.config
      迁移至:appsettings.console.json
  • 自动更新行为变更

    • 如果你使用 PingCastleAutoUpdater.exe,则需要执行两次

      1. 第一次运行:下载新版本
      2. 第二次运行:自动将现有配置迁移到 appsettings.console.json

更新(2026 年 2 月 5 日)
经确认,PingCastle 在发布时由于构建与发布流水线中的顺序问题,错误地发布了未签名的二进制文件。因此,发布版本号已从 3.5.0.33 更新为 3.5.0.37
这两个版本之间没有任何代码改动,仅对构建与发布流水线进行了调整。

下载地址

PingCastle 3.5.0.7 Professional for Windows (updated February 2026)

相关产品:Windows 下载汇总


先说结论:一定要买尊享卡!!!

一大早 5 点多被对象拉起床,赶着地铁去到迪士尼站,到了园区入口已经快 7 点了,园区是 8 点半开始入园,以为提前一个小时能快速免排队玩一个项目,结果好家伙,前面游湖已经是人山人海了

毫无悬念,第一个排队玩全球唯一的疯狂动物城,排了快一小时,感觉还行一个小时多点,问题不大,结果原来是排队入的疯狂动物城的园区?!然后项目还要排两个小时?我人都麻了!

然后我发现一个巨 bug 的地方,原来尊享卡是插队的模式!也就是尊享卡所谓的优先通道是通过插队普通票的方式,还有那个排队方式是精心设计过的,让你们感觉准备排完了,结果里面还有九曲十八弯的队伍(没想到吧)

最后一天才玩了五个项目,(不过有一说一,项目质量十分高,推荐一试)烟花还没看全,体验有点差,下次有机会买尊享卡再去吧

前言:2026 年想做一个关于中年男人兴趣的社区,求打醒我

经过一个春节假期的赶工,第一版上线啦!

在上个帖子中我说会把当时注册的 V 友标记为原始股东,所以在社区上线前就注册的 V 友们可以领取这个原始股东勋章: https://www.middlefun.com/badges ,谢谢大家的鼓励!

虽然现在上线了,说实话我并不知道如何把社区运营好,所以写了这么一篇帖子说明为什么做这么一个社区:

写在社区上线第一版的时候

目前仍有功能待开发和 BUG, 希望各位可以给出社区运营的建议和帮助, 谢谢!

引言

大数据系统的快速扩张,暴露了传统优化技术的局限性,尤其是在分布式架构、动态工作负载以及信息不完全等环境中。如今,各类组织每天处理海量数据以提取业务洞察,例如分析客户行为、预测设备故障、优化供应链以及检测欺诈行为。这些分析任务通常依赖多种分布式数据处理框架来执行,而这些框架都提供大量配置参数,这些参数对性能有着至关重要的影响。论文《大数据处理系统自动参数调优综述》(Herodotou、Yuxing 和 Jiaheng 于 2020 年著)指出了同样的问题,并强调需要能够适应动态负载与环境变化的智能自动调优系统。

 

为应对这一需求,本文提出了一种强化学习(Reinforcement Learning,RL)方法,使分布式计算系统能够像“学徒工程师”通过实践学习那样,自主学习最优配置。我们实现了一个轻量级智能体,作为驱动端组件部署,在任务运行前利用强化学习选择配置参数。

 

本文以Apache Spark为实践基础。Spark 是一种具有代表性的分布式计算框架,可将计算任务分布到数百台机器上执行。Spark 的性能高度依赖配置参数,而这些参数通常使用静态默认值,或由领域专家手动调优。然而,当工作负载特征和数据分布发生变化时,这种方式难以适应。如果配置选择不当,本应在数分钟内完成的分析可能会延长至数小时,同时显著增加云计算成本。随着数据集日益多样化、工作负载愈加动态,依赖静态或手动调优的方式变得脆弱且在经济上难以持续。

 

在处理数百个作业之后,智能体逐渐形成对模式的“直觉”:数据集较小且类别较少时,只需较少的工作节点;数据规模较大且类别丰富时,则需要更多资源。智能体能够完美记住每一次实验结果,从不遗忘经验教训,并将这些累积的知识自动应用到新的工作负载中,相当于把数月专家调优经验转化为一种 24/7 即时可用的智能能力。工程师无需在数据特征变化时反复重新配置系统,智能体会随着每一次作业的执行而不断变得更加智能。

 

Q-learning 智能体是一种强化学习智能体,它通过迭代估计在特定状态下采取某一行动所能获得的长期期望回报,从而学习最优策略。在实际应用中,智能体会观察数据集特征(例如行数、数据规模、基数以及数据倾斜情况),尝试不同的配置参数组合,测量执行性能,并逐步学习在特定数据模式下哪些参数选择效果最佳。

 

本文比较了 Apache Spark 中三种优化策略:内置的自适应查询执行(AQE)、基于 Q-learning 的独立智能体,以及结合两者的混合策略。比较结果表明,混合策略优于单独使用任一方法,因为它将执行前的智能决策(由强化学习选择最优初始配置)与运行时的动态调整(由 AQE 执行)结合在一起。

 

在单智能体实验结果的基础上,本文进一步讨论了一种多智能体强化学习系统的概念扩展方案。该系统由多个相互独立、具备专业化分工的智能体组成,每个智能体专注于优化不同的配置领域,例如内存分配、CPU 核数或缓存策略。每个智能体在其专属领域内成为专家,同时共同协作以优化整体工作负载性能。通过将强化学习理念与分布式系统相结合,本研究为构建能够从经验中学习、无需依赖静态规则或人工干预的智能自调优大数据基础设施奠定了基础。

 

问题背景:Spark 配置优化

Spark 的性能在很大程度上依赖于诸如 shuffle 分区数、内存分配以及并行度设置等配置参数。静态默认值(例如 200 个 shuffle 分区)无法根据数据规模、基数和数据倾斜等不同数据特征进行自适应调整。手动调优不仅需要深厚的领域知识,而且耗时费力,并且针对某一类工作负载优化过的配置,往往在其他负载下表现不佳。

 

以一家虚构的视频分析公司 StreamMetrics 为例。该公司为内容创作者处理视频观看数据,其数据工程团队每天都面临类似挑战:每天早晨,他们运行一个轻量级报表,对前一天按类别(如科学、音乐、娱乐)统计的观看数据进行分析,数据规模仅为数千行。

 

中午,他们会处理每周趋势分析任务,在约 50 万行数据中识别爆款内容。到月底,他们生成综合创作者报告,聚合数百万行数据,涵盖数百个类别,并且数据分布高度倾斜。例如,“游戏”类别可能拥有数百万次观看,而“折纸教程”等小众类别仅有数百次观看。此外,内容创作者还会在全天发起临时分析请求,其数据规模和分布模式都难以预测。

 

在使用 Spark 默认的 200 个 shuffle 分区时,早晨的报表会浪费资源去协调 200 个几乎为空的小任务;每周分析任务可能“误打误撞”运行得还不错;而月底的大规模报告则会因 200 个分区无法有效处理庞大且倾斜的数据而表现不佳。团队当然可以针对每种负载类型手动调优配置,但随着数据模式不断变化,这需要持续维护;例如,上个月的最优配置可能在本月因某个爆款趋势改变类别分布而失效。这正是强化学习能够改变运维方式的典型动态环境。

 

这里,我编写了一个简单的 Spark SQL 查询,用于在一个包含数千行数据的数据集上按类别(如 Science、Music、Entertainment)对视频观看量进行分组统计。

 

默认情况下,这个 groupBy 操作会创建 200 个 shuffle 分区,如图 1 所示。然而,对于小规模数据集而言,这种配置是低效的,因为 Spark 会启动大量微小的 shuffle 任务并生成大量小文件,相对于实际计算量而言,调度、磁盘 I/O 和元数据开销占比过高。大多数分区几乎为空,导致 CPU 和内存资源浪费,同时 driver 和集群将更多时间用于协调任务而非处理数据。

 

图 1:针对一个小文件创建了 200 个任务(Gandhi,2026)

 

在实践中,Spark 开发者通常通过手动设置一个静态分区数来缓解该问题,例如使用经验法则:将分区数设置为 CPU 核数的 2 倍,或执行器数量的 3 倍(参见《Spark 调优》),以确保任务规模足够大,从而提升效率。

 

另一方面,对于超大数据集而言 200 个分区可能又显得不足:这会导致每个分区的数据量过大,处理时间变长,并增加内存溢出的风险。

 

在某些情况下,分区大小只能通过反复试验确定:在不同数据集和工作负载上进行实验,在性能与开销之间寻找平衡。然而,这类配置往往难以在不同数据规模或负载特征之间泛化。自 Spark 3.0 起,引入了自适应查询执行(AQE)。启用后,Spark 会根据执行过程中观察到的实际数据特征动态调整查询计划,而不是完全依赖查询规划阶段的静态估计。

 

然而,AQE 仍然以默认配置(通常是 200 个 shuffle 分区)开始执行,只有在收集到运行时统计信息后才进行合并或调整。这意味着它优化的是 reduce 阶段,但无法避免前期写入大量小 shuffle 文件所带来的初始开销,因此在小规模或中等规模数据集上仍然存在一定低效。此外,如果性能提升需要超过 200 个分区,AQE 也不会自动增加分区数量。

 

强化学习可以在这一场景中发挥关键作用,通过在不同条件下动态调整这些参数,实现跨场景的性能优化。

 

强化学习

正如《强化学习:导论》(Sutton 与 Barto,2018)所定义,强化学习的核心在于学习在不同情境下应采取何种行动,以最大化一个数值奖励信号。与监督学习不同,学习者不会被直接告知应该采取哪些行动,而是必须通过不断尝试,发现哪些行动能够带来最大的回报。试错式搜索以及延迟奖励,是强化学习最重要的两个区别性特征。

 

从形式上讲,强化学习可以被描述为一个 AI 智能体与环境进行交互的过程:智能体感知环境状态,采取行动,并接收奖励,如图 2 所示。随着时间推移,智能体会学习出一项策略(即从状态到行动的映射),以最大化长期期望回报。

 

在本文的场景中,强化学习智能体会观察数据集特征,尝试不同的分区数量,测量执行性能,并逐步积累关于“哪种配置最适合哪种数据模式”的知识。经过多次执行后,智能体会形成类似经验丰富工程师的“直觉”,能够为不同类型的工作负载自动选择合适的分区数量。

 

图 2:标准强化学习中智能体与环境交互循环示意图(Sutton 与 Barto,2018)

 

实现流程:构建一个基于 Q-Learning 的强化学习智能体

我们构建的 Q-Learning 强化学习智能体,是一个在 Apache Spark 之上开发的自定义智能体,部署在 driver 程序中。该实现通过在作业提交流程外层包裹一个智能体层,对 Spark 进行了扩展。

 

以下工作流程展示了我们自定义的 Q-learning 强化学习智能体如何感知 Spark 环境、采取行动、接收反馈,并随着时间推移不断学习。在现实世界中,每天处理数十亿事件的大规模数据平台也面临类似挑战:其数据工程团队需要运行多样化的工作负载,包括基于最新数据的实时仪表盘、针对数百万条记录的周期性聚合报表,以及针对高度倾斜数据分布的综合分析查询。

 

Q-learning 强化学习智能体可以为这些多样化工作负载自动完成配置调优,消除人工干预,通过优化资源分配来降低云计算成本,并加速查询性能,使工程团队能够将更多精力投入到功能开发,而不是反复调整参数。

 

第一步:智能体感知环境(状态观测)

当一个 Spark 作业被提交时,智能体的状态观测模块会拦截该作业,并分析数据集以理解当前环境状态。

print("\nLoading data...")df = spark.read.csv(data_path, header=True, inferSchema=True)row_count = df.count()
复制代码

 

智能体随后提取刻画工作负载的关键特征:

num_rows = df.count()sample_rows = df.limit(1000).collect()from collections import Countercategory_values = [row.category for row in sample_rows]category_counter = Counter(category_values)category_cardinality = len(category_counter)counts = list(category_counter.values())skew_factor = np.std(counts) / np.mean(counts)
复制代码

智能体所观测到的特征包括:

  • 行数:数据量越大,通常需要更多分区

  • 列数:列越多的数据集可能需要更多分区

  • 类别唯一值数量(基数):基数越高,通常意味着需要更多分区

  • 数据大小(MB):数据越大,通常受益于更多分区

  • 平均行大小(字节):用于衡量数据密度

  • 数据倾斜因子(skew factor):衡量数据分布是否不均衡;倾斜严重时需要额外调整

 

智能体的设计选择

智能体仅抽样 1000 行数据(约 100ms),而不是扫描整个数据集,从而在准确性与实时决策之间取得平衡。这种轻量级观测机制,使智能体即便在大规模数据集上也能快速作出决策。

 

第二步:状态编码(为泛化进行离散化)

状态编码模块将连续特征转换为离散状态表示,从而使智能体能够在相似工作负载之间泛化已学到的知识。

# 为智能体设计的自定义离散化分桶row_buckets = [100, 1000, 10000, 100000, 1000000]size_buckets = [1, 10, 100, 1000]card_buckets = [5, 10, 20, 50, 100]skew_buckets = [0.1, 0.3, 0.5, 0.8, 1.0]
复制代码

 

例如,智能体处理一个包含 5000 行、1.23 MB、12 个类别、倾斜度 0.48 的数据集时:

# 智能体离散化逻辑如下::# 行数 5000 → bucket_2# 数据大小 1.23 MB → bucket_1# 基数 12 → 位于 10–20 区间 → bucket_2# 倾斜度 0.48 → 位于 0.3–0.5 区间 → bucket_3state_key = "rows_bucket_2|size_bucket_1|card_bucket_2|skew_bucket_3"
复制代码

 

为什么离散化至关重要?

如果不进行离散化,智能体会将 5000 行与 5001 行的数据集视为完全不同的状态,从而导致学习难以收敛。通过分桶处理,智能体能够识别“1000 到 10000 行的数据集具有相似优化模式”,进而将之前作业中学到的经验应用到新的、但结构相似的工作负载上。

 

第三步:智能体选择行动(ε-贪婪策略)

行动选择模块查询 Q 表,并在“探索”(exploration)与“利用”(exploitation)之间进行权衡,决定尝试哪个分区数。

# 行动空间由若干自定义候选分区数组成actions = [8, 16, 32, 64, 128, 200, 400]# 智能体的探索参数 epsilon = 0.3# 智能体的判断逻辑if random.random() < epsilon:    action = random.choice(actions)  # EXPLORE: Try something new    action_type = "explore" else:   action = max(Q[state_key],key=Q[state_key].get)# EXPLOIT: Use best known action_type = "exploit"
复制代码

 

智能体维护一张 Q 表,用于存储每个“状态-行动”组合的价值估计。例如在某个状态下:

Q["rows_bucket_2|size_bucket_1|card_bucket_2|skew_bucket_3"] = {    8: -0.405,      # Agent tried this, took 0.405 seconds    16: -0.523,     # Agent tried this, took 0.523 seconds    32: -0.650,     # Agent tried this, took 0.650 seconds    64: 0.0,        # Agent hasn't tried this yet    128: 0.0,       # Agent hasn't tried this yet    200: -0.745,    # Agent tried this, took 0.745 seconds (worst so far)    400: 0.0        # Agent hasn't tried this yet}
复制代码

 

智能体的决定: 

智能体会选择 Q 值最高的分区数(在此例中为 8),因为其对应的执行时间最短(-0.405 接近于零)。

 

智能体的学习策略: 

初始 ε = 0.3(30% 探索概率):在学习初期,智能体保持较高的探索率。随着训练过程推进,ε 逐步衰减至 0.05。然而,ε 并未降至 0,而是保留最低 5% 的探索概率,以适应不断演化的工作负载分布,并避免陷入次优策略。

 

第四步:智能体作用于环境(应用配置)

配置管理模块将智能体选定的分区数写入 Spark 配置,然后执行作业。

# Agent injects its learned configuration into Sparkspark.conf.set("spark.sql.shuffle.partitions", "8")# Spark job executes with agent-selected configurationresult_df = df.groupBy("category").count()result_df.show()
复制代码

 

关键点: 

智能体并不修改 Spark 的内部执行逻辑,而是作为一个“智能包装层”,在作业执行前设置最优配置,随后交由 Spark 原生执行引擎完成实际计算。

 

第五步:智能体接收奖励(性能反馈)

当 Spark 完成作业后,奖励计算模块计算执行时间,并将其作为学习信号。在本实现中,奖励函数定义为:reward = -execution_time。也就是说,执行时间越短,奖励越高。需要注意的是,该实现仅以执行时间为优化目标,并未显式考虑运行成本、内存压力、失败风险或资源利用率等多目标因素。更复杂的系统可能会构建多目标奖励函数。

# Agent measures job performancestart_time = time.time()result_df = df.groupBy("category").count().collect()execution_time = time.time() - start_time# Agent's reward signal (negative because lower time is better)reward = -execution_time  # e.g., -0.321 seconds
复制代码

 

第六步:智能体学习(Q 值更新)

学习引擎根据 Q-learning 更新公式更新 Q 表并结合观测奖励

Q(s,a)←Q(s,a)+α(r+γxmax_{a′}Q(s′,a′)−Q(s,a))

 

# Q-learning 更新公式(在智能体学习引擎中实现) alpha = 0.3 # 学习率:根据当前学习需要调整多少 gamma = 0.1 # 折扣因子:未来奖励价值多少 old_q_value = Q[state_key][action] max_future_q = max(Q[state_key].values()) new_q_value = old_q_value + alpha * (reward + gamma * max_future_q -  old_q_value)# 智能体更新记忆Q[state_key][action] = new_q_value
复制代码

学习情况示例: 

如果某一状态下,之前执行时间为 0.4 秒(reward = -0.4),而最新一次执行时间为 0.6 秒(reward = -0.6),那么 Q 值会被向下调整,表示该行动表现不如预期。下一轮中,智能体更可能探索其他分区数。

 

智能体的持续改进机制 

智能体会将 Q 表持久化(例如以 JSON 形式保存),在不同作业之间保留学习结果,从而在数周或数月内逐步积累组织级知识。每一个新作业都是一次学习机会,随着经验积累,智能体的策略将不断精细化,实现真正意义上的自调优系统。

 

实验结果

为验证智能体的有效性,我们在相同工作负载下,对三种优化策略进行了对比实验:

  • 仅 AQE:使用 Spark 内置的自适应查询执行

  • 仅 RL 智能体:使用自定义 Q-learning 智能体,并关闭 AQE

  • 混合策略(AQE + RL):由 Q-learning 智能体选择初始配置,并结合 AQE 进行运行时自适应调整

 

性能对比:

下方图表(图 3)展示了在一个小规模数据集(1000 行)且数据倾斜度较低(0.162)的情况下得到的实验结果。

图 3:小规模数据集的执行时间(Gandhi,2026)

 

实验结果表明,性能得到了显著提升。

 

同样的实验还在一个包含 75,000 行数据、且数据高度倾斜(倾斜度 1.241)的大规模数据集上进行了测试。结果显示,性能提升会随着数据规模和倾斜复杂度的增加而更加明显,如图 4 所示。

图 4:超大规模高倾斜数据集的执行时间(Gandhi,2026)

 

 

关键发现

混合策略优于“仅 AQE”和“仅 RL”两种方法。这验证了一个核心观点:执行前智能决策(RL 选择最优初始配置)与运行时自适应调整(AQE 的动态优化)分别解决了互补的优化问题。

 

对比分析:两个核心洞见

强化学习智能体相比标准的规则驱动型 AQE,能够实现显著更快的执行时间。其优势来源于能够学习并选择最优的初始分区数量(例如在小数据集上选择 8 个分区)。这种前置式配置优化在作业执行开始之前就消除了 shuffle 阶段的额外开销。而 Spark 默认的 AQE 无法完全实现这一点,因为 AQE 只能在 shuffle 块已经写入磁盘之后,才对过多分区进行合并和调整。

 

混合方法实现最佳性能。将 RL 与 AQE 结合,形成了一个两阶段优化机制:

  • 阶段一(执行前):RL 智能体基于历史学习结果设置最优初始配置。

  • 阶段二(运行时):AQE 在执行过程中根据实际观测到的情况(例如运行中发现的数据倾斜、分区大小不均等)进行动态调整。

 

这些实验结果展示了该方法在现实大规模数据平台中的实际价值。对于每天处理数十亿事件的数据系统而言,只需启用 AQE(大多数 Spark 3.0 及以上版本部署已默认支持),并引入 RL 智能体,即有可能在多样化工作负载下获得显著性能提升。这些性能改进可以转化为:通过优化资源分配降低云计算成本、加速查询执行,缩短业务洞察交付时间,以及释放工程团队精力,使其专注于功能开发而非参数调优。

 

扩展至多智能体系统与系统架构

尽管单一的分区优化智能体已经带来了显著性能提升,但在大规模数据平台中,现实情况要复杂得多。例如,在每日聚合作业中,RL 智能体已经成功设置了最优的 shuffle 分区数,但作业仍然因内存溢出而失败,因为执行器内存未针对大规模 join 操作进行合理配置。再例如,实时仪表盘在某个分区数下运行高效,但由于未启用缓存机制,相同的中间数据被反复计算,浪费了大量 CPU 资源。

 

如果仅优化分区数量,仍然会遗留大量可观的性能与成本优化空间。生产级工作负载往往需要在多个维度上进行同步优化,包括:不同操作类型(如 join 与 aggregation)对应的内存分配策略、不同负载强度(I/O 密集型 vs 计算密集型)下的 CPU 并行度配置,以及面向数据复用模式的智能缓存决策。手动协调这些配置的复杂度呈指数级增长。工程师不仅需要调优分区数,还必须考虑:分区数量如何影响内存使用、内存配置如何影响 CPU 利用率,以及缓存策略如何进一步影响上述所有因素。因此,有必要将单一智能体方法扩展为多个独立学习组件,每个组件分别优化特定配置域。

 

单一分区优化智能体已经验证了强化学习在 Spark 配置优化中的可行性,但生产环境中的工作负载通常需要跨多个维度的联合优化。一个自然的扩展方式是在 Spark driver 上部署多个专用智能体,每个智能体负责不同的配置领域,并根据作业执行反馈独立学习。在这种多智能体架构中,引入一个协调器。该协调器是一个轻量级控制层,负责按照固定顺序应用各智能体的决策,但本身不进行学习或策略优化。它与分区智能体协同,额外编排三个专用智能体。

 

内存智能体通过监控内存使用模式、垃圾回收频率以及磁盘溢写事件来优化执行器内存分配。基于工作负载特征(例如大量 join 操作需要构建大型哈希表,对比包含过滤操作的查询语句只占用较低内存),该智能体会动态配置spark.executor.memoryspark.memory.fraction,以及 spark.memory.storageFraction 以在性能与资源浪费之间取得平衡。

 

核心数智能体通过跟踪 CPU 核心利用率、任务等待时间以及线程竞争情况,学习最优的并行度设置。其调整的参数包括: spark.executor.coresspark.task.cpus,以及 spark.executor.instances 。该智能体能够识别 I/O 密集型任务通常受益于更高并行度,以及计算密集型任务在过度并行时会因频繁上下文切换而性能下降。

 

缓存智能体通过测量缓存命中率、缓存淘汰模式以及重复计算成本,学习智能缓存策略。其决策包括:是否缓存中间 DataFrame、选择适当的存储级别(仅内存、内存+磁盘、仅磁盘),以及配置spark.storage.memoryFractionspark.rdd.compress。该决策基于数据复用模式以及可用内存资源进行动态调整。

 

每个智能体均采用与分区优化智能体相同的 Q-learning 框架:提取与其领域相关的状态特征、维护独立的 Q 表,以及基于作业执行性能奖励进行更新。这种解耦设计使得每个智能体能够在自身领域内形成专业能力,同时整个系统实现全面的工作负载优化。

 

图 5 展示了上述多智能体系统的高层架构。

图 5:Apache Spark 的高层多智能体系统架构(Gandhi,2026)

 

结论

本文展示了强化学习如何将传统上依赖人工、且容易出错的 Spark 配置调优过程,转变为一种自主、可自适应的优化系统。通过实现一个基于 Q-learning 的强化学习智能体,使其能够观测数据集特征、尝试不同分区数量,并根据性能反馈持续学习,系统逐步形成了类似资深工程师的优化能力,同时具备完美记忆和系统化探索机制。

 

实验结果验证了该方法的有效性。单独使用 RL 智能体时,其性能优于 Spark 默认的自适应查询执行(AQE);而将 AQE 与 Q-learning 结合的混合策略取得了最佳整体性能。这表明,执行前智能决策(RL 选择最优初始配置)与运行时自适应调整(AQE 的动态优化)分别解决了互补的优化问题。

 

需要指出的是,本研究的实验基于相对较小的数据集(1000 至 75,000 行),相比每天处理数十亿事件的生产级系统仍有差距。尽管结果验证了基于 RL 的配置优化方法在概念层面的可行性,但若能在 PB 级数据规模、更加复杂的查询模式下进行验证,将进一步增强其在生产环境中部署的可信度。此外,当前实现仅聚焦于单一配置维度(shuffle 分区);扩展至涵盖内存、CPU 与缓存等多维度的多智能体优化体系,还需要进一步实验,以验证智能体之间的交互效果并确保稳定收敛。

 

本文提出的多智能体架构,将上述思想扩展至全面的工作负载优化场景。多个专用智能体分别针对内存分配、CPU 核心调度以及缓存策略等领域独立学习优化策略,在各自领域形成专业能力。展望未来,该架构为多个研究方向提供了可能,包括:跨集群环境的迁移学习、用于连续状态空间的深度 Q 网络(DQN),以及融合集群拓扑信息的上下文感知策略。对于管理生产级 Spark 工作负载的数据工程师而言,这一方法提供了一条可行路径:对作业进行性能指标采集,实现一个简化版的 Q-learning 智能体用于 shuffle 分区优化,与现有系统并行部署,并让其在真实生产流量中持续学习。

 

该方法能够积累组织级知识,将数月的调优经验转化为可复用的策略,供未来所有作业使用。强化学习与分布式系统的结合不仅是一种优化技术,更代表着基础设施演进方向的转变——从依赖静态规则的系统,迈向能够基于经验持续学习与自我优化的自主型基础设施。随着大数据系统复杂度不断提升,配置参数成千上万,工作负载持续演化,能够自主学习、适应并优化的智能体将不再只是便利工具,而将成为必需能力。

原文链接:

https://www.infoq.com/articles/agent-reinforcement-learning-apache-spark/

WhatsApp 的工程团队将其媒体处理库从 C++ 重写为 Rust,将代码规模从 16 万行减少至 9 万行,同时引入了内存安全保护机制。该库运行在数十亿台设备上,包括 Android 手机、iPhone、桌面设备、智能手表以及网页浏览器,这使其成为迄今为止规模最大的客户端 Rust 代码部署之一。

 

这一工作可以追溯到 2015 年的Stagefright 漏洞事件。当时人们发现攻击者可以将恶意软件隐藏在看似正常的图片或视频文件中。这些恶意文件利用了 Android 媒体库中的漏洞,而像 WhatsApp 这样的应用无法直接修补底层操作系统。那时,WhatsApp 使用一个名为 “wamedia” 的 C++ 库,在发送前对 MP4 文件进行合规性检查。公司意识到,这段代码处理的是来自潜在恶意来源的非可信数据,因此非常适合使用内存安全语言进行重写。

 

Meta 工程博客 – 安全与隐私专栏

 

尽管 Meta 此次部署在规模上前所未有,但其策略并非没有先例。Mozilla 的首席工程师 Andrew Lilley Brinker 在 Bluesky 上提到

很多人知道 Mozilla 在 Rust 早期发展阶段提供了大量资助,但可能不知道,Firefox 第一个上线的 Rust 组件其实是 2016 年的一个 MP4 解析器!

 

这同样是对 Stagefright 时代所揭示问题的回应——即当 C++ 媒体处理代码在解析非可信二进制数据时,存在固有的安全风险。

 

WhatsApp 并没有采用渐进式替换方式,而是同时构建了完整的 Rust 版本与原 C++ 版本并行运行。团队通过差分模糊测试以及大量集成测试,验证两个版本之间的兼容性,然后才完成迁移。WhatsApp 软件工程师 Daniel Sommermann 和 Baojun Wang表示,这种策略不仅带来了性能提升,还降低了内存使用量。

 

不过,二进制文件大小成为一个现实问题。博客文章提到,Rust 标准库最初增加了文件体积,但并未详细说明解决方案。在 Hacker News 的讨论中,WhatsApp 工程师 Daniel Sommermann 解释道:

 

“我们在构建系统优化方面投入了大量工作,随着时间推移逐步将体积压缩下来。虽然一开始确实接受了大约 200 KiB 的标准库体积开销。”团队将构建系统从 Gradle、CMake 和 Cargo 迁移到 Buck2。Sommermann 表示,Buck2 “在缩小体积方面帮助巨大,比如改进了 LTO(链接时优化)并使用了最新的 clang 工具链优化。”

 

该媒体库已经不仅仅用于基础格式校验。WhatsApp 将这一扩展系统命名为 “Kaleidoscope”。它会检测可疑模式,例如:嵌入文件或脚本的 PDF、文件扩展名与实际内容不匹配的文件、伪装成图片的可执行文件等。一旦发现风险内容,系统会在用户界面中发出警告。这些检测无法拦截所有攻击,但能够阻挡许多常见的利用技术。

 

Meta 表示,这是他们所知规模最大的 Rust 库面向终端用户设备的部署。每个月,这段代码都会通过 WhatsApp、Messenger 和 Instagram 推送到数十亿台设备,包括手机、笔记本电脑、桌面设备、智能手表和各种操作系统上的浏览器。

 

在 Hacker News 的讨论中,还有人探讨了技术细节。例如,用户 Cong-or 指出二进制体积的重要性:

在服务器环境中,Rust 标准库带来的开销通常不算什么,但当你要向数十亿台移动设备发布软件时,每一个 KB 都至关重要。很高兴看到他们投入资源优化构建工具,而不是简单接受体积膨胀。

 

另一位用户 storystarling 则强调测试难度:

这种重写工作最难的部分通常不是 Rust 实现本身,而是要保持与旧版解析器在行为上的‘bug 级兼容’。

 

WhatsApp 的安全策略分为三条路径:尽可能减少攻击面;对仍然使用的 C 和 C++ 代码加强保护(如控制流完整性与强化内存分配器);对于新代码优先使用内存安全语言。使用 C/C++ 的开发者需要接受专门的安全培训,其代码会经过自动化分析工具审查,公司对发现的问题设有严格的修复期限。

 

Meta 的安全团队正在推动公司内部更多团队采用 Rust,并预计未来几年采用速度将加快。这一趋势也反映了整个行业的发展方向。谷歌在 2025 年 11 月的安全博客中表示,Android 中 Rust 代码的引入,使内存安全漏洞占比从 2019 年的 76% 降至 2025 年底的不足 20%,公司将这一变化直接归因于用 Rust 替代新代码中的 C 和 C++。Chrome 已经在字体渲染和图像解码模块中使用 Rust 库,而 Microsoft 自 2023 年起也开始用 Rust重写部分 Windows 组件。

 

原文链接:

https://www.infoq.com/news/2026/02/whatsapp-rust-media-malware/

在 AI 浪潮逐浪全球的当下,SaaS 领域正经历着一场前所未有的“重塑”。从 Notion AI 到 Microsoft 365 Copilot,开发者们都在思考如何将大模型能力融入传统办公场景。

2025 年下半年,一款名为 Shortcut的产品在海外科技圈掀起波澜。其创始人在社交平台发布的 “AI 生成财务模型” 演示视频,在短短 72 小时内播放量突破 300 万,华尔街日报更是评价其 “重新定义了 Excel 的效率边界”。

在这里插入图片描述

实测数据显示,Shortcut 能让新手在 10 分钟内完成原本需资深分析师 2 小时的报表工作,甚至在 Excel 技能挑战赛中以 90% 的胜率击败了新人分析师。这款产品不仅在硅谷获得了极高的关注度,更让人们重新审视了一个核心命题:当传统的电子表格遇上大语言模型(LLM),会产生怎样的化学反应?

本文将深度解析 Shortcut 的成功之道,并探讨其背后的底层技术引擎——SpreadJS,如何在幕后支撑起这类复杂、高性能的 AI 办公应用。

一、 破局者 Shortcut:为什么它能让“老赛道”焕发新生?

电子表格(Spreadsheet)自 1979 年 VisiCalc 诞生以来,其核心形态已经稳定了四十多年。即便是在云端协同时代,Google Sheets 和 Excel Online 依然延续着格子、公式、菜单的经典逻辑。

但 Shortcut 走出了另一条路。它的核心逻辑不再是“用户输入数据,公式计算结果”,而是“用户表达意图,AI 构建逻辑”。

1.1 将 AI 原子化为单元格能力

在 Shortcut 中,最令人惊艳的功能莫过于其内置的 AI() 函数。用户可以在单元格中直接调用大模型的推理能力。例如:

  • =AI("分析这段用户反馈的情绪偏好", A2)
  • =AI("根据 B 列的公司名称,从互联网抓取其最新的融资轮次", B2)

在这里插入图片描述

这种设计将 LLM 的推理能力原子化、组件化,使其能够像求和函数 SUM() 一样,无缝嵌入到业务逻辑的流转中。

1.2 处理非结构化数据的“黑魔法”

传统表格最怕处理文本。但在 Shortcut 面前,杂乱的会议纪要、非标准的地址信息、甚至是一长串的产品描述,都能通过自然语言指令快速转化为结构化数据。正是这种从“模糊意图”到“精确表格”的极速转化,让其在财务建模、市场调研等领域展现出统治级的效率。

1.3 极速的交互响应

很多尝试在 Web 端复刻 Excel 体验的开发者都会遇到一个痛点:随着数据量的增加,页面会变得极其卡顿。Shortcut 能够支撑起海量 AI 推理结果的实时展示,且保持如丝般顺滑的滚动和操作,这说明其底层拥有一套极其强悍的渲染引擎。

二、 深度解析:Shortcut 成功的技术基石——SpreadJS

在分析 Shortcut 的底层架构时,技术社区发现,这款“明日之星”并非从零开始去写每一个单元格的渲染逻辑,而是基于成熟的电子表格控件——SpreadJS

为什么像 Shortcut 这样的创新产品会选择 SpreadJS 作为其“技术底座”?这对于中国开发者在构建类似应用时具有极高的参考价值。

2.1 性能的天花板:Canvas 渲染引擎

在 Web 端,处理数以万计的单元格、复杂的条件格式以及频繁的数据更新,如果采用传统的 DOM 节点模式,浏览器性能会瞬间崩溃。

SpreadJS 采用了高性能的 Canvas 渲染技术。它将表格视为一个整体的画布,只在必要时重绘变化的区域。这种架构确保了 Shortcut 在回填大量 AI 预测数据时,依然能保持 60 帧以上的响应速度。

2.2 像素级的 Excel 兼容性

对于国内企业级开发而言,脱离 Excel 谈电子表格是不现实的。Shortcut 能够赢得资深办公用户的青睐,是因为它完美继承了 Excel 的使用习惯和功能:

  • 公式系统: 450 多种内置函数,完全兼容 Excel 逻辑,这为 AI 生成财务模型提供了坚实的数学底座。
  • 透视表与图表: 让 AI 分析的结果能够直接转化为可视化的看板。
  • 文件解析: 能够零损耗地导入导出的 XLSX 文件。

SpreadJS 这种“原生 Excel 体验”的输出,让开发者可以将精力 100% 投入到 AI 业务场景的创新上,而不必在“如何让表格不走样”这种基础问题上浪费时间。

2.3 极高的 API 开放性与可扩展性

Shortcut 能够定制出独特的 AI 交互界面,得益于 SpreadJS 提供的丰富 API。无论是自定义单元格类型(CellType)、悬浮组件,还是右键菜单的深度定制,SpreadJS 都为开发者留出了足够的发挥空间。

三、 开发者实战:如何利用 AI 插件复刻“Shortcut 模式”?

对于国内开发者来说,复刻一个类似 Shortcut 的系统并不需要从头摸索。SpreadJS 官方推出的 SpreadJS AI 插件,已经将最核心的 AI + 表格交互场景模块化了。

在这里插入图片描述

3.1 NL2Formula:从自然语言到公式

在复杂的报表系统中,普通用户往往记不住复杂的嵌套函数。通过 SpreadJS AI 插件,开发者可以实现“语言驱动计算”:

  • 场景描述: 用户在输入框说“计算去年同期相比的利润增长,并保留两位小数”。
  • 技术实现: AI 插件会自动解析当前表格的列名(Header)和数据结构,将其翻译成精准的公式字符串并填充到目标单元格。

在这里插入图片描述

3.2 智能数据清洗与纠错

中国企业的数据环境往往存在大量的“非标”数据。利用 AI 插件的语义理解能力,开发者可以构建一套自动纠错系统:

  • 案例: 自动识别并统一地址格式、从杂乱的备注中提取金额、发现并标记逻辑异常的数据行(如单价与总价不匹配)。

    • 在这里插入图片描述

3.3 交互式 AI 侧边栏(Chat Assistant)

模仿 Shortcut 的侧边栏助手,开发者可以使用插件快速搭建一个“数据对话框”。用户可以对选中的区域提问:“请基于这些销售数据,帮我写一段下个季度的业务建议”。AI 插件会通过上下文感知(Context Awareness),将选中的单元格内容转化为 LLM 易理解的 Prompt,并生成专业的报告。

在这里插入图片描述

四、 针对开发场景的技术避坑指南

作为长期关注开发者生态的观察者,针对开发者在使用 SpreadJS 构建 AI 表格应用时,有几点针对性的建议:

4.1 灵活对接国产大模型

考虑到数据安全和合规性,国内应用往往首选文心一言、通义千问等模型。SpreadJS AI 插件在设计上保持了高度的灵活性,其底层接口支持标准的 Restful API 调用。开发者可以轻松地通过配置,将 AI 能力从 OpenAI 切换到国产大模型,甚至是在企业内网部署的私有化模型。

4.2 数据安全与隐私保护

在处理财务、医疗等敏感数据时,直接将全量表格发送给 AI 是有风险的。建议采用“数据摘要+脱敏数据”的传输策略。SpreadJS 的 API 允许开发者精细化地控制哪些数据被发送给 AI 插件,从而在保证智能性的同时,守住合规底线。

4.3 异步处理与 UI 反馈优化

AI 的推理通常需要几秒钟的时间。为了避免阻塞用户操作,开发者应充分利用 SpreadJS 的异步加载能力。在 AI 处理期间,利用自定义单元格展示“加载动画”,并在数据返回后使用 suspendPaintresumePaint 进行批量渲染,以达到最佳的交互体验。

五、 结语:电子表格的新纪元

Shortcut 的爆火不是一个偶然现象,它标志着生产力工具从“被动工具”向“主动助手”的跨越。通过实测数据的对比,我们清晰地看到:AI 不再是装饰品,而是切切实实的生产力提升工具。

对于开发者而言,这场变革意味着巨大的机遇。无论是构建企业级的 BI 系统、SaaS 化的协同办公软件,还是内部的自动化审计工具,SpreadJS + AI 的组合都提供了一条已经被验证成功的技术路径。它既保证了电子表格该有的“硬核”性能和兼容性,又通过 AI 赋予了应用“感知”和“思考”的能力。

如果您正准备开发下一代电子表格应用,不妨先站在像 SpreadJS 这样成熟的肩膀上,把精力聚焦在最能产生业务价值的 AI 逻辑创新中。

参考资源:

过年最高兴的时候是过年前的那几天,大家都在盼望,都在准备。

过完年回来,一种从热闹到冷清,巨大的失落感,感觉比做梦还快。

二十八回家,初五回来,记忆里面只有三天还记得,剩下的时间都不知道怎么过去的。

怀念那个没有蒸馏、没有对齐、没有模板、没有又长又没用的 thinking ,大模型真正百花齐放的时候。

不需要被接住,也不需要谄媚和一大堆正确的废话。

昨天在 B 站刷到解说,感觉还可以就去看了一下,没看完,独孤月还没上返程,不过感觉还可以,以前还以为是烂片,看完大部分觉得还行,作为喜剧片没什么问题。(感觉和《火星救援》差不多)

第一波,脑力劳动者:医生、律师、程序员、会计等等全部被代替。
第二波,纯体力劳动者:快递员、送外卖、出租车司机等。
第三波,技术性体力劳动者:理发师、水电工、装修师傅等。AI +机器人会最终高效完成这一切
但是,AI 生成的假人主播,你会愿意打赏吗?你打赏擦边主播心里想的啥不用我多说吧,这一需求 AI 发展几万年都替代不了,这是唯一不会被影响的行业

在很多人看来,SSL证书主要是用于互联网上的网站,比如电商平台、银行网站等,需要保护用户的敏感数据。但你可能不知道,内网IP(如192.168.1.1、10.0.0.1等)同样需要SSL证书。

1. 防止内网数据被窃听

即使你的服务只在内部网运行,数据仍然可能被监听。例如:
如果公司Wi-Fi被入侵,黑客可以嗅探内部HTTP流量,获取账号密码、数据库信息等。
内部员工可能利用抓包工具(如Wireshark)查看未加密的通信内容。
SSL证书的作用:通过HTTPS加密,确保数据在传输过程中无法被窃取或篡改。

内网IP地址SSL证书申请入口

直接访问JoySSL注册一个账号,记得填写注册码230970获取免费安装服务

2. 避免浏览器“不安全”警告

现代浏览器(如Chrome、Edge)会对所有HTTP网站标记为“不安全”,即使是内网IP也不例外。这会导致:
员工访问内部系统时频繁看到警告,影响使用体验。
某些浏览器可能阻止访问HTTP网站,导致内部工具无法正常使用。
SSL证书的解决方案:部署证书后,内网服务将以HTTPS运行,浏览器不再提示“不安全”。

3. 满足安全合规要求

许多行业(如金融、医疗、政府)对数据安全有严格要求,例如:
GDPR(欧盟通用数据保护条例) :要求企业保护用户和员工的隐私数据。
等保2.0(中国网络安全等级保护) :明确要求内部系统采用加密通信。
SSL证书的合规价值:帮助企业在审计时证明内部通信符合安全标准。

4. 防止中间人攻击(MITM)

在内网坏境中,攻击者可能伪装成网关或服务器,进行中间人攻击(MITM),例如:
伪造一个假的登录页面,诱导员工输入账号密码。
篡改内部API请求,导致数据泄露或系统故障。
SSL证书的防护机制:HTTPS通过数字证书验证服务器身份,确保通信双方不被冒充。

We’ve identified industrial-scale distillation attacks on our models by DeepSeek, Moonshot AI, and MiniMax.

These labs created over 24,000 fraudulent accounts and generated over 16 million exchanges with Claude, extracting its capabilities to train and improve their own models.