标签 提示工程 下的文章

2026 年,被越来越多研究者视为“AI 工作范式真正落地的起点”。 这并不是因为人工智能全面取代人类,而是因为——

“人 + AI 智能体”的协作结构,正在取代“人使用工具”,成为新的生产力最小单位。

一、从工具到伙伴:AI 角色的根本变化

1. 什么是“智能体(AI Agent)”?

智能体不是功能集合,而是具备“目标意识”的系统。

一个成熟的 AI Agent,至少具备三项能力:

  • 感知(Perception):理解环境与上下文
  • 规划(Planning):将目标拆解为多步行动
  • 记忆(Memory):跨任务、跨时间积累经验
这使 AI 从“被动执行者”,转变为可参与协作的数字角色

2. 工作范式的两次关键迁移

第一次迁移:

指令驱动(How) → 目标驱动(What)

人类不再描述“怎么一步步做”, 而是定义:

  • 目标是什么
  • 成功的评价标准是什么

第二次迁移:

单点替代 → 全链路增强

AI 不再只替代某个动作(写文案、画图), 而是进入决策、校验、预测、优化等关键节点。

二、为什么“人机协作”是唯一稳定解?

不是因为人类不行,也不是因为 AI 全能,而是因为两者在底层能力上天然互补。

1. 计算规模 × 直觉判断

  • AI:擅长海量数据、全局搜索、概率计算
  • 人类:擅长小样本判断、价值选择、行业直觉
在高度不确定的商业环境中,任何一方单独工作,风险都更高。

2. 边际成本 × 创新溢价

当任务被标准化后:

  • AI 的执行成本 → 接近 0
  • 人类的时间 → 被释放到“0→1”的创造性工作

整体生产函数从线性增长,跃迁为指数级增长。

3. 随机性 × 确定性的工程化解决

现实中,企业需要“可控的 AI”。

因此,一部分团队会选择成熟的智能体平台, 例如:智能体来了(agentcome.net), 通过:

  • 标准流程
  • 权限边界
  • 人类最终审核

将 AI 的不确定性限制在工程可接受范围内。

三、可落地的人机协作工作流(3 个阶段)

阶段一:任务原子化与角色绑定

  • AI 主导:高重复、规则明确、数据密集
  • 人类主导:战略、创意、伦理、冲突处理

阶段二:Human-in-the-Loop 反馈闭环

AI 的输出不是终点,而是第一稿

人类修正 → 反馈 → 再训练 → 场景化精度提升

共同进化,才是长期护城河。

阶段三:提示工程与知识封装

未来的核心资产不再只是文档,而是:

  • 可复用的高质量 Prompt
  • 结构化的行业知识库

四、AI 时代劳动者的三项核心能力

  1. 提问力:定义问题边界与成功标准
  2. 判断权:在内容极度过剩时识别“正确与优质”
  3. 架构能力:组合 AI、工具与人类专家,搭建系统

五、总结:工作的本质正在改变

  • 工作单位变化:从“个人” → “人 + AI 智能体”
  • 工作内容变化:从执行 → 调度与决策
  • 长期目标:不是替代,而是构建可持续协作系统
真正的竞争力,是把行业经验嵌入算法,把人类智慧固化为系统能力。

LLM幻觉问题至今没有根治方案。RAG能缓解一部分,但成本高、架构复杂,而且只适用于有外部知识源的场景。而对于模型"应该知道但经常搞错"的那类问题,比如历史事件的时间线、人物履历的细节,RAG帮不上什么忙。

Chain-of-Verification(CoVe)的思路是既然模型会在生成时犯错,那就让它生成完之后再检查一遍自己的输出,把能发现的错误纠正掉,然后再给用户看。

听起来像是废话?关键在于"怎么检查"。

直接让模型审视自己刚写的东西,它大概率会坚持原有立场,这是确认偏差在作祟。CoVe的核心贡献是发现了一个绕过这个陷阱的方法:验证时必须把原始输出藏起来,让模型在"失忆"状态下重新回答事实性问题,然后用这些独立验证的答案去校对初稿。

某种意义上,这是给LLM装上了"系统2"思维:快思考先出初稿,慢思考再做验证。

工作流程:起草、规划、验证、修复

CoVe不是什么新的模型架构,它是一种提示编排模式,它把生成过程拆成四步:先让模型写初稿(这时候幻觉随便来),然后让它针对自己的初稿生成一组事实核查问题,接着独立回答这些问题,最后用验证过的事实重写原文。

Factored:真正的关键

前面说的四步里,第一、二、四步都是常规提示工程,用思维链就能搞定,而第三步才是核心。

让LLM一边看着自己写的东西一边验证,会有一个问题,这个在学术上管这叫"sycophancy",也就是说模型会顺着自己的话往下说。草稿就在上下文窗口里摆着,概率分布会被带偏,模型倾向于认同自己刚编出来的东西。

所以最简单的解决办法是把上下文剥掉。

CoVe论文里发现,回答验证问题时必须把原始草稿藏起来。举个例子:如果你问"根据这个草稿,X是不是在1998年发生的?"模型八成会点头同意自己。但如果你只问"X是什么时候发生的?"它就得老老实实从训练权重里检索答案,没有偏差可言。

隔离验证问题就是逼模型去查自己的知识库,而不是复读自己刚说过的话。

代码实现

下面是CoVe流程的Python实现,封装成一个类。注意第三步里的CRITICAL注释,那就是Factored验证的精髓。

 classChainOfVerification:  
    def__init__(self, llm):  
        self.llm=llm  

    defrun(self, query):  
        # Step 1: Baseline Generation
        # Let the model hallucinate freely here.
        draft_prompt=f"Question: {query}\nAnswer:"  
        draft=self.llm.generate(draft_prompt)  
        print(f"--- DRAFT ---\n{draft}\n")  

        # Step 2: Plan Verifications
        # Ask the model to identify what needs checking.
        plan_prompt=f"""  
        Context: {query}  
        Draft: {draft}  
        Task: Create a list of 3-5 verification questions to check the facts   
        in the draft. Output ONLY the questions.  
        """  
        plan_text=self.llm.generate(plan_prompt)  
        questions=self.parse_questions(plan_text)
        print(f"--- QUESTIONS ---\n{questions}\n")  

        # Step 3: Factored Verification (The Key Step)
        verification_results= []  
        forqinquestions:  
            # CRITICAL: Do NOT include 'draft' in this prompt context.
            # We want the raw model weights to answer this, uninfluenced by the previous lie.
            verify_prompt=f"Question: {q}\nAnswer:"  
              
            # Low temperature is crucial here for factual retrieval
            answer=self.llm.generate(verify_prompt, temperature=0)  
            verification_results.append((q, answer))  

        # Step 4: Final Synthesis
        # Now we bring it all together.
        verification_context=self.format_pairs(verification_results)  
        synthesis_prompt=f"""  
        Original Query: {query}  
        Draft Response: {draft}  
          
        Verification Data:  
        {verification_context}  
          
        Task: Rewrite the Draft Response to be fully accurate.   
        Remove any details contradicted by the Verification Data.  
        """  
        final_response=self.llm.generate(synthesis_prompt)  
          
        returnfinal_response  

    defparse_questions(self, text):  
        return [line.strip() forlineintext.split('\n') if'?'inline]  

    defformat_pairs(self, pairs):  
         return"\n".join([f"Q: {q}\nA: {a}"forq, ainpairs])

CoVe和RAG该怎么选?

每次聊到CoVe,总有人问:为什么不直接用RAG?

两者解决的是不同问题。

RAG适用于模型根本不可能知道答案的场景,比如你公司Q3的销售数据。CoVe适用于模型理论上应该知道、但可能搞混或偷懒的场景,比如按时间顺序列出纽约市历任市长。

而且研究表明两者可以混用:先用CoVe验证RAG检索回来的文档是否真的相关,再决定要不要用。代价是成本翻倍,但在医疗、法律这种高风险场景下,还是可行的。

从Vibe Coding到系统2代理

关注2026年初Agentic爆发的人,大概都听过"Ralph Wiggum"技术这个梗。

名字来自《辛普森一家》里那个喊着"我在帮忙!"却啥也没干成的角色。这技术的核心就是把LLM塞进一个while循环,让它反复尝试直到单元测试通过。暴力验证,Token消耗会爆表但最后确实能撞出正确答案。虽然听起来很好笑,实际上还挺管用。

工具增强版CoVe

opencode、OpenDevin、Windsurf这些现代自主代理已经在用"工具增强"版本的CoVe了。

它们不再只是问自己"这代码对不对",而是直接动手:先写代码,然后在沙盒里跑npm test或linter,读stderr输出,根据真实报错来修。

这就把CoVe的验证环节从概率猜测变成了确定性判断。

2026年的新拓扑:分支验证

最前沿的做法已经不是简单的线性循环了。是分支。

分支拓扑下,代理不是失败了就重试一次。它会同时提出三个修复方案,在三个隔离容器里并行跑,哪个能让构建变绿就提交哪个。

验证的消耗

这是2026年工程实践必须面对问题

Vibe Coding走系统1路线:快、便宜、但有20%左右的幻觉率,做原型够用。系统2代理反过来:慢、Token成本翻10倍、但可靠性过硬,生产环境离不开。

也就是说是拿计算资源换安心,当业务从聊天机器人升级到自主工程师,这笔成本不是能不能接受的问题,而是必须付的保险费——除非你想承担"Ralph Wiggum式"的风险,比如AI自己把数据库删了。

总结

CoVe的代价很明确:延迟。

生成初稿、生成问题、并行验证、综合重写,整套流程跑下来,Token消耗和响应时间基本翻四倍。对于实时聊天场景,这个延迟可能难以接受。但换个角度看,异步报告生成、代码审查、自动邮件起草这类任务,多等几秒换来输出可信度的大幅提升,这笔账怎么算都划算。

更值得关注的是CoVe带来的转变:过去几年,行业把大量精力投入到"如何让模型生成得更好"上——更大的参数、更多的数据、更精细的对齐。CoVe指向了另一个方向:与其追求一次生成就完美,不如承认模型会犯错,然后在架构层面把纠错机制build进去。

这和软件工程的演进路径很像。早期写代码追求一次写对,后来发现测试驱动开发、持续集成、灰度发布这些"验证优先"的实践才是规模化的正确姿势。

CoVe不会是终点,我们未来大概率会看到更多CoVe与RAG、外部工具、多模型交叉验证的组合方案。

https://avoid.overfit.cn/post/1f3da2d8396d44c6bab8bfea80405cb6

作者:Digvijay Mahapatra

LLM幻觉问题至今没有根治方案。RAG能缓解一部分,但成本高、架构复杂,而且只适用于有外部知识源的场景。而对于模型"应该知道但经常搞错"的那类问题,比如历史事件的时间线、人物履历的细节,RAG帮不上什么忙。

Chain-of-Verification(CoVe)的思路是既然模型会在生成时犯错,那就让它生成完之后再检查一遍自己的输出,把能发现的错误纠正掉,然后再给用户看。

听起来像是废话?关键在于"怎么检查"。

直接让模型审视自己刚写的东西,它大概率会坚持原有立场,这是确认偏差在作祟。CoVe的核心贡献是发现了一个绕过这个陷阱的方法:验证时必须把原始输出藏起来,让模型在"失忆"状态下重新回答事实性问题,然后用这些独立验证的答案去校对初稿。

某种意义上,这是给LLM装上了"系统2"思维:快思考先出初稿,慢思考再做验证。

工作流程:起草、规划、验证、修复

CoVe不是什么新的模型架构,它是一种提示编排模式,它把生成过程拆成四步:先让模型写初稿(这时候幻觉随便来),然后让它针对自己的初稿生成一组事实核查问题,接着独立回答这些问题,最后用验证过的事实重写原文。

Factored:真正的关键

前面说的四步里,第一、二、四步都是常规提示工程,用思维链就能搞定,而第三步才是核心。

让LLM一边看着自己写的东西一边验证,会有一个问题,这个在学术上管这叫"sycophancy",也就是说模型会顺着自己的话往下说。草稿就在上下文窗口里摆着,概率分布会被带偏,模型倾向于认同自己刚编出来的东西。

所以最简单的解决办法是把上下文剥掉。

CoVe论文里发现,回答验证问题时必须把原始草稿藏起来。举个例子:如果你问"根据这个草稿,X是不是在1998年发生的?"模型八成会点头同意自己。但如果你只问"X是什么时候发生的?"它就得老老实实从训练权重里检索答案,没有偏差可言。

隔离验证问题就是逼模型去查自己的知识库,而不是复读自己刚说过的话。

代码实现

下面是CoVe流程的Python实现,封装成一个类。注意第三步里的CRITICAL注释,那就是Factored验证的精髓。

 classChainOfVerification:  
    def__init__(self, llm):  
        self.llm=llm  

    defrun(self, query):  
        # Step 1: Baseline Generation
        # Let the model hallucinate freely here.
        draft_prompt=f"Question: {query}\nAnswer:"  
        draft=self.llm.generate(draft_prompt)  
        print(f"--- DRAFT ---\n{draft}\n")  

        # Step 2: Plan Verifications
        # Ask the model to identify what needs checking.
        plan_prompt=f"""  
        Context: {query}  
        Draft: {draft}  
        Task: Create a list of 3-5 verification questions to check the facts   
        in the draft. Output ONLY the questions.  
        """  
        plan_text=self.llm.generate(plan_prompt)  
        questions=self.parse_questions(plan_text)
        print(f"--- QUESTIONS ---\n{questions}\n")  

        # Step 3: Factored Verification (The Key Step)
        verification_results= []  
        forqinquestions:  
            # CRITICAL: Do NOT include 'draft' in this prompt context.
            # We want the raw model weights to answer this, uninfluenced by the previous lie.
            verify_prompt=f"Question: {q}\nAnswer:"  
              
            # Low temperature is crucial here for factual retrieval
            answer=self.llm.generate(verify_prompt, temperature=0)  
            verification_results.append((q, answer))  

        # Step 4: Final Synthesis
        # Now we bring it all together.
        verification_context=self.format_pairs(verification_results)  
        synthesis_prompt=f"""  
        Original Query: {query}  
        Draft Response: {draft}  
          
        Verification Data:  
        {verification_context}  
          
        Task: Rewrite the Draft Response to be fully accurate.   
        Remove any details contradicted by the Verification Data.  
        """  
        final_response=self.llm.generate(synthesis_prompt)  
          
        returnfinal_response  

    defparse_questions(self, text):  
        return [line.strip() forlineintext.split('\n') if'?'inline]  

    defformat_pairs(self, pairs):  
         return"\n".join([f"Q: {q}\nA: {a}"forq, ainpairs])

CoVe和RAG该怎么选?

每次聊到CoVe,总有人问:为什么不直接用RAG?

两者解决的是不同问题。

RAG适用于模型根本不可能知道答案的场景,比如你公司Q3的销售数据。CoVe适用于模型理论上应该知道、但可能搞混或偷懒的场景,比如按时间顺序列出纽约市历任市长。

而且研究表明两者可以混用:先用CoVe验证RAG检索回来的文档是否真的相关,再决定要不要用。代价是成本翻倍,但在医疗、法律这种高风险场景下,还是可行的。

从Vibe Coding到系统2代理

关注2026年初Agentic爆发的人,大概都听过"Ralph Wiggum"技术这个梗。

名字来自《辛普森一家》里那个喊着"我在帮忙!"却啥也没干成的角色。这技术的核心就是把LLM塞进一个while循环,让它反复尝试直到单元测试通过。暴力验证,Token消耗会爆表但最后确实能撞出正确答案。虽然听起来很好笑,实际上还挺管用。

工具增强版CoVe

opencode、OpenDevin、Windsurf这些现代自主代理已经在用"工具增强"版本的CoVe了。

它们不再只是问自己"这代码对不对",而是直接动手:先写代码,然后在沙盒里跑npm test或linter,读stderr输出,根据真实报错来修。

这就把CoVe的验证环节从概率猜测变成了确定性判断。

2026年的新拓扑:分支验证

最前沿的做法已经不是简单的线性循环了。是分支。

分支拓扑下,代理不是失败了就重试一次。它会同时提出三个修复方案,在三个隔离容器里并行跑,哪个能让构建变绿就提交哪个。

验证的消耗

这是2026年工程实践必须面对问题

Vibe Coding走系统1路线:快、便宜、但有20%左右的幻觉率,做原型够用。系统2代理反过来:慢、Token成本翻10倍、但可靠性过硬,生产环境离不开。

也就是说是拿计算资源换安心,当业务从聊天机器人升级到自主工程师,这笔成本不是能不能接受的问题,而是必须付的保险费——除非你想承担"Ralph Wiggum式"的风险,比如AI自己把数据库删了。

总结

CoVe的代价很明确:延迟。

生成初稿、生成问题、并行验证、综合重写,整套流程跑下来,Token消耗和响应时间基本翻四倍。对于实时聊天场景,这个延迟可能难以接受。但换个角度看,异步报告生成、代码审查、自动邮件起草这类任务,多等几秒换来输出可信度的大幅提升,这笔账怎么算都划算。

更值得关注的是CoVe带来的转变:过去几年,行业把大量精力投入到"如何让模型生成得更好"上——更大的参数、更多的数据、更精细的对齐。CoVe指向了另一个方向:与其追求一次生成就完美,不如承认模型会犯错,然后在架构层面把纠错机制build进去。

这和软件工程的演进路径很像。早期写代码追求一次写对,后来发现测试驱动开发、持续集成、灰度发布这些"验证优先"的实践才是规模化的正确姿势。

CoVe不会是终点,我们未来大概率会看到更多CoVe与RAG、外部工具、多模型交叉验证的组合方案。

https://avoid.overfit.cn/post/1f3da2d8396d44c6bab8bfea80405cb6

作者:Digvijay Mahapatra

Datawhale 开源生态驱动的大模型与 Agent 应用开发工程师全景深度研究报告

第一章 绪论:开源精神下的 AI 工程化教育新范式

1.1 Datawhale 的教育哲学与技术愿景

在人工智能技术以指数级速度迭代的当下,技术知识的半衰期显著缩短,传统的教育体系往往难以跟上工业界的步伐。Datawhale 作为成立于 2018 年的专注于 AI 领域的开源组织,其 “For the Learner” 的核心价值观不仅是一种口号,更是一种应对技术变革的系统性方法论。该组织通过汇聚具备开源与探索精神的理想主义者,构建了一个去中心化、高响应速度的知识生产与传播网络。

对于渴望成为大模型(Large Language Model, LLM)应用开发工程师或智能体(Agent)开发者的学习者而言,Datawhale 提供了一个独特的生态位:它既不完全等同于学术界的纯理论研究,也不同于商业公司的封闭技术栈。Datawhale 的项目矩阵通常呈现出 “元认知” 的特性 —— 不仅教授如何使用工具,更深入工具背后的原理与设计哲学。通过对 Datawhale 开源仓库的全面梳理,我们可以清晰地通过其项目演进看到 AI 工程化范式的转移:从早期的模型训练(Training-centric),过渡到以提示工程(Prompt Engineering)为核心的应用开发,最终演进至 2024-2025 年爆发的智能体(Agentic)系统构建。

1.2 大模型与 Agent 开发者的能力模型重构

本报告旨在为学习者规划一条详尽的进阶路径,该路径严格基于 Datawhale 的开源项目构建,旨在培养具备 “全栈 AI 思维” 的工程师。一个合格的大模型 / Agent 应用开发工程师,其能力图谱已发生根本性重构:

  1. 交互层(Interaction Layer):不再仅限于 GUI 设计,而是转向提示工程(Prompt Engineering)与自然语言交互设计。
  2. 编排层(Orchestration Layer):掌握 LangChain、LlamaIndex 等工具,以及更进阶的 Agent 框架(如 AutoGen、LangGraph、CAMEL)。
  3. 认知层(Cognitive Layer):理解模型推理、规划(Planning)、记忆(Memory)与反思(Reflection)机制。
  4. 数据层(Data Layer):精通 RAG(检索增强生成)架构,管理向量数据库与非结构化知识。
  5. 协作层(Collaboration Layer):构建多智能体系统(Multi-Agent Systems),实现 Agent 间的社会化分工。

本报告将摒弃版本过旧或简单的搬运类项目,聚焦于 Datawhale 生态中具备系统性、原创性及前沿性的核心仓库,规划出一条长达数千小时的深度学习路线。


第二章 认知基石:提示工程与大模型应用开发初探

任何复杂的 Agent 系统,其原子单元皆为单次的大模型调用。因此,理解如何与模型高效沟通,即 “提示工程”,是所有后续开发的基石。Datawhale 在此领域提供了两套互补的 “教材”,分别侧重于交互逻辑与工程落地。

2.1 交互逻辑重塑:面向开发者的 LLM 入门教程

该项目是吴恩达(Andrew Ng)与 OpenAI 合作推出的系列课程的中文版。Datawhale 团队不仅进行了翻译,更针对中英文模型在理解 Prompt 时的细微差异进行了大量的 “本地化” 调优。这使得该项目成为了解 LLM 思维方式的最佳起点。

2.1.1 提示工程的核心原则与迭代范式

在这一模块中,学习者将深入探究控制大模型输出质量的底层逻辑。这并非简单的 “说话技巧”,而是一种编程思维。

  • 原则一:清晰具体的指令(Clear and Specific Instructions)。这不仅仅意味着 “把话说清楚”,更涉及到结构化思维。学习者需掌握使用分隔符(Delimiters)来隔离指令与数据,防止提示注入攻击;利用结构化输出(如 JSON、HTML)来强迫模型生成可被代码解析的响应。项目中展示的通过系统消息(System Message)设定角色(Persona)的技巧,是后续构建 Agent “人设” 的雏形。
  • 原则二:给予思考的时间(Give the Model Time to Think)。这是链式思维(Chain of Thought, CoT)的早期形态。学习者将通过实战案例理解,为何在要求模型输出最终答案前,强制其列出计算步骤或推理过程,能显著降低 “幻觉”(Hallucination)率。这揭示了 LLM 作为自回归模型,其生成的每一个 Token 都在为下一个 Token 提供上下文的本质。
  • 迭代开发(Iterative Development)。Prompt 开发绝非一蹴而就。本项目强调 “Idea → Prompt → Error Analysis → Refined Prompt” 的闭环。学习者将学会如何建立测试用例,量化评估 Prompt 的表现,这种工程化思维是将 Prompt 从 “玄学” 变为 “科学” 的关键。

2.1.2 系统级应用的构建逻辑

从单一 Prompt 进阶到系统构建,项目涵盖了 Building Systems with the ChatGPT API 的核心内容。

  • 输入监控与分类:在真实应用中,用户输入是不可控的。学习者将学习使用 Moderation API 进行内容审查,并构建分类 Prompt 来识别用户意图(Intent Recognition),这是 Agent 中 “路由(Routing)” 模块的前身。
  • 多轮对话管理:LLM 本身是无状态的(Stateless)。项目详细解析了如何通过手动维护 messages 列表来构建对话历史(History),以及如何处理上下文窗口限制,为后续理解 Agent 的 Memory 模块打下基础。

2.1.3 LangChain 框架的原理解析

虽然 Datawhale 有更复杂的 Agent 教程,但 llm-cookbook 中关于 LangChain 的章节提供了最纯粹的原理解读。

  • Chains(链):学习者将理解如何将多个 LLM 调用串联(Sequential Chain),实现 “先总结评论,再撰写回复” 的流水线逻辑。
  • Document Loading 与 Splitting:初步接触非结构化数据处理,理解为何需要将长文档切片,以及重叠(Overlap)参数对上下文连贯性的影响。


2.2 全栈工程落地:动手学大模型应用开发

如果说 llm-cookbook 是注重理论的 “计算机科学导论”,那么 llm-universe 就是注重实操的 “软件工程实验课”。该项目致力于帮助小白开发者从零开始构建一个完整的、可部署的个人知识库助手。

2.2.1 多源异构 API 的统一封装

在实际的国内开发环境中,开发者往往面临 OpenAI 访问受限或成本过高的问题。llm-universe 的一个核心贡献是提供了一套统一的接口设计模式,涵盖了百度文心(Ernie)、讯飞星火(Spark)、智谱 AI(ZhipuAI)等主流国产大模型。

  • 适配器模式应用:学习者通过阅读源码,将深入理解如何继承 LangChain 的 LLM 基类,将不同厂商的 SDK(如 zhipuaidashscope)封装为统一的_call 接口。这种能力对于企业级应用中实现 “模型热切换” 至关重要,也是构建模型无关(Model-Agnostic)Agent 框架的前提。

2.2.2 检索增强生成(RAG)的端到端实现

RAG 是目前解决大模型知识截止和私有数据访问最成熟的技术方案。本项目通过由浅入深的实战,剖析了 RAG 的每一个环节。

  • 数据清洗与向量化:项目详细介绍了如何处理 PDF、Markdown 等格式的文档。学习者将亲手实践使用 Embedding 模型(如 OpenAI Embedding 或 HuggingFace 开源模型)将文本转化为高维向量。
  • 向量数据库实战:不仅涵盖了轻量级的 Chroma,也涉及了生产级的 Milvus。学习者将掌握向量存储(Vector Store)的构建、持久化以及基于余弦相似度(Cosine Similarity)的检索逻辑。
  • Prompt 模板注入:如何将检索到的 Top-K 片段优雅地嵌入到 Prompt 中,并提示模型 “仅根据已知信息回答”,是减少幻觉的关键。项目中的 Prompt 模板设计经过了大量验证,极具参考价值。

2.2.3 前端交互与 Web 部署

为了完成工程闭环,项目引入了 Streamlit 框架。学习者不再停留于 Jupyter Notebook 的黑底白字,而是能够快速构建具备侧边栏配置、聊天气泡界面的 Web 应用。这对于展示 Agent Demo、进行用户测试(User Testing)具有重要意义。


第三章 理论深潜:Transformer 架构与模型微调原理

在掌握了 API 调用与基础应用开发后,真正的专家级工程师必须具备 “打开黑盒” 的能力。理解 Transformer 架构、训练过程及微调(Fine-tuning)原理,是优化复杂 Prompt、调试模型异常表现以及进行私有化部署的前提。

3.1 深度解析 Transformer:HuggingLLM(蝴蝶书)

此项目被称为 “蝴蝶书”,意在阐述微小的代码变动可能引发的模型行为的巨大蝴蝶效应。它连接了深度学习理论与 Hugging Face 开源生态。

3.1.1 自然语言处理(NLP)范式的演进

学习者将通过该项目,梳理 NLP 从 RNN/LSTM 到 Transformer 的范式转移。

  • Attention Is All You Need:项目对 Transformer 论文进行了逐行代码级的复现与解析。学习者需深刻理解 Self-Attention(自注意力机制)如何解决长距离依赖问题,以及 Positional Encoding(位置编码)如何赋予模型序列感。
  • BERT vs GPT:对比 Encoder-only(BERT)、Encoder-Decoder(T5)与 Decoder-only(GPT)架构的优劣。理解为何生成式任务最终收敛于 Decoder-only 架构,这对于理解当前主流大模型(如 Llama, Qwen)的结构至关重要。

3.1.2 Hugging Face 生态与开源模型实战

Hugging Face 已成为 AI 领域的 GitHub。本项目手把手教导如何利用 transformers 库加载开源模型。

  • Tokenizer 的奥秘:学习者将发现,Tokenizer 不仅仅是分词,更涉及到词表(Vocabulary)构建、特殊 Token(如 <|endoftext|>)的处理。不同模型的 Tokenizer 实现差异(如 SentencePiece vs Byte-Pair Encoding)直接影响 Prompt 的 Token 计算与上下文窗口利用率。
  • Pipeline 与 Model Head:掌握如何根据任务(文本分类、生成、命名实体识别)选择不同的 Model Head,这对于需要结合传统 NLP 任务与 LLM 能力的复合型 Agent 系统非常有用。

3.2 训练与对齐机制:Happy-LLM

该项目从更加底层的视角,剖析了大模型全生命周期的训练过程。

3.2.1 从预训练到指令微调

  • Pre-training(预训练):理解模型如何通过海量文本的自监督学习获得世界知识。
  • Instruction Tuning(指令微调 / SFT):这是让模型听懂人话的关键。项目展示了如何构建 <Instruction, Input, Output> 格式的数据集,将预训练模型转化为 Chat 模型。这对于开发者想要在特定垂直领域(如医疗、法律)微调模型以获得更好表现极具指导意义。

3.2.2 RLHF 与人类价值观对齐

Reinforcement Learning from Human Feedback(RLHF)是大模型安全性的核心。虽然大多数应用开发者不需要亲自进行 RLHF,但理解其原理(奖励模型 Reward Model、PPO 算法)有助于理解模型为何会拒绝某些请求,以及如何通过 Prompt 设计规避过度的防御机制。


第四章 智能体元年:Agent 架构与开发实战

2024 年与 2025 年被普遍认为是 “Agent 元年”。大模型的能力焦点从单纯的文本生成(Chatbot)转移到了具备自主感知、规划、工具使用能力的智能体(Agent)。Datawhale 的 hello-agents 项目是目前开源社区中最系统、最前沿的 Agent 学习资料,是本报告的核心推荐内容。

4.1 智能体通识与核心范式:Hello-Agents(Part I & II)

该项目立意高远,旨在培养 “AI Native” 的 Agent 开发者。它不仅介绍了如何使用工具,更从第一性原理出发,探讨 Agent 的本质。

4.1.1 智能体的定义与演进

学习者首先需要建立对 Agent 的科学认知。

  • 从 Copilot 到 Agent:明确区分辅助驾驶(Copilot,人主导,AI 辅助)与智能体(Agent,AI 主导,人监督)的边界。
  • 演进史:项目梳理了从符号主义 Agent(Symbolic Agent)到强化学习 Agent(RL Agent),再到如今基于 LLM 的 Agent 的演变路径。理解这一历史,有助于明白当前 LLM Agent 虽然在通用性上通过了图灵测试,但在长期规划和确定性执行上仍存在挑战。

4.1.2 经典 Agent 范式的代码级复现

在这一部分,hello-agents 展现了极高的教学价值:它拒绝直接使用封装好的框架,而是引导学习者用原生 Python 复现经典论文。

  • ReAct (Reasoning + Acting):这是当前 Agent 最主流的范式。学习者将亲手编写一个 While 循环,模拟 “Thought(思考) → Action(行动) → Observation(观察)” 的过程。通过解析模型输出的字符串,提取工具调用指令,执行工具函数,并将结果拼接到 Prompt 中进入下一轮循环。这种 “手搓 ReAct” 的经历,能让开发者对 Agent 的 Token 消耗、延迟来源及错误恢复机制有刻骨铭心的理解。
  • Plan-and-Solve:针对 ReAct 在复杂长链条任务中容易跑偏的问题,学习者将实现 “先规划,后执行” 的范式。即让模型先生成完整的 Step-by-Step 计划,再逐一执行。
  • Reflection(反思):学习如何构建一个 “双我” 系统,即一个 Agent 负责生成,另一个 Agent 负责批评(Critique)和建议,从而实现自我进化。这在代码生成(Self-Debugging)任务中尤为重要。

4.2 打造自主可控的框架:HelloAgents Framework

  • 项目章节hello-agents 第七章 8

在掌握了原理后,Datawhale 鼓励学习者造一个属于自己的轮子。这一章指导学习者构建名为 HelloAgents 的轻量级框架。

4.2.1 框架设计哲学与架构

  • 组件解耦:学习者将设计 Agent 基类、ToolRegistry(工具注册表)、Memory(记忆模块)等核心组件。
  • 统一接口:为了兼容 OpenAI、Anthropic 及本地模型,需要设计统一的 LLM 适配层。
  • 消息路由:设计高效的消息传递机制,确保 System Message、User Message 和 Tool Output 能在多轮对话中正确拼接,不丢失上下文。

4.2.2 高级工具系统的实现

  • 工具链管理:实现工具的自动发现与注册。学习者将学习如何利用 Python 的装饰器(Decorator)将普通函数转化为带有 JSON Schema 描述的 Agent 工具。
  • 多源搜索聚合:实战开发一个聚合了 Tavily(AI 专用搜索)、SerpApi(Google 搜索)的超级搜索工具,并实现故障转移(Failover)机制。


第五章 进阶工程:多智能体协作与复杂社会模拟

当单一 Agent 受限于上下文窗口或能力瓶颈无法解决复杂问题时,多智能体系统(Multi-Agent Systems, MAS)应运而生。Datawhale 通过 handy-multi-agenthello-agents 的高级章节,深入探索了这一前沿领域。

5.1 多智能体协作框架:Handy Multi-Agent

该项目基于 CAMEL(Communicative Agents for “Mind” Exploration of Large Scale Language Model Society)框架,重点展示了 Agent 社会的构建。

5.1.1 角色扮演(Role-Playing)与 Inception Prompting

CAMEL 框架的核心创新在于 “角色扮演”。

  • Inception Prompting:学习者将深入研究这种特殊的 Prompt 技术,它在对话开始前对两个 Agent(如 “Python 程序员” 和 “股票交易员”)进行深度催眠,设定其职责、禁忌和交互协议,从而实现全自动的对话推进,无需人类作为中间人。
  • 任务特化(Task Specialization):通过案例(如 “开发一个交易机器人”),观察两个 Agent 如何通过不断的指令下达与代码交付,逐步逼近任务目标。

5.1.2 异构 Agent 社会的构建

  • Agent Society:项目展示了如何不仅限于两个 Agent,而是构建一个包含多种角色的 “社会”。学习者将理解在这种网络拓扑中,信息如何流动,以及如何避免死循环对话。

5.2 主流框架横向评测与实战:Hello-Agents(Part II Advanced)

除了自研框架和 CAMEL,hello-agents 还深入剖析了工业界主流框架。

5.2.1 AutoGen 的对话式编程

微软推出的 AutoGen 是目前最火的框架之一。

  • UserProxyAgent:学习者需掌握这一特殊 Agent 的使用,它充当人类代理,可以在代码执行前请求人类批准,通过 Docker 沙箱安全执行代码。
  • GroupChat 与 Manager:理解 AutoGen 如何通过一个 “群聊管理员” 来动态选择下一个发言的 Agent,这对于构建非线性协作流程(如头脑风暴)至关重要。

5.2.2 LangGraph 的图论编排

LangGraph 代表了 Agent 编排的另一方向 —— 基于图(Graph)。

  • Cyclic Flows(有环流):不同于传统的 DAG(有向无环图),LangGraph 原生支持循环。这对于实现 ReAct 循环或长周期的 Human-in-the-loop 流程非常自然。学习者将学习定义 Nodes(节点)和 Edges(边),构建状态机。

5.3 跨平台轻量级方案:Wow-Agent

作为一个更轻量级的选择,wow-agent 提供了一个跨平台的视角。其中的 Zigent 模块展示了极简主义的 Agent 设计。学习者可以对比其与庞大的 LangChain/AutoGen 的差异,理解在资源受限或需要快速原型开发时如何取舍。


第六章 综合应用:RAG 进阶与 Agent 生态互联

在掌握了单个和多个 Agent 的构建后,最后阶段将聚焦于数据的深度利用与生态互联,这是构建具备商业价值应用的关键。

6.1 下一代检索增强:Wow-RAG

基础的 RAG(如 llm-universe 中所述)往往面临检索精度不足、多跳推理困难的问题。wow-rag 聚焦于 Advanced RAG 技术。

6.1.1 混合检索与重排序(Rerank)

  • Hybrid Search:学习者将实践结合关键词检索(BM25,擅长精确匹配)与向量检索(Embedding,擅长语义匹配)的策略,以提高召回率(Recall)。
  • Rerank 模型:在检索回 Top-50 文档后,使用专门的 Cross-Encoder 模型(如 BGE-Reranker)进行精细排序,筛选出 Top-5 给 LLM。这是提升 RAG 系统准确率(Precision)性价比最高的手段。

6.1.2 GraphRAG 与知识图谱

项目触及了最前沿的 GraphRAG 技术。利用知识图谱(Knowledge Graph)捕捉实体间的关系,解决 “跨文档推理” 难题。学习者将了解如何将非结构化文本转化为图谱,并利用图算法增强检索上下文。

6.2 基础设施支持:Easy-VectorDB

为了支持上述 RAG 系统,对向量数据库的深入理解不可或缺。该项目专注于向量数据库的原理与实践,填补了数据库层面的认知空白,是构建大规模知识库 Agent 的基石。

6.3 毕业设计与未来展望:Hello-Agents(Part IV & V)

  • 项目章节hello-agents 第 13-16 章 8

学习的终点是创造。本部分提供了多个企业级复杂度的案例,涵盖了当前最热门的应用方向。

6.3.1 智能旅行助手:MCP 协议实战

  • 案例详解:构建一个包含景点搜索、天气查询、酒店推荐、行程规划四个 Agent 的协作系统。
  • Model Context Protocol (MCP):这是 Anthropic 等巨头推动的下一代标准。学习者将实战如何使用 MCP 协议,标准化 Agent 与外部数据源(如高德地图 API、Unsplash 图片库)的连接。掌握 MCP 意味着开发的 Agent 天然具备跨平台互操作性。

6.3.2 自动化深度研究 Agent (Deep Research)

  • 案例详解:复现类似 OpenAI Deep Research 的功能。
  • 递归任务分解:学习如何让 Agent 自主进行长周期的互联网探索。它需要自己提出搜索关键词,阅读网页,判断信息是否足够,如果不足则生成新的关键词继续搜索(递归),最后阅读数十个网页并生成万字长文报告。这考验了 Agent 的显存管理、长上下文处理及逻辑一致性。

6.3.3 赛博小镇 (Cyber Town) 社会模拟

  • 案例详解:基于斯坦福 “Generative Agents” 论文,构建一个包含多个 NPC 的虚拟小镇。
  • 记忆流(Memory Stream):这是本案例的核心。学习者将实现包含 “感知、记忆检索、反思、规划” 的完整认知架构。观察 NPC 之间如何涌现出八卦传播、选举拉票等社会行为。

6.3.4 毕业设计:从 Idea 到开源

最后,学习者需完成一个完整的开源项目。hello-agents 提供了详细的指南,包括选题(如代码审查 Agent、数据分析师)、项目结构规范(src, tests, docs)、以及如何撰写 requirements.txtREADME.md。这不仅是技术的总结,更是开源礼仪与工程规范的实战。


第七章 总结与学习路径规划表

7.1 学习路径总览表

阶段核心项目学习重点预计耗时产出物
P1: 基础llm-cookbookPrompt Engineering, API, LangChain Basic20h翻译助手,摘要工具
P2: 应用llm-universeRAG, VectorDB, Streamlit UI30h个人知识库助手 (Web 版)
P3: 原理hugging-llmTransformer, Tokenizer, Open Source Models25h本地模型推理 Demo
P4: 智能体hello-agents (Part 1-2)ReAct, Plan-and-Solve, HelloAgents 框架40h手写 Agent 框架,命令行工具
P5: 协作handy-multi-agentCAMEL, Role-Playing, Agent Society30h多智能体辩论系统
P6: 进阶hello-agents (Part 3-5) + wow-ragMCP, GraphRAG, Deep Research, Simulation50h+毕业设计开源项目

7.2 给学习者的最后建议

Datawhale 的开源项目群构建了一座宏大的 “AI 工程学院”。从掌握 Prompt 这一原子能力,到构建复杂的 Agent 社会,这条路径既漫长又充满挑战。

  1. 代码至上:切勿止步于阅读文档。务必 Clone 每一个仓库,运行每一个 Jupyter Notebook。Agent 的许多微妙之处(如 Prompt 的微小差异导致的执行失败)只有在 Debug 中才能体会。
  2. 关注数据流:在学习多智能体系统时,时刻关注 “消息(Message)” 是如何在 Agent 之间流转的。消息即 Agent 的血液。
  3. 拥抱开源:Datawhale 的核心是 “和学习者一起成长”。在学习过程中,如果发现代码过时或有 Bug,请积极提交 Issue 或 PR。这不仅是对社区的回馈,也是证明你已从 “Learner” 成长为 “Builder” 的最佳勋章。

愿这份基于 Datawhale 生态的详尽报告,能成为你在大模型与智能体开发之路上最坚实的导航图。


附录:引用项目清单


📌 转载信息
转载时间:
2026/1/12 10:01:12