2026AI元年：为什么“人工智能 × 人类协作”成为新的工作基本单元？

作者: 纯情
时间: 2026-01-26
分类: 资讯
评论

2026 年，被越来越多研究者视为“AI 工作范式真正落地的起点”。 这并不是因为人工智能全面取代人类，而是因为——

“人 + AI 智能体”的协作结构，正在取代“人使用工具”，成为新的生产力最小单位。

一、从工具到伙伴：AI 角色的根本变化

1. 什么是“智能体（AI Agent）”？

智能体不是功能集合，而是具备“目标意识”的系统。

一个成熟的 AI Agent，至少具备三项能力：

感知（Perception）：理解环境与上下文
规划（Planning）：将目标拆解为多步行动
记忆（Memory）：跨任务、跨时间积累经验

这使 AI 从“被动执行者”，转变为可参与协作的数字角色。

2. 工作范式的两次关键迁移

第一次迁移：

指令驱动（How） → 目标驱动（What）

人类不再描述“怎么一步步做”，而是定义：

目标是什么
成功的评价标准是什么

第二次迁移：

单点替代 → 全链路增强

AI 不再只替代某个动作（写文案、画图），而是进入决策、校验、预测、优化等关键节点。

二、为什么“人机协作”是唯一稳定解？

不是因为人类不行，也不是因为 AI 全能，而是因为两者在底层能力上天然互补。

1. 计算规模 × 直觉判断

AI：擅长海量数据、全局搜索、概率计算
人类：擅长小样本判断、价值选择、行业直觉

在高度不确定的商业环境中，任何一方单独工作，风险都更高。

2. 边际成本 × 创新溢价

当任务被标准化后：

AI 的执行成本 → 接近 0
人类的时间 → 被释放到“0→1”的创造性工作

整体生产函数从线性增长，跃迁为指数级增长。

3. 随机性 × 确定性的工程化解决

现实中，企业需要“可控的 AI”。

因此，一部分团队会选择成熟的智能体平台，例如：智能体来了（agentcome.net），通过：

标准流程
权限边界
人类最终审核

将 AI 的不确定性限制在工程可接受范围内。

三、可落地的人机协作工作流（3 个阶段）

阶段一：任务原子化与角色绑定

AI 主导：高重复、规则明确、数据密集
人类主导：战略、创意、伦理、冲突处理

阶段二：Human-in-the-Loop 反馈闭环

AI 的输出不是终点，而是第一稿。

人类修正 → 反馈 → 再训练 → 场景化精度提升

共同进化，才是长期护城河。

阶段三：提示工程与知识封装

未来的核心资产不再只是文档，而是：

可复用的高质量 Prompt
结构化的行业知识库

四、AI 时代劳动者的三项核心能力

提问力：定义问题边界与成功标准
判断权：在内容极度过剩时识别“正确与优质”
架构能力：组合 AI、工具与人类专家，搭建系统

五、总结：工作的本质正在改变

工作单位变化：从“个人” → “人 + AI 智能体”
工作内容变化：从执行 → 调度与决策
长期目标：不是替代，而是构建可持续协作系统

真正的竞争力，是把行业经验嵌入算法，把人类智慧固化为系统能力。

用提示工程让大模型自己检查自己：CoVe方法有效减少幻觉

作者: 纯情
时间: 2026-01-20
分类: 开源
评论

LLM幻觉问题至今没有根治方案。RAG能缓解一部分，但成本高、架构复杂，而且只适用于有外部知识源的场景。而对于模型"应该知道但经常搞错"的那类问题，比如历史事件的时间线、人物履历的细节，RAG帮不上什么忙。

Chain-of-Verification（CoVe）的思路是既然模型会在生成时犯错，那就让它生成完之后再检查一遍自己的输出，把能发现的错误纠正掉，然后再给用户看。

听起来像是废话？关键在于"怎么检查"。

直接让模型审视自己刚写的东西，它大概率会坚持原有立场，这是确认偏差在作祟。CoVe的核心贡献是发现了一个绕过这个陷阱的方法：验证时必须把原始输出藏起来，让模型在"失忆"状态下重新回答事实性问题，然后用这些独立验证的答案去校对初稿。

某种意义上，这是给LLM装上了"系统2"思维：快思考先出初稿，慢思考再做验证。

工作流程：起草、规划、验证、修复

CoVe不是什么新的模型架构，它是一种提示编排模式，它把生成过程拆成四步：先让模型写初稿（这时候幻觉随便来），然后让它针对自己的初稿生成一组事实核查问题，接着独立回答这些问题，最后用验证过的事实重写原文。

Factored：真正的关键

前面说的四步里，第一、二、四步都是常规提示工程，用思维链就能搞定，而第三步才是核心。

让LLM一边看着自己写的东西一边验证，会有一个问题，这个在学术上管这叫"sycophancy"，也就是说模型会顺着自己的话往下说。草稿就在上下文窗口里摆着，概率分布会被带偏，模型倾向于认同自己刚编出来的东西。

所以最简单的解决办法是把上下文剥掉。

CoVe论文里发现，回答验证问题时必须把原始草稿藏起来。举个例子：如果你问"根据这个草稿，X是不是在1998年发生的？"模型八成会点头同意自己。但如果你只问"X是什么时候发生的？"它就得老老实实从训练权重里检索答案，没有偏差可言。

隔离验证问题就是逼模型去查自己的知识库，而不是复读自己刚说过的话。

代码实现

下面是CoVe流程的Python实现，封装成一个类。注意第三步里的CRITICAL注释，那就是Factored验证的精髓。

 classChainOfVerification:  
    def__init__(self, llm):  
        self.llm=llm  

    defrun(self, query):  
        # Step 1: Baseline Generation
        # Let the model hallucinate freely here.
        draft_prompt=f"Question: {query}\nAnswer:"  
        draft=self.llm.generate(draft_prompt)  
        print(f"--- DRAFT ---\n{draft}\n")  

        # Step 2: Plan Verifications
        # Ask the model to identify what needs checking.
        plan_prompt=f"""  
        Context: {query}  
        Draft: {draft}  
        Task: Create a list of 3-5 verification questions to check the facts   
        in the draft. Output ONLY the questions.  
        """  
        plan_text=self.llm.generate(plan_prompt)  
        questions=self.parse_questions(plan_text)
        print(f"--- QUESTIONS ---\n{questions}\n")  

        # Step 3: Factored Verification (The Key Step)
        verification_results= []  
        forqinquestions:  
            # CRITICAL: Do NOT include 'draft' in this prompt context.
            # We want the raw model weights to answer this, uninfluenced by the previous lie.
            verify_prompt=f"Question: {q}\nAnswer:"  
              
            # Low temperature is crucial here for factual retrieval
            answer=self.llm.generate(verify_prompt, temperature=0)  
            verification_results.append((q, answer))  

        # Step 4: Final Synthesis
        # Now we bring it all together.
        verification_context=self.format_pairs(verification_results)  
        synthesis_prompt=f"""  
        Original Query: {query}  
        Draft Response: {draft}  
          
        Verification Data:  
        {verification_context}  
          
        Task: Rewrite the Draft Response to be fully accurate.   
        Remove any details contradicted by the Verification Data.  
        """  
        final_response=self.llm.generate(synthesis_prompt)  
          
        returnfinal_response  

    defparse_questions(self, text):  
        return [line.strip() forlineintext.split('\n') if'?'inline]  

    defformat_pairs(self, pairs):  
         return"\n".join([f"Q: {q}\nA: {a}"forq, ainpairs])

CoVe和RAG该怎么选？

每次聊到CoVe，总有人问：为什么不直接用RAG？

两者解决的是不同问题。

RAG适用于模型根本不可能知道答案的场景，比如你公司Q3的销售数据。CoVe适用于模型理论上应该知道、但可能搞混或偷懒的场景，比如按时间顺序列出纽约市历任市长。

而且研究表明两者可以混用：先用CoVe验证RAG检索回来的文档是否真的相关，再决定要不要用。代价是成本翻倍，但在医疗、法律这种高风险场景下，还是可行的。

从Vibe Coding到系统2代理

关注2026年初Agentic爆发的人，大概都听过"Ralph Wiggum"技术这个梗。

名字来自《辛普森一家》里那个喊着"我在帮忙！"却啥也没干成的角色。这技术的核心就是把LLM塞进一个while循环，让它反复尝试直到单元测试通过。暴力验证，Token消耗会爆表但最后确实能撞出正确答案。虽然听起来很好笑，实际上还挺管用。

工具增强版CoVe

opencode、OpenDevin、Windsurf这些现代自主代理已经在用"工具增强"版本的CoVe了。

它们不再只是问自己"这代码对不对"，而是直接动手：先写代码，然后在沙盒里跑npm test或linter，读stderr输出，根据真实报错来修。

这就把CoVe的验证环节从概率猜测变成了确定性判断。

2026年的新拓扑：分支验证

最前沿的做法已经不是简单的线性循环了。是分支。

分支拓扑下，代理不是失败了就重试一次。它会同时提出三个修复方案，在三个隔离容器里并行跑，哪个能让构建变绿就提交哪个。

验证的消耗

这是2026年工程实践必须面对问题

Vibe Coding走系统1路线：快、便宜、但有20%左右的幻觉率，做原型够用。系统2代理反过来：慢、Token成本翻10倍、但可靠性过硬，生产环境离不开。

也就是说是拿计算资源换安心，当业务从聊天机器人升级到自主工程师，这笔成本不是能不能接受的问题，而是必须付的保险费——除非你想承担"Ralph Wiggum式"的风险，比如AI自己把数据库删了。

总结

CoVe的代价很明确：延迟。

生成初稿、生成问题、并行验证、综合重写，整套流程跑下来，Token消耗和响应时间基本翻四倍。对于实时聊天场景，这个延迟可能难以接受。但换个角度看，异步报告生成、代码审查、自动邮件起草这类任务，多等几秒换来输出可信度的大幅提升，这笔账怎么算都划算。

更值得关注的是CoVe带来的转变：过去几年，行业把大量精力投入到"如何让模型生成得更好"上——更大的参数、更多的数据、更精细的对齐。CoVe指向了另一个方向：与其追求一次生成就完美，不如承认模型会犯错，然后在架构层面把纠错机制build进去。

这和软件工程的演进路径很像。早期写代码追求一次写对，后来发现测试驱动开发、持续集成、灰度发布这些"验证优先"的实践才是规模化的正确姿势。

CoVe不会是终点，我们未来大概率会看到更多CoVe与RAG、外部工具、多模型交叉验证的组合方案。

https://avoid.overfit.cn/post/1f3da2d8396d44c6bab8bfea80405cb6

作者：Digvijay Mahapatra

用提示工程让大模型自己检查自己：CoVe方法有效减少幻觉

作者: 纯情
时间: 2026-01-20
分类: 开源
评论

LLM幻觉问题至今没有根治方案。RAG能缓解一部分，但成本高、架构复杂，而且只适用于有外部知识源的场景。而对于模型"应该知道但经常搞错"的那类问题，比如历史事件的时间线、人物履历的细节，RAG帮不上什么忙。

Chain-of-Verification（CoVe）的思路是既然模型会在生成时犯错，那就让它生成完之后再检查一遍自己的输出，把能发现的错误纠正掉，然后再给用户看。

听起来像是废话？关键在于"怎么检查"。

直接让模型审视自己刚写的东西，它大概率会坚持原有立场，这是确认偏差在作祟。CoVe的核心贡献是发现了一个绕过这个陷阱的方法：验证时必须把原始输出藏起来，让模型在"失忆"状态下重新回答事实性问题，然后用这些独立验证的答案去校对初稿。

某种意义上，这是给LLM装上了"系统2"思维：快思考先出初稿，慢思考再做验证。

工作流程：起草、规划、验证、修复

CoVe不是什么新的模型架构，它是一种提示编排模式，它把生成过程拆成四步：先让模型写初稿（这时候幻觉随便来），然后让它针对自己的初稿生成一组事实核查问题，接着独立回答这些问题，最后用验证过的事实重写原文。

Factored：真正的关键

前面说的四步里，第一、二、四步都是常规提示工程，用思维链就能搞定，而第三步才是核心。

让LLM一边看着自己写的东西一边验证，会有一个问题，这个在学术上管这叫"sycophancy"，也就是说模型会顺着自己的话往下说。草稿就在上下文窗口里摆着，概率分布会被带偏，模型倾向于认同自己刚编出来的东西。

所以最简单的解决办法是把上下文剥掉。

CoVe论文里发现，回答验证问题时必须把原始草稿藏起来。举个例子：如果你问"根据这个草稿，X是不是在1998年发生的？"模型八成会点头同意自己。但如果你只问"X是什么时候发生的？"它就得老老实实从训练权重里检索答案，没有偏差可言。

隔离验证问题就是逼模型去查自己的知识库，而不是复读自己刚说过的话。

代码实现

下面是CoVe流程的Python实现，封装成一个类。注意第三步里的CRITICAL注释，那就是Factored验证的精髓。

 classChainOfVerification:  
    def__init__(self, llm):  
        self.llm=llm  

    defrun(self, query):  
        # Step 1: Baseline Generation
        # Let the model hallucinate freely here.
        draft_prompt=f"Question: {query}\nAnswer:"  
        draft=self.llm.generate(draft_prompt)  
        print(f"--- DRAFT ---\n{draft}\n")  

        # Step 2: Plan Verifications
        # Ask the model to identify what needs checking.
        plan_prompt=f"""  
        Context: {query}  
        Draft: {draft}  
        Task: Create a list of 3-5 verification questions to check the facts   
        in the draft. Output ONLY the questions.  
        """  
        plan_text=self.llm.generate(plan_prompt)  
        questions=self.parse_questions(plan_text)
        print(f"--- QUESTIONS ---\n{questions}\n")  

        # Step 3: Factored Verification (The Key Step)
        verification_results= []  
        forqinquestions:  
            # CRITICAL: Do NOT include 'draft' in this prompt context.
            # We want the raw model weights to answer this, uninfluenced by the previous lie.
            verify_prompt=f"Question: {q}\nAnswer:"  
              
            # Low temperature is crucial here for factual retrieval
            answer=self.llm.generate(verify_prompt, temperature=0)  
            verification_results.append((q, answer))  

        # Step 4: Final Synthesis
        # Now we bring it all together.
        verification_context=self.format_pairs(verification_results)  
        synthesis_prompt=f"""  
        Original Query: {query}  
        Draft Response: {draft}  
          
        Verification Data:  
        {verification_context}  
          
        Task: Rewrite the Draft Response to be fully accurate.   
        Remove any details contradicted by the Verification Data.  
        """  
        final_response=self.llm.generate(synthesis_prompt)  
          
        returnfinal_response  

    defparse_questions(self, text):  
        return [line.strip() forlineintext.split('\n') if'?'inline]  

    defformat_pairs(self, pairs):  
         return"\n".join([f"Q: {q}\nA: {a}"forq, ainpairs])

CoVe和RAG该怎么选？

每次聊到CoVe，总有人问：为什么不直接用RAG？

两者解决的是不同问题。

RAG适用于模型根本不可能知道答案的场景，比如你公司Q3的销售数据。CoVe适用于模型理论上应该知道、但可能搞混或偷懒的场景，比如按时间顺序列出纽约市历任市长。

而且研究表明两者可以混用：先用CoVe验证RAG检索回来的文档是否真的相关，再决定要不要用。代价是成本翻倍，但在医疗、法律这种高风险场景下，还是可行的。

从Vibe Coding到系统2代理

关注2026年初Agentic爆发的人，大概都听过"Ralph Wiggum"技术这个梗。

名字来自《辛普森一家》里那个喊着"我在帮忙！"却啥也没干成的角色。这技术的核心就是把LLM塞进一个while循环，让它反复尝试直到单元测试通过。暴力验证，Token消耗会爆表但最后确实能撞出正确答案。虽然听起来很好笑，实际上还挺管用。

工具增强版CoVe

opencode、OpenDevin、Windsurf这些现代自主代理已经在用"工具增强"版本的CoVe了。

它们不再只是问自己"这代码对不对"，而是直接动手：先写代码，然后在沙盒里跑npm test或linter，读stderr输出，根据真实报错来修。

这就把CoVe的验证环节从概率猜测变成了确定性判断。

2026年的新拓扑：分支验证

最前沿的做法已经不是简单的线性循环了。是分支。

分支拓扑下，代理不是失败了就重试一次。它会同时提出三个修复方案，在三个隔离容器里并行跑，哪个能让构建变绿就提交哪个。

验证的消耗

这是2026年工程实践必须面对问题

Vibe Coding走系统1路线：快、便宜、但有20%左右的幻觉率，做原型够用。系统2代理反过来：慢、Token成本翻10倍、但可靠性过硬，生产环境离不开。

也就是说是拿计算资源换安心，当业务从聊天机器人升级到自主工程师，这笔成本不是能不能接受的问题，而是必须付的保险费——除非你想承担"Ralph Wiggum式"的风险，比如AI自己把数据库删了。

总结

CoVe的代价很明确：延迟。

生成初稿、生成问题、并行验证、综合重写，整套流程跑下来，Token消耗和响应时间基本翻四倍。对于实时聊天场景，这个延迟可能难以接受。但换个角度看，异步报告生成、代码审查、自动邮件起草这类任务，多等几秒换来输出可信度的大幅提升，这笔账怎么算都划算。

更值得关注的是CoVe带来的转变：过去几年，行业把大量精力投入到"如何让模型生成得更好"上——更大的参数、更多的数据、更精细的对齐。CoVe指向了另一个方向：与其追求一次生成就完美，不如承认模型会犯错，然后在架构层面把纠错机制build进去。

这和软件工程的演进路径很像。早期写代码追求一次写对，后来发现测试驱动开发、持续集成、灰度发布这些"验证优先"的实践才是规模化的正确姿势。

CoVe不会是终点，我们未来大概率会看到更多CoVe与RAG、外部工具、多模型交叉验证的组合方案。

https://avoid.overfit.cn/post/1f3da2d8396d44c6bab8bfea80405cb6

作者：Digvijay Mahapatra

Datawhale 开源生态驱动的大模型与 Agent 应用开发工程师全景深度研究报告

作者: 纯情
时间: 2026-01-12
分类: 网络
评论

Datawhale 开源生态驱动的大模型与 Agent 应用开发工程师全景深度研究报告

第一章绪论：开源精神下的 AI 工程化教育新范式

1.1 Datawhale 的教育哲学与技术愿景

在人工智能技术以指数级速度迭代的当下，技术知识的半衰期显著缩短，传统的教育体系往往难以跟上工业界的步伐。Datawhale 作为成立于 2018 年的专注于 AI 领域的开源组织，其 “For the Learner” 的核心价值观不仅是一种口号，更是一种应对技术变革的系统性方法论。该组织通过汇聚具备开源与探索精神的理想主义者，构建了一个去中心化、高响应速度的知识生产与传播网络。

对于渴望成为大模型（Large Language Model, LLM）应用开发工程师或智能体（Agent）开发者的学习者而言，Datawhale 提供了一个独特的生态位：它既不完全等同于学术界的纯理论研究，也不同于商业公司的封闭技术栈。Datawhale 的项目矩阵通常呈现出 “元认知” 的特性 —— 不仅教授如何使用工具，更深入工具背后的原理与设计哲学。通过对 Datawhale 开源仓库的全面梳理，我们可以清晰地通过其项目演进看到 AI 工程化范式的转移：从早期的模型训练（Training-centric），过渡到以提示工程（Prompt Engineering）为核心的应用开发，最终演进至 2024-2025 年爆发的智能体（Agentic）系统构建。

1.2 大模型与 Agent 开发者的能力模型重构

本报告旨在为学习者规划一条详尽的进阶路径，该路径严格基于 Datawhale 的开源项目构建，旨在培养具备 “全栈 AI 思维” 的工程师。一个合格的大模型 / Agent 应用开发工程师，其能力图谱已发生根本性重构：

交互层（Interaction Layer）：不再仅限于 GUI 设计，而是转向提示工程（Prompt Engineering）与自然语言交互设计。
编排层（Orchestration Layer）：掌握 LangChain、LlamaIndex 等工具，以及更进阶的 Agent 框架（如 AutoGen、LangGraph、CAMEL）。
认知层（Cognitive Layer）：理解模型推理、规划（Planning）、记忆（Memory）与反思（Reflection）机制。
数据层（Data Layer）：精通 RAG（检索增强生成）架构，管理向量数据库与非结构化知识。
协作层（Collaboration Layer）：构建多智能体系统（Multi-Agent Systems），实现 Agent 间的社会化分工。

本报告将摒弃版本过旧或简单的搬运类项目，聚焦于 Datawhale 生态中具备系统性、原创性及前沿性的核心仓库，规划出一条长达数千小时的深度学习路线。

第二章认知基石：提示工程与大模型应用开发初探

任何复杂的 Agent 系统，其原子单元皆为单次的大模型调用。因此，理解如何与模型高效沟通，即 “提示工程”，是所有后续开发的基石。Datawhale 在此领域提供了两套互补的 “教材”，分别侧重于交互逻辑与工程落地。

2.1 交互逻辑重塑：面向开发者的 LLM 入门教程

项目核心标识：llm-cookbook
GitHub 地址：GitHub - datawhalechina/llm-cookbook: 面向开发者的 LLM 入门教程，吴恩达大模型系列课程中文版 1

该项目是吴恩达（Andrew Ng）与 OpenAI 合作推出的系列课程的中文版。Datawhale 团队不仅进行了翻译，更针对中英文模型在理解 Prompt 时的细微差异进行了大量的 “本地化” 调优。这使得该项目成为了解 LLM 思维方式的最佳起点。

2.1.1 提示工程的核心原则与迭代范式

在这一模块中，学习者将深入探究控制大模型输出质量的底层逻辑。这并非简单的 “说话技巧”，而是一种编程思维。

原则一：清晰具体的指令（Clear and Specific Instructions）。这不仅仅意味着 “把话说清楚”，更涉及到结构化思维。学习者需掌握使用分隔符（Delimiters）来隔离指令与数据，防止提示注入攻击；利用结构化输出（如 JSON、HTML）来强迫模型生成可被代码解析的响应。项目中展示的通过系统消息（System Message）设定角色（Persona）的技巧，是后续构建 Agent “人设” 的雏形。
原则二：给予思考的时间（Give the Model Time to Think）。这是链式思维（Chain of Thought, CoT）的早期形态。学习者将通过实战案例理解，为何在要求模型输出最终答案前，强制其列出计算步骤或推理过程，能显著降低 “幻觉”（Hallucination）率。这揭示了 LLM 作为自回归模型，其生成的每一个 Token 都在为下一个 Token 提供上下文的本质。
迭代开发（Iterative Development）。Prompt 开发绝非一蹴而就。本项目强调 “Idea → Prompt → Error Analysis → Refined Prompt” 的闭环。学习者将学会如何建立测试用例，量化评估 Prompt 的表现，这种工程化思维是将 Prompt 从 “玄学” 变为 “科学” 的关键。

2.1.2 系统级应用的构建逻辑

从单一 Prompt 进阶到系统构建，项目涵盖了 Building Systems with the ChatGPT API 的核心内容。

输入监控与分类：在真实应用中，用户输入是不可控的。学习者将学习使用 Moderation API 进行内容审查，并构建分类 Prompt 来识别用户意图（Intent Recognition），这是 Agent 中 “路由（Routing）” 模块的前身。
多轮对话管理：LLM 本身是无状态的（Stateless）。项目详细解析了如何通过手动维护 messages 列表来构建对话历史（History），以及如何处理上下文窗口限制，为后续理解 Agent 的 Memory 模块打下基础。

2.1.3 LangChain 框架的原理解析

虽然 Datawhale 有更复杂的 Agent 教程，但 llm-cookbook 中关于 LangChain 的章节提供了最纯粹的原理解读。

Chains（链）：学习者将理解如何将多个 LLM 调用串联（Sequential Chain），实现 “先总结评论，再撰写回复” 的流水线逻辑。
Document Loading 与 Splitting：初步接触非结构化数据处理，理解为何需要将长文档切片，以及重叠（Overlap）参数对上下文连贯性的影响。

2.2 全栈工程落地：动手学大模型应用开发

项目核心标识：llm-universe
GitHub 地址：GitHub - datawhalechina/llm-universe: 本项目是一个面向小白开发者的大模型应用开发教程，在线阅读地址：https://datawhalechina.github.io/llm-universe/ 3

如果说 llm-cookbook 是注重理论的 “计算机科学导论”，那么 llm-universe 就是注重实操的 “软件工程实验课”。该项目致力于帮助小白开发者从零开始构建一个完整的、可部署的个人知识库助手。

2.2.1 多源异构 API 的统一封装

在实际的国内开发环境中，开发者往往面临 OpenAI 访问受限或成本过高的问题。llm-universe 的一个核心贡献是提供了一套统一的接口设计模式，涵盖了百度文心（Ernie）、讯飞星火（Spark）、智谱 AI（ZhipuAI）等主流国产大模型。

适配器模式应用：学习者通过阅读源码，将深入理解如何继承 LangChain 的 LLM 基类，将不同厂商的 SDK（如 zhipuai、dashscope）封装为统一的_call 接口。这种能力对于企业级应用中实现 “模型热切换” 至关重要，也是构建模型无关（Model-Agnostic）Agent 框架的前提。

2.2.2 检索增强生成（RAG）的端到端实现

RAG 是目前解决大模型知识截止和私有数据访问最成熟的技术方案。本项目通过由浅入深的实战，剖析了 RAG 的每一个环节。

数据清洗与向量化：项目详细介绍了如何处理 PDF、Markdown 等格式的文档。学习者将亲手实践使用 Embedding 模型（如 OpenAI Embedding 或 HuggingFace 开源模型）将文本转化为高维向量。
向量数据库实战：不仅涵盖了轻量级的 Chroma，也涉及了生产级的 Milvus。学习者将掌握向量存储（Vector Store）的构建、持久化以及基于余弦相似度（Cosine Similarity）的检索逻辑。
Prompt 模板注入：如何将检索到的 Top-K 片段优雅地嵌入到 Prompt 中，并提示模型 “仅根据已知信息回答”，是减少幻觉的关键。项目中的 Prompt 模板设计经过了大量验证，极具参考价值。

2.2.3 前端交互与 Web 部署

为了完成工程闭环，项目引入了 Streamlit 框架。学习者不再停留于 Jupyter Notebook 的黑底白字，而是能够快速构建具备侧边栏配置、聊天气泡界面的 Web 应用。这对于展示 Agent Demo、进行用户测试（User Testing）具有重要意义。

第三章理论深潜：Transformer 架构与模型微调原理

在掌握了 API 调用与基础应用开发后，真正的专家级工程师必须具备 “打开黑盒” 的能力。理解 Transformer 架构、训练过程及微调（Fine-tuning）原理，是优化复杂 Prompt、调试模型异常表现以及进行私有化部署的前提。

3.1 深度解析 Transformer：HuggingLLM（蝴蝶书）

项目核心标识：hugging-llm
GitHub 地址：GitHub - datawhalechina/hugging-llm: HuggingLLM, Hugging Future. 5

此项目被称为 “蝴蝶书”，意在阐述微小的代码变动可能引发的模型行为的巨大蝴蝶效应。它连接了深度学习理论与 Hugging Face 开源生态。

3.1.1 自然语言处理（NLP）范式的演进

学习者将通过该项目，梳理 NLP 从 RNN/LSTM 到 Transformer 的范式转移。

Attention Is All You Need：项目对 Transformer 论文进行了逐行代码级的复现与解析。学习者需深刻理解 Self-Attention（自注意力机制）如何解决长距离依赖问题，以及 Positional Encoding（位置编码）如何赋予模型序列感。
BERT vs GPT：对比 Encoder-only（BERT）、Encoder-Decoder（T5）与 Decoder-only（GPT）架构的优劣。理解为何生成式任务最终收敛于 Decoder-only 架构，这对于理解当前主流大模型（如 Llama, Qwen）的结构至关重要。

3.1.2 Hugging Face 生态与开源模型实战

Hugging Face 已成为 AI 领域的 GitHub。本项目手把手教导如何利用 transformers 库加载开源模型。

Tokenizer 的奥秘：学习者将发现，Tokenizer 不仅仅是分词，更涉及到词表（Vocabulary）构建、特殊 Token（如 <|endoftext|>）的处理。不同模型的 Tokenizer 实现差异（如 SentencePiece vs Byte-Pair Encoding）直接影响 Prompt 的 Token 计算与上下文窗口利用率。
Pipeline 与 Model Head：掌握如何根据任务（文本分类、生成、命名实体识别）选择不同的 Model Head，这对于需要结合传统 NLP 任务与 LLM 能力的复合型 Agent 系统非常有用。

3.2 训练与对齐机制：Happy-LLM

项目核心标识：happy-llm
GitHub 地址：GitHub - datawhalechina/happy-llm: 📚 从零开始的大语言模型原理与实践教程 7

该项目从更加底层的视角，剖析了大模型全生命周期的训练过程。

3.2.1 从预训练到指令微调

Pre-training（预训练）：理解模型如何通过海量文本的自监督学习获得世界知识。
Instruction Tuning（指令微调 / SFT）：这是让模型听懂人话的关键。项目展示了如何构建 <Instruction, Input, Output> 格式的数据集，将预训练模型转化为 Chat 模型。这对于开发者想要在特定垂直领域（如医疗、法律）微调模型以获得更好表现极具指导意义。

3.2.2 RLHF 与人类价值观对齐

Reinforcement Learning from Human Feedback（RLHF）是大模型安全性的核心。虽然大多数应用开发者不需要亲自进行 RLHF，但理解其原理（奖励模型 Reward Model、PPO 算法）有助于理解模型为何会拒绝某些请求，以及如何通过 Prompt 设计规避过度的防御机制。

第四章智能体元年：Agent 架构与开发实战

2024 年与 2025 年被普遍认为是 “Agent 元年”。大模型的能力焦点从单纯的文本生成（Chatbot）转移到了具备自主感知、规划、工具使用能力的智能体（Agent）。Datawhale 的 hello-agents 项目是目前开源社区中最系统、最前沿的 Agent 学习资料，是本报告的核心推荐内容。

4.1 智能体通识与核心范式：Hello-Agents（Part I & II）

项目核心标识：hello-agents
GitHub 地址：GitHub - datawhalechina/hello-agents: 📚 《从零开始构建智能体》—— 从零开始的智能体原理与实践教程 8

该项目立意高远，旨在培养 “AI Native” 的 Agent 开发者。它不仅介绍了如何使用工具，更从第一性原理出发，探讨 Agent 的本质。

4.1.1 智能体的定义与演进

学习者首先需要建立对 Agent 的科学认知。

从 Copilot 到 Agent：明确区分辅助驾驶（Copilot，人主导，AI 辅助）与智能体（Agent，AI 主导，人监督）的边界。
演进史：项目梳理了从符号主义 Agent（Symbolic Agent）到强化学习 Agent（RL Agent），再到如今基于 LLM 的 Agent 的演变路径。理解这一历史，有助于明白当前 LLM Agent 虽然在通用性上通过了图灵测试，但在长期规划和确定性执行上仍存在挑战。

4.1.2 经典 Agent 范式的代码级复现

在这一部分，hello-agents 展现了极高的教学价值：它拒绝直接使用封装好的框架，而是引导学习者用原生 Python 复现经典论文。

ReAct (Reasoning + Acting)：这是当前 Agent 最主流的范式。学习者将亲手编写一个 While 循环，模拟 “Thought（思考） → Action（行动） → Observation（观察）” 的过程。通过解析模型输出的字符串，提取工具调用指令，执行工具函数，并将结果拼接到 Prompt 中进入下一轮循环。这种 “手搓 ReAct” 的经历，能让开发者对 Agent 的 Token 消耗、延迟来源及错误恢复机制有刻骨铭心的理解。
Plan-and-Solve：针对 ReAct 在复杂长链条任务中容易跑偏的问题，学习者将实现 “先规划，后执行” 的范式。即让模型先生成完整的 Step-by-Step 计划，再逐一执行。
Reflection（反思）：学习如何构建一个 “双我” 系统，即一个 Agent 负责生成，另一个 Agent 负责批评（Critique）和建议，从而实现自我进化。这在代码生成（Self-Debugging）任务中尤为重要。

4.2 打造自主可控的框架：HelloAgents Framework

项目章节：hello-agents 第七章 8

在掌握了原理后，Datawhale 鼓励学习者造一个属于自己的轮子。这一章指导学习者构建名为 HelloAgents 的轻量级框架。

4.2.1 框架设计哲学与架构

组件解耦：学习者将设计 Agent 基类、ToolRegistry（工具注册表）、Memory（记忆模块）等核心组件。
统一接口：为了兼容 OpenAI、Anthropic 及本地模型，需要设计统一的 LLM 适配层。
消息路由：设计高效的消息传递机制，确保 System Message、User Message 和 Tool Output 能在多轮对话中正确拼接，不丢失上下文。

4.2.2 高级工具系统的实现

工具链管理：实现工具的自动发现与注册。学习者将学习如何利用 Python 的装饰器（Decorator）将普通函数转化为带有 JSON Schema 描述的 Agent 工具。
多源搜索聚合：实战开发一个聚合了 Tavily（AI 专用搜索）、SerpApi（Google 搜索）的超级搜索工具，并实现故障转移（Failover）机制。

第五章进阶工程：多智能体协作与复杂社会模拟

当单一 Agent 受限于上下文窗口或能力瓶颈无法解决复杂问题时，多智能体系统（Multi-Agent Systems, MAS）应运而生。Datawhale 通过 handy-multi-agent 和 hello-agents 的高级章节，深入探索了这一前沿领域。

5.1 多智能体协作框架：Handy Multi-Agent

项目核心标识：handy-multi-agent
GitHub 地址：GitHub - datawhalechina/handy-multi-agent: This is a multi agent tutorial based on the CAMEL framework, aimed at understanding how to build an Agent Society from the ground up! 10

该项目基于 CAMEL（Communicative Agents for “Mind” Exploration of Large Scale Language Model Society）框架，重点展示了 Agent 社会的构建。

5.1.1 角色扮演（Role-Playing）与 Inception Prompting

CAMEL 框架的核心创新在于 “角色扮演”。

Inception Prompting：学习者将深入研究这种特殊的 Prompt 技术，它在对话开始前对两个 Agent（如 “Python 程序员” 和 “股票交易员”）进行深度催眠，设定其职责、禁忌和交互协议，从而实现全自动的对话推进，无需人类作为中间人。
任务特化（Task Specialization）：通过案例（如 “开发一个交易机器人”），观察两个 Agent 如何通过不断的指令下达与代码交付，逐步逼近任务目标。

5.1.2 异构 Agent 社会的构建

Agent Society：项目展示了如何不仅限于两个 Agent，而是构建一个包含多种角色的 “社会”。学习者将理解在这种网络拓扑中，信息如何流动，以及如何避免死循环对话。

5.2 主流框架横向评测与实战：Hello-Agents（Part II Advanced）

除了自研框架和 CAMEL，hello-agents 还深入剖析了工业界主流框架。

5.2.1 AutoGen 的对话式编程

微软推出的 AutoGen 是目前最火的框架之一。

UserProxyAgent：学习者需掌握这一特殊 Agent 的使用，它充当人类代理，可以在代码执行前请求人类批准，通过 Docker 沙箱安全执行代码。
GroupChat 与 Manager：理解 AutoGen 如何通过一个 “群聊管理员” 来动态选择下一个发言的 Agent，这对于构建非线性协作流程（如头脑风暴）至关重要。

5.2.2 LangGraph 的图论编排

LangGraph 代表了 Agent 编排的另一方向 —— 基于图（Graph）。

Cyclic Flows（有环流）：不同于传统的 DAG（有向无环图），LangGraph 原生支持循环。这对于实现 ReAct 循环或长周期的 Human-in-the-loop 流程非常自然。学习者将学习定义 Nodes（节点）和 Edges（边），构建状态机。

5.3 跨平台轻量级方案：Wow-Agent

项目核心标识：wow-agent
GitHub 地址：GitHub - datawhalechina/wow-agent: A simple and trans-platform agent framework and tutorial 12

作为一个更轻量级的选择，wow-agent 提供了一个跨平台的视角。其中的 Zigent 模块展示了极简主义的 Agent 设计。学习者可以对比其与庞大的 LangChain/AutoGen 的差异，理解在资源受限或需要快速原型开发时如何取舍。

第六章综合应用：RAG 进阶与 Agent 生态互联

在掌握了单个和多个 Agent 的构建后，最后阶段将聚焦于数据的深度利用与生态互联，这是构建具备商业价值应用的关键。

6.1 下一代检索增强：Wow-RAG

项目核心标识：wow-rag
GitHub 地址：GitHub - datawhalechina/wow-rag: A simple and trans-platform rag framework and tutorial 13

基础的 RAG（如 llm-universe 中所述）往往面临检索精度不足、多跳推理困难的问题。wow-rag 聚焦于 Advanced RAG 技术。

6.1.1 混合检索与重排序（Rerank）

Hybrid Search：学习者将实践结合关键词检索（BM25，擅长精确匹配）与向量检索（Embedding，擅长语义匹配）的策略，以提高召回率（Recall）。
Rerank 模型：在检索回 Top-50 文档后，使用专门的 Cross-Encoder 模型（如 BGE-Reranker）进行精细排序，筛选出 Top-5 给 LLM。这是提升 RAG 系统准确率（Precision）性价比最高的手段。

6.1.2 GraphRAG 与知识图谱

项目触及了最前沿的 GraphRAG 技术。利用知识图谱（Knowledge Graph）捕捉实体间的关系，解决 “跨文档推理” 难题。学习者将了解如何将非结构化文本转化为图谱，并利用图算法增强检索上下文。

6.2 基础设施支持：Easy-VectorDB

项目核心标识：easy-vectordb
GitHub 地址：GitHub - datawhalechina/easy-vectordb: 📚 从零开始的向量数据库原理与实践教程，在线阅读地址：https://datawhalechina.github.io/easy-vectordb/ 15

为了支持上述 RAG 系统，对向量数据库的深入理解不可或缺。该项目专注于向量数据库的原理与实践，填补了数据库层面的认知空白，是构建大规模知识库 Agent 的基石。

6.3 毕业设计与未来展望：Hello-Agents（Part IV & V）

项目章节：hello-agents 第 13-16 章 8

学习的终点是创造。本部分提供了多个企业级复杂度的案例，涵盖了当前最热门的应用方向。

6.3.1 智能旅行助手：MCP 协议实战

案例详解：构建一个包含景点搜索、天气查询、酒店推荐、行程规划四个 Agent 的协作系统。
Model Context Protocol (MCP)：这是 Anthropic 等巨头推动的下一代标准。学习者将实战如何使用 MCP 协议，标准化 Agent 与外部数据源（如高德地图 API、Unsplash 图片库）的连接。掌握 MCP 意味着开发的 Agent 天然具备跨平台互操作性。

6.3.2 自动化深度研究 Agent (Deep Research)

案例详解：复现类似 OpenAI Deep Research 的功能。
递归任务分解：学习如何让 Agent 自主进行长周期的互联网探索。它需要自己提出搜索关键词，阅读网页，判断信息是否足够，如果不足则生成新的关键词继续搜索（递归），最后阅读数十个网页并生成万字长文报告。这考验了 Agent 的显存管理、长上下文处理及逻辑一致性。

6.3.3 赛博小镇 (Cyber Town) 社会模拟

案例详解：基于斯坦福 “Generative Agents” 论文，构建一个包含多个 NPC 的虚拟小镇。
记忆流（Memory Stream）：这是本案例的核心。学习者将实现包含 “感知、记忆检索、反思、规划” 的完整认知架构。观察 NPC 之间如何涌现出八卦传播、选举拉票等社会行为。

6.3.4 毕业设计：从 Idea 到开源

最后，学习者需完成一个完整的开源项目。hello-agents 提供了详细的指南，包括选题（如代码审查 Agent、数据分析师）、项目结构规范（src, tests, docs）、以及如何撰写 requirements.txt 和 README.md。这不仅是技术的总结，更是开源礼仪与工程规范的实战。

第七章总结与学习路径规划表

7.1 学习路径总览表

阶段	核心项目	学习重点	预计耗时	产出物
P1: 基础	`llm-cookbook`	Prompt Engineering, API, LangChain Basic	20h	翻译助手，摘要工具
P2: 应用	`llm-universe`	RAG, VectorDB, Streamlit UI	30h	个人知识库助手 (Web 版)
P3: 原理	`hugging-llm`	Transformer, Tokenizer, Open Source Models	25h	本地模型推理 Demo
P4: 智能体	`hello-agents` (Part 1-2)	ReAct, Plan-and-Solve, HelloAgents 框架	40h	手写 Agent 框架，命令行工具
P5: 协作	`handy-multi-agent`	CAMEL, Role-Playing, Agent Society	30h	多智能体辩论系统
P6: 进阶	`hello-agents` (Part 3-5) + `wow-rag`	MCP, GraphRAG, Deep Research, Simulation	50h+	毕业设计开源项目

7.2 给学习者的最后建议

Datawhale 的开源项目群构建了一座宏大的 “AI 工程学院”。从掌握 Prompt 这一原子能力，到构建复杂的 Agent 社会，这条路径既漫长又充满挑战。

代码至上：切勿止步于阅读文档。务必 Clone 每一个仓库，运行每一个 Jupyter Notebook。Agent 的许多微妙之处（如 Prompt 的微小差异导致的执行失败）只有在 Debug 中才能体会。
关注数据流：在学习多智能体系统时，时刻关注 “消息（Message）” 是如何在 Agent 之间流转的。消息即 Agent 的血液。
拥抱开源：Datawhale 的核心是 “和学习者一起成长”。在学习过程中，如果发现代码过时或有 Bug，请积极提交 Issue 或 PR。这不仅是对社区的回馈，也是证明你已从 “Learner” 成长为 “Builder” 的最佳勋章。

愿这份基于 Datawhale 生态的详尽报告，能成为你在大模型与智能体开发之路上最坚实的导航图。

附录：引用项目清单

📌 转载信息

来源：
https://linux.do/t/topic/1428362

转载时间：
2026/1/12 10:01:12

标签 提示工程 下的文章

2026AI元年：为什么“人工智能 × 人类协作”成为新的工作基本单元？

一、从工具到伙伴：AI 角色的根本变化

1. 什么是“智能体（AI Agent）”？

2. 工作范式的两次关键迁移

二、为什么“人机协作”是唯一稳定解？

1. 计算规模 × 直觉判断

2. 边际成本 × 创新溢价

3. 随机性 × 确定性的工程化解决

三、可落地的人机协作工作流（3 个阶段）

阶段一：任务原子化与角色绑定

阶段二：Human-in-the-Loop 反馈闭环

阶段三：提示工程与知识封装

四、AI 时代劳动者的三项核心能力

五、总结：工作的本质正在改变

用提示工程让大模型自己检查自己：CoVe方法有效减少幻觉

工作流程：起草、规划、验证、修复

Factored：真正的关键

代码实现

CoVe和RAG该怎么选？

从Vibe Coding到系统2代理

工具增强版CoVe

2026年的新拓扑：分支验证

验证的消耗

总结

用提示工程让大模型自己检查自己：CoVe方法有效减少幻觉

工作流程：起草、规划、验证、修复

Factored：真正的关键

代码实现

CoVe和RAG该怎么选？

从Vibe Coding到系统2代理

工具增强版CoVe

2026年的新拓扑：分支验证

验证的消耗

总结

Datawhale 开源生态驱动的大模型与 Agent 应用开发工程师全景深度研究报告

Datawhale 开源生态驱动的大模型与 Agent 应用开发工程师全景深度研究报告

第一章 绪论：开源精神下的 AI 工程化教育新范式

1.1 Datawhale 的教育哲学与技术愿景

1.2 大模型与 Agent 开发者的能力模型重构

第二章 认知基石：提示工程与大模型应用开发初探

2.1 交互逻辑重塑：面向开发者的 LLM 入门教程

2.1.1 提示工程的核心原则与迭代范式

2.1.2 系统级应用的构建逻辑

2.1.3 LangChain 框架的原理解析

2.2 全栈工程落地：动手学大模型应用开发

2.2.1 多源异构 API 的统一封装

2.2.2 检索增强生成（RAG）的端到端实现

2.2.3 前端交互与 Web 部署

第三章 理论深潜：Transformer 架构与模型微调原理

3.1 深度解析 Transformer：HuggingLLM（蝴蝶书）

3.1.1 自然语言处理（NLP）范式的演进

3.1.2 Hugging Face 生态与开源模型实战

3.2 训练与对齐机制：Happy-LLM

3.2.1 从预训练到指令微调

3.2.2 RLHF 与人类价值观对齐

第四章 智能体元年：Agent 架构与开发实战

4.1 智能体通识与核心范式：Hello-Agents（Part I & II）

4.1.1 智能体的定义与演进

4.1.2 经典 Agent 范式的代码级复现

4.2 打造自主可控的框架：HelloAgents Framework

4.2.1 框架设计哲学与架构

4.2.2 高级工具系统的实现

第五章 进阶工程：多智能体协作与复杂社会模拟

5.1 多智能体协作框架：Handy Multi-Agent

5.1.1 角色扮演（Role-Playing）与 Inception Prompting

5.1.2 异构 Agent 社会的构建

5.2 主流框架横向评测与实战：Hello-Agents（Part II Advanced）

5.2.1 AutoGen 的对话式编程

5.2.2 LangGraph 的图论编排

5.3 跨平台轻量级方案：Wow-Agent

第六章 综合应用：RAG 进阶与 Agent 生态互联

6.1 下一代检索增强：Wow-RAG

6.1.1 混合检索与重排序（Rerank）

6.1.2 GraphRAG 与知识图谱

6.2 基础设施支持：Easy-VectorDB

6.3 毕业设计与未来展望：Hello-Agents（Part IV & V）

6.3.1 智能旅行助手：MCP 协议实战

6.3.2 自动化深度研究 Agent (Deep Research)

6.3.3 赛博小镇 (Cyber Town) 社会模拟

标签提示工程下的文章

第一章绪论：开源精神下的 AI 工程化教育新范式

第二章认知基石：提示工程与大模型应用开发初探

第三章理论深潜：Transformer 架构与模型微调原理

第四章智能体元年：Agent 架构与开发实战

第五章进阶工程：多智能体协作与复杂社会模拟

第六章综合应用：RAG 进阶与 Agent 生态互联

第七章总结与学习路径规划表