Datawhale 开源生态驱动的大模型与 Agent 应用开发工程师全景深度研究报告

第一章绪论：开源精神下的 AI 工程化教育新范式

1.1 Datawhale 的教育哲学与技术愿景

在人工智能技术以指数级速度迭代的当下，技术知识的半衰期显著缩短，传统的教育体系往往难以跟上工业界的步伐。Datawhale 作为成立于 2018 年的专注于 AI 领域的开源组织，其 “For the Learner” 的核心价值观不仅是一种口号，更是一种应对技术变革的系统性方法论。该组织通过汇聚具备开源与探索精神的理想主义者，构建了一个去中心化、高响应速度的知识生产与传播网络。

对于渴望成为大模型（Large Language Model, LLM）应用开发工程师或智能体（Agent）开发者的学习者而言，Datawhale 提供了一个独特的生态位：它既不完全等同于学术界的纯理论研究，也不同于商业公司的封闭技术栈。Datawhale 的项目矩阵通常呈现出 “元认知” 的特性 —— 不仅教授如何使用工具，更深入工具背后的原理与设计哲学。通过对 Datawhale 开源仓库的全面梳理，我们可以清晰地通过其项目演进看到 AI 工程化范式的转移：从早期的模型训练（Training-centric），过渡到以提示工程（Prompt Engineering）为核心的应用开发，最终演进至 2024-2025 年爆发的智能体（Agentic）系统构建。

1.2 大模型与 Agent 开发者的能力模型重构

本报告旨在为学习者规划一条详尽的进阶路径，该路径严格基于 Datawhale 的开源项目构建，旨在培养具备 “全栈 AI 思维” 的工程师。一个合格的大模型 / Agent 应用开发工程师，其能力图谱已发生根本性重构：

交互层（Interaction Layer）：不再仅限于 GUI 设计，而是转向提示工程（Prompt Engineering）与自然语言交互设计。
编排层（Orchestration Layer）：掌握 LangChain、LlamaIndex 等工具，以及更进阶的 Agent 框架（如 AutoGen、LangGraph、CAMEL）。
认知层（Cognitive Layer）：理解模型推理、规划（Planning）、记忆（Memory）与反思（Reflection）机制。
数据层（Data Layer）：精通 RAG（检索增强生成）架构，管理向量数据库与非结构化知识。
协作层（Collaboration Layer）：构建多智能体系统（Multi-Agent Systems），实现 Agent 间的社会化分工。

本报告将摒弃版本过旧或简单的搬运类项目，聚焦于 Datawhale 生态中具备系统性、原创性及前沿性的核心仓库，规划出一条长达数千小时的深度学习路线。

第二章认知基石：提示工程与大模型应用开发初探

任何复杂的 Agent 系统，其原子单元皆为单次的大模型调用。因此，理解如何与模型高效沟通，即 “提示工程”，是所有后续开发的基石。Datawhale 在此领域提供了两套互补的 “教材”，分别侧重于交互逻辑与工程落地。

2.1 交互逻辑重塑：面向开发者的 LLM 入门教程

项目核心标识：llm-cookbook
GitHub 地址：GitHub - datawhalechina/llm-cookbook: 面向开发者的 LLM 入门教程，吴恩达大模型系列课程中文版 1

该项目是吴恩达（Andrew Ng）与 OpenAI 合作推出的系列课程的中文版。Datawhale 团队不仅进行了翻译，更针对中英文模型在理解 Prompt 时的细微差异进行了大量的 “本地化” 调优。这使得该项目成为了解 LLM 思维方式的最佳起点。

2.1.1 提示工程的核心原则与迭代范式

在这一模块中，学习者将深入探究控制大模型输出质量的底层逻辑。这并非简单的 “说话技巧”，而是一种编程思维。

原则一：清晰具体的指令（Clear and Specific Instructions）。这不仅仅意味着 “把话说清楚”，更涉及到结构化思维。学习者需掌握使用分隔符（Delimiters）来隔离指令与数据，防止提示注入攻击；利用结构化输出（如 JSON、HTML）来强迫模型生成可被代码解析的响应。项目中展示的通过系统消息（System Message）设定角色（Persona）的技巧，是后续构建 Agent “人设” 的雏形。
原则二：给予思考的时间（Give the Model Time to Think）。这是链式思维（Chain of Thought, CoT）的早期形态。学习者将通过实战案例理解，为何在要求模型输出最终答案前，强制其列出计算步骤或推理过程，能显著降低 “幻觉”（Hallucination）率。这揭示了 LLM 作为自回归模型，其生成的每一个 Token 都在为下一个 Token 提供上下文的本质。
迭代开发（Iterative Development）。Prompt 开发绝非一蹴而就。本项目强调 “Idea → Prompt → Error Analysis → Refined Prompt” 的闭环。学习者将学会如何建立测试用例，量化评估 Prompt 的表现，这种工程化思维是将 Prompt 从 “玄学” 变为 “科学” 的关键。

2.1.2 系统级应用的构建逻辑

从单一 Prompt 进阶到系统构建，项目涵盖了 Building Systems with the ChatGPT API 的核心内容。

输入监控与分类：在真实应用中，用户输入是不可控的。学习者将学习使用 Moderation API 进行内容审查，并构建分类 Prompt 来识别用户意图（Intent Recognition），这是 Agent 中 “路由（Routing）” 模块的前身。
多轮对话管理：LLM 本身是无状态的（Stateless）。项目详细解析了如何通过手动维护 messages 列表来构建对话历史（History），以及如何处理上下文窗口限制，为后续理解 Agent 的 Memory 模块打下基础。

2.1.3 LangChain 框架的原理解析

虽然 Datawhale 有更复杂的 Agent 教程，但 llm-cookbook 中关于 LangChain 的章节提供了最纯粹的原理解读。

Chains（链）：学习者将理解如何将多个 LLM 调用串联（Sequential Chain），实现 “先总结评论，再撰写回复” 的流水线逻辑。
Document Loading 与 Splitting：初步接触非结构化数据处理，理解为何需要将长文档切片，以及重叠（Overlap）参数对上下文连贯性的影响。

2.2 全栈工程落地：动手学大模型应用开发

项目核心标识：llm-universe
GitHub 地址：GitHub - datawhalechina/llm-universe: 本项目是一个面向小白开发者的大模型应用开发教程，在线阅读地址：https://datawhalechina.github.io/llm-universe/ 3

如果说 llm-cookbook 是注重理论的 “计算机科学导论”，那么 llm-universe 就是注重实操的 “软件工程实验课”。该项目致力于帮助小白开发者从零开始构建一个完整的、可部署的个人知识库助手。

2.2.1 多源异构 API 的统一封装

在实际的国内开发环境中，开发者往往面临 OpenAI 访问受限或成本过高的问题。llm-universe 的一个核心贡献是提供了一套统一的接口设计模式，涵盖了百度文心（Ernie）、讯飞星火（Spark）、智谱 AI（ZhipuAI）等主流国产大模型。

适配器模式应用：学习者通过阅读源码，将深入理解如何继承 LangChain 的 LLM 基类，将不同厂商的 SDK（如 zhipuai、dashscope）封装为统一的_call 接口。这种能力对于企业级应用中实现 “模型热切换” 至关重要，也是构建模型无关（Model-Agnostic）Agent 框架的前提。

2.2.2 检索增强生成（RAG）的端到端实现

RAG 是目前解决大模型知识截止和私有数据访问最成熟的技术方案。本项目通过由浅入深的实战，剖析了 RAG 的每一个环节。

数据清洗与向量化：项目详细介绍了如何处理 PDF、Markdown 等格式的文档。学习者将亲手实践使用 Embedding 模型（如 OpenAI Embedding 或 HuggingFace 开源模型）将文本转化为高维向量。
向量数据库实战：不仅涵盖了轻量级的 Chroma，也涉及了生产级的 Milvus。学习者将掌握向量存储（Vector Store）的构建、持久化以及基于余弦相似度（Cosine Similarity）的检索逻辑。
Prompt 模板注入：如何将检索到的 Top-K 片段优雅地嵌入到 Prompt 中，并提示模型 “仅根据已知信息回答”，是减少幻觉的关键。项目中的 Prompt 模板设计经过了大量验证，极具参考价值。

2.2.3 前端交互与 Web 部署

为了完成工程闭环，项目引入了 Streamlit 框架。学习者不再停留于 Jupyter Notebook 的黑底白字，而是能够快速构建具备侧边栏配置、聊天气泡界面的 Web 应用。这对于展示 Agent Demo、进行用户测试（User Testing）具有重要意义。

第三章理论深潜：Transformer 架构与模型微调原理

在掌握了 API 调用与基础应用开发后，真正的专家级工程师必须具备 “打开黑盒” 的能力。理解 Transformer 架构、训练过程及微调（Fine-tuning）原理，是优化复杂 Prompt、调试模型异常表现以及进行私有化部署的前提。

3.1 深度解析 Transformer：HuggingLLM（蝴蝶书）

项目核心标识：hugging-llm
GitHub 地址：GitHub - datawhalechina/hugging-llm: HuggingLLM, Hugging Future. 5

此项目被称为 “蝴蝶书”，意在阐述微小的代码变动可能引发的模型行为的巨大蝴蝶效应。它连接了深度学习理论与 Hugging Face 开源生态。

3.1.1 自然语言处理（NLP）范式的演进

学习者将通过该项目，梳理 NLP 从 RNN/LSTM 到 Transformer 的范式转移。

Attention Is All You Need：项目对 Transformer 论文进行了逐行代码级的复现与解析。学习者需深刻理解 Self-Attention（自注意力机制）如何解决长距离依赖问题，以及 Positional Encoding（位置编码）如何赋予模型序列感。
BERT vs GPT：对比 Encoder-only（BERT）、Encoder-Decoder（T5）与 Decoder-only（GPT）架构的优劣。理解为何生成式任务最终收敛于 Decoder-only 架构，这对于理解当前主流大模型（如 Llama, Qwen）的结构至关重要。

3.1.2 Hugging Face 生态与开源模型实战

Hugging Face 已成为 AI 领域的 GitHub。本项目手把手教导如何利用 transformers 库加载开源模型。

Tokenizer 的奥秘：学习者将发现，Tokenizer 不仅仅是分词，更涉及到词表（Vocabulary）构建、特殊 Token（如 <|endoftext|>）的处理。不同模型的 Tokenizer 实现差异（如 SentencePiece vs Byte-Pair Encoding）直接影响 Prompt 的 Token 计算与上下文窗口利用率。
Pipeline 与 Model Head：掌握如何根据任务（文本分类、生成、命名实体识别）选择不同的 Model Head，这对于需要结合传统 NLP 任务与 LLM 能力的复合型 Agent 系统非常有用。

3.2 训练与对齐机制：Happy-LLM

项目核心标识：happy-llm
GitHub 地址：GitHub - datawhalechina/happy-llm: 📚 从零开始的大语言模型原理与实践教程 7

该项目从更加底层的视角，剖析了大模型全生命周期的训练过程。

3.2.1 从预训练到指令微调

Pre-training（预训练）：理解模型如何通过海量文本的自监督学习获得世界知识。
Instruction Tuning（指令微调 / SFT）：这是让模型听懂人话的关键。项目展示了如何构建 <Instruction, Input, Output> 格式的数据集，将预训练模型转化为 Chat 模型。这对于开发者想要在特定垂直领域（如医疗、法律）微调模型以获得更好表现极具指导意义。

3.2.2 RLHF 与人类价值观对齐

Reinforcement Learning from Human Feedback（RLHF）是大模型安全性的核心。虽然大多数应用开发者不需要亲自进行 RLHF，但理解其原理（奖励模型 Reward Model、PPO 算法）有助于理解模型为何会拒绝某些请求，以及如何通过 Prompt 设计规避过度的防御机制。

第四章智能体元年：Agent 架构与开发实战

2024 年与 2025 年被普遍认为是 “Agent 元年”。大模型的能力焦点从单纯的文本生成（Chatbot）转移到了具备自主感知、规划、工具使用能力的智能体（Agent）。Datawhale 的 hello-agents 项目是目前开源社区中最系统、最前沿的 Agent 学习资料，是本报告的核心推荐内容。

4.1 智能体通识与核心范式：Hello-Agents（Part I & II）

项目核心标识：hello-agents
GitHub 地址：GitHub - datawhalechina/hello-agents: 📚 《从零开始构建智能体》—— 从零开始的智能体原理与实践教程 8

该项目立意高远，旨在培养 “AI Native” 的 Agent 开发者。它不仅介绍了如何使用工具，更从第一性原理出发，探讨 Agent 的本质。

4.1.1 智能体的定义与演进

学习者首先需要建立对 Agent 的科学认知。

从 Copilot 到 Agent：明确区分辅助驾驶（Copilot，人主导，AI 辅助）与智能体（Agent，AI 主导，人监督）的边界。
演进史：项目梳理了从符号主义 Agent（Symbolic Agent）到强化学习 Agent（RL Agent），再到如今基于 LLM 的 Agent 的演变路径。理解这一历史，有助于明白当前 LLM Agent 虽然在通用性上通过了图灵测试，但在长期规划和确定性执行上仍存在挑战。

4.1.2 经典 Agent 范式的代码级复现

在这一部分，hello-agents 展现了极高的教学价值：它拒绝直接使用封装好的框架，而是引导学习者用原生 Python 复现经典论文。

ReAct (Reasoning + Acting)：这是当前 Agent 最主流的范式。学习者将亲手编写一个 While 循环，模拟 “Thought（思考） → Action（行动） → Observation（观察）” 的过程。通过解析模型输出的字符串，提取工具调用指令，执行工具函数，并将结果拼接到 Prompt 中进入下一轮循环。这种 “手搓 ReAct” 的经历，能让开发者对 Agent 的 Token 消耗、延迟来源及错误恢复机制有刻骨铭心的理解。
Plan-and-Solve：针对 ReAct 在复杂长链条任务中容易跑偏的问题，学习者将实现 “先规划，后执行” 的范式。即让模型先生成完整的 Step-by-Step 计划，再逐一执行。
Reflection（反思）：学习如何构建一个 “双我” 系统，即一个 Agent 负责生成，另一个 Agent 负责批评（Critique）和建议，从而实现自我进化。这在代码生成（Self-Debugging）任务中尤为重要。

4.2 打造自主可控的框架：HelloAgents Framework

项目章节：hello-agents 第七章 8

在掌握了原理后，Datawhale 鼓励学习者造一个属于自己的轮子。这一章指导学习者构建名为 HelloAgents 的轻量级框架。

4.2.1 框架设计哲学与架构

组件解耦：学习者将设计 Agent 基类、ToolRegistry（工具注册表）、Memory（记忆模块）等核心组件。
统一接口：为了兼容 OpenAI、Anthropic 及本地模型，需要设计统一的 LLM 适配层。
消息路由：设计高效的消息传递机制，确保 System Message、User Message 和 Tool Output 能在多轮对话中正确拼接，不丢失上下文。

4.2.2 高级工具系统的实现

工具链管理：实现工具的自动发现与注册。学习者将学习如何利用 Python 的装饰器（Decorator）将普通函数转化为带有 JSON Schema 描述的 Agent 工具。
多源搜索聚合：实战开发一个聚合了 Tavily（AI 专用搜索）、SerpApi（Google 搜索）的超级搜索工具，并实现故障转移（Failover）机制。

第五章进阶工程：多智能体协作与复杂社会模拟

当单一 Agent 受限于上下文窗口或能力瓶颈无法解决复杂问题时，多智能体系统（Multi-Agent Systems, MAS）应运而生。Datawhale 通过 handy-multi-agent 和 hello-agents 的高级章节，深入探索了这一前沿领域。

5.1 多智能体协作框架：Handy Multi-Agent

项目核心标识：handy-multi-agent
GitHub 地址：GitHub - datawhalechina/handy-multi-agent: This is a multi agent tutorial based on the CAMEL framework, aimed at understanding how to build an Agent Society from the ground up! 10

该项目基于 CAMEL（Communicative Agents for “Mind” Exploration of Large Scale Language Model Society）框架，重点展示了 Agent 社会的构建。

5.1.1 角色扮演（Role-Playing）与 Inception Prompting

CAMEL 框架的核心创新在于 “角色扮演”。

Inception Prompting：学习者将深入研究这种特殊的 Prompt 技术，它在对话开始前对两个 Agent（如 “Python 程序员” 和 “股票交易员”）进行深度催眠，设定其职责、禁忌和交互协议，从而实现全自动的对话推进，无需人类作为中间人。
任务特化（Task Specialization）：通过案例（如 “开发一个交易机器人”），观察两个 Agent 如何通过不断的指令下达与代码交付，逐步逼近任务目标。

5.1.2 异构 Agent 社会的构建

Agent Society：项目展示了如何不仅限于两个 Agent，而是构建一个包含多种角色的 “社会”。学习者将理解在这种网络拓扑中，信息如何流动，以及如何避免死循环对话。

5.2 主流框架横向评测与实战：Hello-Agents（Part II Advanced）

除了自研框架和 CAMEL，hello-agents 还深入剖析了工业界主流框架。

5.2.1 AutoGen 的对话式编程

微软推出的 AutoGen 是目前最火的框架之一。

UserProxyAgent：学习者需掌握这一特殊 Agent 的使用，它充当人类代理，可以在代码执行前请求人类批准，通过 Docker 沙箱安全执行代码。
GroupChat 与 Manager：理解 AutoGen 如何通过一个 “群聊管理员” 来动态选择下一个发言的 Agent，这对于构建非线性协作流程（如头脑风暴）至关重要。

5.2.2 LangGraph 的图论编排

LangGraph 代表了 Agent 编排的另一方向 —— 基于图（Graph）。

Cyclic Flows（有环流）：不同于传统的 DAG（有向无环图），LangGraph 原生支持循环。这对于实现 ReAct 循环或长周期的 Human-in-the-loop 流程非常自然。学习者将学习定义 Nodes（节点）和 Edges（边），构建状态机。

5.3 跨平台轻量级方案：Wow-Agent

项目核心标识：wow-agent
GitHub 地址：GitHub - datawhalechina/wow-agent: A simple and trans-platform agent framework and tutorial 12

作为一个更轻量级的选择，wow-agent 提供了一个跨平台的视角。其中的 Zigent 模块展示了极简主义的 Agent 设计。学习者可以对比其与庞大的 LangChain/AutoGen 的差异，理解在资源受限或需要快速原型开发时如何取舍。

第六章综合应用：RAG 进阶与 Agent 生态互联

在掌握了单个和多个 Agent 的构建后，最后阶段将聚焦于数据的深度利用与生态互联，这是构建具备商业价值应用的关键。

6.1 下一代检索增强：Wow-RAG

项目核心标识：wow-rag
GitHub 地址：GitHub - datawhalechina/wow-rag: A simple and trans-platform rag framework and tutorial 13

基础的 RAG（如 llm-universe 中所述）往往面临检索精度不足、多跳推理困难的问题。wow-rag 聚焦于 Advanced RAG 技术。

6.1.1 混合检索与重排序（Rerank）

Hybrid Search：学习者将实践结合关键词检索（BM25，擅长精确匹配）与向量检索（Embedding，擅长语义匹配）的策略，以提高召回率（Recall）。
Rerank 模型：在检索回 Top-50 文档后，使用专门的 Cross-Encoder 模型（如 BGE-Reranker）进行精细排序，筛选出 Top-5 给 LLM。这是提升 RAG 系统准确率（Precision）性价比最高的手段。

6.1.2 GraphRAG 与知识图谱

项目触及了最前沿的 GraphRAG 技术。利用知识图谱（Knowledge Graph）捕捉实体间的关系，解决 “跨文档推理” 难题。学习者将了解如何将非结构化文本转化为图谱，并利用图算法增强检索上下文。

6.2 基础设施支持：Easy-VectorDB

项目核心标识：easy-vectordb
GitHub 地址：GitHub - datawhalechina/easy-vectordb: 📚 从零开始的向量数据库原理与实践教程，在线阅读地址：https://datawhalechina.github.io/easy-vectordb/ 15

为了支持上述 RAG 系统，对向量数据库的深入理解不可或缺。该项目专注于向量数据库的原理与实践，填补了数据库层面的认知空白，是构建大规模知识库 Agent 的基石。

6.3 毕业设计与未来展望：Hello-Agents（Part IV & V）

项目章节：hello-agents 第 13-16 章 8

学习的终点是创造。本部分提供了多个企业级复杂度的案例，涵盖了当前最热门的应用方向。

6.3.1 智能旅行助手：MCP 协议实战

案例详解：构建一个包含景点搜索、天气查询、酒店推荐、行程规划四个 Agent 的协作系统。
Model Context Protocol (MCP)：这是 Anthropic 等巨头推动的下一代标准。学习者将实战如何使用 MCP 协议，标准化 Agent 与外部数据源（如高德地图 API、Unsplash 图片库）的连接。掌握 MCP 意味着开发的 Agent 天然具备跨平台互操作性。

6.3.2 自动化深度研究 Agent (Deep Research)

案例详解：复现类似 OpenAI Deep Research 的功能。
递归任务分解：学习如何让 Agent 自主进行长周期的互联网探索。它需要自己提出搜索关键词，阅读网页，判断信息是否足够，如果不足则生成新的关键词继续搜索（递归），最后阅读数十个网页并生成万字长文报告。这考验了 Agent 的显存管理、长上下文处理及逻辑一致性。

6.3.3 赛博小镇 (Cyber Town) 社会模拟

案例详解：基于斯坦福 “Generative Agents” 论文，构建一个包含多个 NPC 的虚拟小镇。
记忆流（Memory Stream）：这是本案例的核心。学习者将实现包含 “感知、记忆检索、反思、规划” 的完整认知架构。观察 NPC 之间如何涌现出八卦传播、选举拉票等社会行为。

6.3.4 毕业设计：从 Idea 到开源

最后，学习者需完成一个完整的开源项目。hello-agents 提供了详细的指南，包括选题（如代码审查 Agent、数据分析师）、项目结构规范（src, tests, docs）、以及如何撰写 requirements.txt 和 README.md。这不仅是技术的总结，更是开源礼仪与工程规范的实战。

第七章总结与学习路径规划表

7.1 学习路径总览表

阶段	核心项目	学习重点	预计耗时	产出物
P1: 基础	`llm-cookbook`	Prompt Engineering, API, LangChain Basic	20h	翻译助手，摘要工具
P2: 应用	`llm-universe`	RAG, VectorDB, Streamlit UI	30h	个人知识库助手 (Web 版)
P3: 原理	`hugging-llm`	Transformer, Tokenizer, Open Source Models	25h	本地模型推理 Demo
P4: 智能体	`hello-agents` (Part 1-2)	ReAct, Plan-and-Solve, HelloAgents 框架	40h	手写 Agent 框架，命令行工具
P5: 协作	`handy-multi-agent`	CAMEL, Role-Playing, Agent Society	30h	多智能体辩论系统
P6: 进阶	`hello-agents` (Part 3-5) + `wow-rag`	MCP, GraphRAG, Deep Research, Simulation	50h+	毕业设计开源项目

7.2 给学习者的最后建议

Datawhale 的开源项目群构建了一座宏大的 “AI 工程学院”。从掌握 Prompt 这一原子能力，到构建复杂的 Agent 社会，这条路径既漫长又充满挑战。

代码至上：切勿止步于阅读文档。务必 Clone 每一个仓库，运行每一个 Jupyter Notebook。Agent 的许多微妙之处（如 Prompt 的微小差异导致的执行失败）只有在 Debug 中才能体会。
关注数据流：在学习多智能体系统时，时刻关注 “消息（Message）” 是如何在 Agent 之间流转的。消息即 Agent 的血液。
拥抱开源：Datawhale 的核心是 “和学习者一起成长”。在学习过程中，如果发现代码过时或有 Bug，请积极提交 Issue 或 PR。这不仅是对社区的回馈，也是证明你已从 “Learner” 成长为 “Builder” 的最佳勋章。

愿这份基于 Datawhale 生态的详尽报告，能成为你在大模型与智能体开发之路上最坚实的导航图。

附录：引用项目清单

📌 转载信息

来源：
https://linux.do/t/topic/1428362

转载时间：
2026/1/12 10:01:12

Datawhale 开源生态驱动的大模型与 Agent 应用开发工程师全景深度研究报告

Datawhale 开源生态驱动的大模型与 Agent 应用开发工程师全景深度研究报告

第一章 绪论：开源精神下的 AI 工程化教育新范式

1.1 Datawhale 的教育哲学与技术愿景

1.2 大模型与 Agent 开发者的能力模型重构

第二章 认知基石：提示工程与大模型应用开发初探

2.1 交互逻辑重塑：面向开发者的 LLM 入门教程

2.1.1 提示工程的核心原则与迭代范式

2.1.2 系统级应用的构建逻辑

2.1.3 LangChain 框架的原理解析

2.2 全栈工程落地：动手学大模型应用开发

2.2.1 多源异构 API 的统一封装

2.2.2 检索增强生成（RAG）的端到端实现

2.2.3 前端交互与 Web 部署

第三章 理论深潜：Transformer 架构与模型微调原理

3.1 深度解析 Transformer：HuggingLLM（蝴蝶书）

3.1.1 自然语言处理（NLP）范式的演进

3.1.2 Hugging Face 生态与开源模型实战

3.2 训练与对齐机制：Happy-LLM

3.2.1 从预训练到指令微调

3.2.2 RLHF 与人类价值观对齐

第四章 智能体元年：Agent 架构与开发实战

4.1 智能体通识与核心范式：Hello-Agents（Part I & II）

4.1.1 智能体的定义与演进

4.1.2 经典 Agent 范式的代码级复现

4.2 打造自主可控的框架：HelloAgents Framework

4.2.1 框架设计哲学与架构

4.2.2 高级工具系统的实现

第五章 进阶工程：多智能体协作与复杂社会模拟

5.1 多智能体协作框架：Handy Multi-Agent

5.1.1 角色扮演（Role-Playing）与 Inception Prompting

5.1.2 异构 Agent 社会的构建

5.2 主流框架横向评测与实战：Hello-Agents（Part II Advanced）

5.2.1 AutoGen 的对话式编程

5.2.2 LangGraph 的图论编排

5.3 跨平台轻量级方案：Wow-Agent

第六章 综合应用：RAG 进阶与 Agent 生态互联

6.1 下一代检索增强：Wow-RAG

6.1.1 混合检索与重排序（Rerank）

6.1.2 GraphRAG 与知识图谱

6.2 基础设施支持：Easy-VectorDB

6.3 毕业设计与未来展望：Hello-Agents（Part IV & V）

6.3.1 智能旅行助手：MCP 协议实战

6.3.2 自动化深度研究 Agent (Deep Research)

6.3.3 赛博小镇 (Cyber Town) 社会模拟

6.3.4 毕业设计：从 Idea 到开源

第七章 总结与学习路径规划表

7.1 学习路径总览表

7.2 给学习者的最后建议

添加新评论

最新文章

最近回复

分类

归档

其它

第一章绪论：开源精神下的 AI 工程化教育新范式

第二章认知基石：提示工程与大模型应用开发初探

第三章理论深潜：Transformer 架构与模型微调原理

第四章智能体元年：Agent 架构与开发实战

第五章进阶工程：多智能体协作与复杂社会模拟

第六章综合应用：RAG 进阶与 Agent 生态互联

第七章总结与学习路径规划表