BookletAI - 基于 Agent 的 AI 小册子生成器技术分享

大家好!今天给大家分享一个我们最近开发的项目 - BookletAI,一个基于 AI Agent 的小册子生成器。本文将从创作过程、技术实现原理和作品展示三个方面进行介绍。


一、创作过程

1.1 项目背景

在内容创作领域,制作一份精美的小册子/电子书通常需要:

  • 收集和整理大量资料
  • 设计排版和视觉风格
  • 编写和润色文案
  • 制作或寻找配图

这个过程往往需要数小时甚至数天。我们希望通过 AI 技术,将这个过程缩短到几分钟。

1.2 开发流程

Phase 1: 需求确认

  • 用户输入主题和阅读时间
  • Agent 自动分析并确认创作方向
  • 明确目标受众和内容风格

Phase 2: 素材收集

  • 使用 web_search 工具搜索相关资料
  • 使用 web_scrape 工具抓取高质量网页内容
  • 提取关键数据、案例和权威观点

Phase 3: 大纲规划

  • 基于收集的素材生成详细大纲
  • 使用 booklet_update 工具展示大纲给用户
  • 等待用户确认后再进入下一阶段

Phase 4: 页面生成

  • 使用 page_upsert 工具逐页生成内容
  • 支持并行生成( 3-5 页同时处理)
  • 实时更新进度(通过 TodoWrite 工具)
  • 智能配图( 70% 真实图片 + 30% AI 生成图片)


二、技术实现原理

2.1 整体架构

前端表单 → Java 后端 → Python AI 服务 → Claude API
    ↓           ↓              ↓
  SSE 连接 ← 消息推送 ← Agent 工具调用

核心技术栈:

  • 前端: Vue 3 + SSE (Server-Sent Events)
  • 后端: Java Spring Boot
  • AI 服务: Python + Claude Agent SDK
  • AI 模型: Claude Sonnet 4

2.2 Agent 工作流

BookletAI 基于 Claude Agent SDK 构建,通过 MCP (Model Context Protocol) 工具系统实现复杂的内容生成流程。

核心工具集:

  1. web_search - 网络搜索
  2. web_scrape - 网页抓取
  3. image_search - 图片搜索
  4. text_to_image - AI 图片生成
  5. booklet_update - 更新小册子信息
  6. page_upsert - 创建/更新页面

2.3 消息流转机制

SSE 实时通信:

前端建立 SSE 连接
    ↓
Java 后端创建 Agent 会话
    ↓
Python AI 服务调用 Claude API
    ↓
Claude 返回流式响应( think/tool/text )
    ↓
Java 后端解析并转换消息格式
    ↓
通过 SSE 推送给前端
    ↓
前端实时渲染(思考过程、工具调用、内容更新)

消息类型:

  • think - AI 思考过程
  • tool - 工具调用( running → completed )
  • text - AI 文本回复
  • error - 错误信息

2.4 并行优化

为了提升生成速度,我们实现了多项并行优化:

  1. 并行网页抓取 - 同时抓取 3-5 个网页
  2. 并行页面生成 - 同时生成 3-5 个页面
  3. 进度实时同步 - 使用 TodoWrite 工具实时更新进度

2.5 智能配图策略

图片来源比例:

  • 70% 真实图片(通过 image_search
  • 30% AI 生成图片(通过 text_to_image

图片验证机制:
搜索图片后必须验证可下载性,如果下载失败则尝试其他图片或使用 AI 生成。


三、作品展示

3.1 示例作品

《北京故宫·紫禁城旅游指南》

在线预览: https://bookletai.org/product-detail.html?contentId=01bdb85e9a294f65861d7b874bb94df9

作品特点:

  • 📖 4 页精美排版
  • 🎨 专业设计,图文并茂
  • 📝 内容丰富,涵盖历史、建筑、文物、游览攻略
  • 🌐 支持 HTML5 预览和 PDF 下载

内容结构:

  1. 封面 - 故宫太和殿全景,标题"皇城遗韵"
  2. 第 2 页 - 六百年紫禁城历史与建筑介绍
  3. 第 3 页 - 百万珍藏(珍宝馆、书画馆、钟表馆、瓷器馆)
  4. 第 4 页 - 游览攻略(入园须知、开放时间、交通建议、推荐路线)

3.2 产品特点

  • 完全免费 - 无需注册,无需登录
  • 多语言支持 - 支持 26 种语言
  • AI 驱动 - 自动生成高质量内容
  • 多种导出格式 - PDF 、HTML5
  • 适用场景广泛 - 教育、营销、非营利组织

3.3 使用场景

  1. 教育工作者 - 快速制作课程材料、学习指南
  2. 内容创作者 - 制作电子书、知识付费内容
  3. 营销团队 - 制作产品手册、客户提案
  4. 个人用户 - 整理知识、分享经验


四、技术亮点总结

  1. Agent 驱动 - 基于 Claude Agent SDK ,实现复杂的多步骤工作流
  2. 工具生态 - 丰富的 MCP 工具集(搜索、抓取、图片、内容生成)
  3. 实时通信 - SSE 推送,前端实时渲染 AI 创作过程
  4. 并行优化 - 网页抓取和页面生成支持并行处理
  5. 智能配图 - 真实图片 + AI 生成图片的混合策略
  6. 进度可视化 - TodoWrite 工具实时同步创作进度


五、体验地址

官网: http://bookletai.org/

示例作品: https://bookletai.org/product-detail.html?contentId=01bdb85e9a294f65861d7b874bb94df9

欢迎大家试用并提供反馈!如果对技术实现有任何问题,欢迎在评论区讨论。

标签: none

添加新评论