先上几张图:



上周周末赶汇报 PPT 正愁进度时,看到了论坛佬友们强烈推荐 banana-slides 项目,于是乎自己本地部署和使用了一下,体验是真的惊艳 —— 一方面是惊叹于大香蕉模型的图片输出美观程度,另外一方面也是感叹开发者的思路之优秀。

一句话 / 大纲就能生成,口头改改就迭代,导出可编辑 PPTX 也基本能用,确实改变了游戏规则。

但用着用着我就开始手痒了:文字偶尔还是会小崩(尤其是复杂表格 / 长句),纯图像 PDF 导出后想手动修又麻烦;预览是静态的,没法直接在浏览器里 “播放” 过一遍;而且我想加点更 “所见即所得” 的编辑(比如自动扣图层、前端拖拽改元素、在浏览器里加简单动画过渡),以及加入联网搜索、知识库的接入等等。

鉴于我 “非常喜欢自己造轮子” 的性格,于是我周末抽空基于 banana-slides 的核心思路(图像优先 + vibe 迭代),自己搓了个早期版本,主要改动点目前有这些(还在 WIP 阶段,佬们多来给点建议和 idea):

  • 后端生成后自动二次调用 AI 扣背景 + OCR 提取文字 → 输出分层数据(背景图 + 文字层 + 图标层),导出时可选 “纯图像 PDF”(快)或 “分层 ZIP/PPTX”(方便本地修)。
    - 支持接入 rag 知识库,对一些学术类,需要大量参考资料的 ppt 生成更加友好。

  • 前端加了个基础的在浏览器预览 / 播放模式(用 reveal.js 模拟全屏切换,带简单过渡),不用下载就能快速过一遍效果。

  • 计划支持用户在线拖拽 / 改文字(Fabric.js 那种),但这个还在画饼阶段。

  • 许可证打算用 Apache 2.0,更开放点(欢迎 fork / 商业用,只要留版权)。

目前核心生成已经能跑通,界面也基本可用,但前端编辑和动画还在迭代中,bug 肯定不少。于是乎想着提前来 linux.do 水个帖,顺便求拍砖:

  • 大家觉得分层编辑 + 在线播放这个方向值不值得继续搞?(还是先专注生成质量?)
  • 大家平时做 PPT 最烦哪部分?排版?文字崩?还是没好模板?
  • 如果开源了,你们希望先看到哪个功能完善(分层编辑 vs RAG vs 动画支持)?
  • 目前项目整体还不算完善,因此打算稍晚些再把仓库开放出来

感谢 banana-slides 作者的开源思路,没有原项目我根本想不到这么巧妙的设计思路
也感谢 linux.do 这个社区,让我能够了解到这么优秀的 AI 工具~


📌 转载信息
原作者:
JamesTofard
转载时间:
2026/1/14 10:48:40

标签: Fabric.js, AI PPT工具, banana-slides, reveal.js, RAG知识库

添加新评论