标签 banana-slides 下的文章
受 banana-slides 启发,我也简单搓了个 AI PPT 工具
先上几张图:
上周周末赶汇报 PPT 正愁进度时,看到了论坛佬友们强烈推荐 banana-slides 项目,于是乎自己本地部署和使用了一下,体验是真的惊艳 —— 一方面是惊叹于大香蕉模型的图片输出美观程度,另外一方面也是感叹开发者的思路之优秀。
一句话 / 大纲就能生成,口头改改就迭代,导出可编辑 PPTX 也基本能用,确实改变了游戏规则。
但用着用着我就开始手痒了:文字偶尔还是会小崩(尤其是复杂表格 / 长句),纯图像 PDF 导出后想手动修又麻烦;预览是静态的,没法直接在浏览器里 “播放” 过一遍;而且我想加点更 “所见即所得” 的编辑(比如自动扣图层、前端拖拽改元素、在浏览器里加简单动画过渡),以及加入联网搜索、知识库的接入等等。
鉴于我 “非常喜欢自己造轮子” 的性格,于是我周末抽空基于 banana-slides 的核心思路(图像优先 + vibe 迭代),自己搓了个早期版本,主要改动点目前有这些(还在 WIP 阶段,佬们多来给点建议和 idea):
后端生成后自动二次调用 AI 扣背景 + OCR 提取文字 → 输出分层数据(背景图 + 文字层 + 图标层),导出时可选 “纯图像 PDF”(快)或 “分层 ZIP/PPTX”(方便本地修)。
- 支持接入 rag 知识库,对一些学术类,需要大量参考资料的 ppt 生成更加友好。前端加了个基础的在浏览器预览 / 播放模式(用 reveal.js 模拟全屏切换,带简单过渡),不用下载就能快速过一遍效果。
计划支持用户在线拖拽 / 改文字(Fabric.js 那种),但这个还在画饼阶段。
许可证打算用 Apache 2.0,更开放点(欢迎 fork / 商业用,只要留版权)。
目前核心生成已经能跑通,界面也基本可用,但前端编辑和动画还在迭代中,bug 肯定不少。于是乎想着提前来 linux.do 水个帖,顺便求拍砖:
- 大家觉得分层编辑 + 在线播放这个方向值不值得继续搞?(还是先专注生成质量?)
- 大家平时做 PPT 最烦哪部分?排版?文字崩?还是没好模板?
- 如果开源了,你们希望先看到哪个功能完善(分层编辑 vs RAG vs 动画支持)?
- 目前项目整体还不算完善,因此打算稍晚些再把仓库开放出来
感谢 banana-slides 作者的开源思路,没有原项目我根本想不到这么巧妙的设计思路
也感谢 linux.do 这个社区,让我能够了解到这么优秀的 AI 工具~


