标签 banana-slides 下的文章

AI 生成 PPT 方案请教

作者: 纯情

时间: 2026-01-30

分类: 开源

最近公司安排做 AI Slides ，我看了下 GitHub 上 ai-slides 这个 topic ，目前活跃的项目基本就两个：

banana-slides（GitHub）：用 Nano Banana 模型生成 PPT 页面图片，视觉效果不错，但导出的.pptx本质是图片嵌入，无法编辑文字或调整布局；
Xpptx（xpptx.com）：能直接生成结构化的可编辑 PPT 。

我现在的问题是：有没有办法把 banana-slides 生成的那种高质量页面图，自动转换成真正的可编辑 PPT ？比如识别出标题、正文、图表区域，还原成原生文本和形状？

求教有没有现成工具或技术方案。

受 banana-slides 启发，我也简单搓了个 AI PPT 工具

作者: 纯情

时间: 2026-01-14

分类: 网络

先上几张图：

上周周末赶汇报 PPT 正愁进度时，看到了论坛佬友们强烈推荐 banana-slides 项目，于是乎自己本地部署和使用了一下，体验是真的惊艳 —— 一方面是惊叹于大香蕉模型的图片输出美观程度，另外一方面也是感叹开发者的思路之优秀。

一句话 / 大纲就能生成，口头改改就迭代，导出可编辑 PPTX 也基本能用，确实改变了游戏规则。

但用着用着我就开始手痒了：文字偶尔还是会小崩（尤其是复杂表格 / 长句），纯图像 PDF 导出后想手动修又麻烦；预览是静态的，没法直接在浏览器里 “播放” 过一遍；而且我想加点更 “所见即所得” 的编辑（比如自动扣图层、前端拖拽改元素、在浏览器里加简单动画过渡），以及加入联网搜索、知识库的接入等等。

鉴于我 “非常喜欢自己造轮子” 的性格，于是我周末抽空基于 banana-slides 的核心思路（图像优先 + vibe 迭代），自己搓了个早期版本，主要改动点目前有这些（还在 WIP 阶段，佬们多来给点建议和 idea）：

后端生成后自动二次调用 AI 扣背景 + OCR 提取文字 → 输出分层数据（背景图 + 文字层 + 图标层），导出时可选 “纯图像 PDF”（快）或 “分层 ZIP/PPTX”（方便本地修）。
- 支持接入 rag 知识库，对一些学术类，需要大量参考资料的 ppt 生成更加友好。
前端加了个基础的在浏览器预览 / 播放模式（用 reveal.js 模拟全屏切换，带简单过渡），不用下载就能快速过一遍效果。
计划支持用户在线拖拽 / 改文字（Fabric.js 那种），但这个还在画饼阶段。
许可证打算用 Apache 2.0，更开放点（欢迎 fork / 商业用，只要留版权）。

目前核心生成已经能跑通，界面也基本可用，但前端编辑和动画还在迭代中，bug 肯定不少。于是乎想着提前来 linux.do 水个帖，顺便求拍砖：

大家觉得分层编辑 + 在线播放这个方向值不值得继续搞？（还是先专注生成质量？）
大家平时做 PPT 最烦哪部分？排版？文字崩？还是没好模板？

如果开源了，你们希望先看到哪个功能完善（分层编辑 vs RAG vs 动画支持）？
目前项目整体还不算完善，因此打算稍晚些再把仓库开放出来

感谢 banana-slides 作者的开源思路，没有原项目我根本想不到这么巧妙的设计思路
也感谢 linux.do 这个社区，让我能够了解到这么优秀的 AI 工具～

📌 转载信息

来源：
https://linux.do/t/topic/1443231

原作者：
JamesTofard

转载时间：
2026/1/14 10:48:40