标签 banana-slides 下的文章

最近公司安排做 AI Slides ,我看了下 GitHub 上 ai-slides 这个 topic ,目前活跃的项目基本就两个:

  • banana-slidesGitHub):用 Nano Banana 模型生成 PPT 页面图片,视觉效果不错,但导出的.pptx本质是图片嵌入,无法编辑文字或调整布局;
  • Xpptxxpptx.com):能直接生成结构化的可编辑 PPT 。

我现在的问题是:有没有办法把 banana-slides 生成的那种高质量页面图,自动转换成真正的可编辑 PPT ?比如识别出标题、正文、图表区域,还原成原生文本和形状?

求教有没有现成工具或技术方案。

先上几张图:



上周周末赶汇报 PPT 正愁进度时,看到了论坛佬友们强烈推荐 banana-slides 项目,于是乎自己本地部署和使用了一下,体验是真的惊艳 —— 一方面是惊叹于大香蕉模型的图片输出美观程度,另外一方面也是感叹开发者的思路之优秀。

一句话 / 大纲就能生成,口头改改就迭代,导出可编辑 PPTX 也基本能用,确实改变了游戏规则。

但用着用着我就开始手痒了:文字偶尔还是会小崩(尤其是复杂表格 / 长句),纯图像 PDF 导出后想手动修又麻烦;预览是静态的,没法直接在浏览器里 “播放” 过一遍;而且我想加点更 “所见即所得” 的编辑(比如自动扣图层、前端拖拽改元素、在浏览器里加简单动画过渡),以及加入联网搜索、知识库的接入等等。

鉴于我 “非常喜欢自己造轮子” 的性格,于是我周末抽空基于 banana-slides 的核心思路(图像优先 + vibe 迭代),自己搓了个早期版本,主要改动点目前有这些(还在 WIP 阶段,佬们多来给点建议和 idea):

  • 后端生成后自动二次调用 AI 扣背景 + OCR 提取文字 → 输出分层数据(背景图 + 文字层 + 图标层),导出时可选 “纯图像 PDF”(快)或 “分层 ZIP/PPTX”(方便本地修)。
    - 支持接入 rag 知识库,对一些学术类,需要大量参考资料的 ppt 生成更加友好。

  • 前端加了个基础的在浏览器预览 / 播放模式(用 reveal.js 模拟全屏切换,带简单过渡),不用下载就能快速过一遍效果。

  • 计划支持用户在线拖拽 / 改文字(Fabric.js 那种),但这个还在画饼阶段。

  • 许可证打算用 Apache 2.0,更开放点(欢迎 fork / 商业用,只要留版权)。

目前核心生成已经能跑通,界面也基本可用,但前端编辑和动画还在迭代中,bug 肯定不少。于是乎想着提前来 linux.do 水个帖,顺便求拍砖:

  • 大家觉得分层编辑 + 在线播放这个方向值不值得继续搞?(还是先专注生成质量?)
  • 大家平时做 PPT 最烦哪部分?排版?文字崩?还是没好模板?
  • 如果开源了,你们希望先看到哪个功能完善(分层编辑 vs RAG vs 动画支持)?
  • 目前项目整体还不算完善,因此打算稍晚些再把仓库开放出来

感谢 banana-slides 作者的开源思路,没有原项目我根本想不到这么巧妙的设计思路
也感谢 linux.do 这个社区,让我能够了解到这么优秀的 AI 工具~


📌 转载信息
原作者:
JamesTofard
转载时间:
2026/1/14 10:48:40