标签「多模态模型」下的文章

Gemini 3 Pro - AI 绘图工作台 (Web Client)

昨天用banana生成了好几张照片,效果确实碉堡,看到这个项目挺不错的,分享一下,前提是要有你自己的key哦,并不是白嫖。Gemini 3 Pro 是一个基于 Web 的轻量级、高性能 AI 绘图客户端。它专为 Google Gemini 多模态模型(如 gemini-3-pro-image-preview)设计,提供了一个无需后端、纯前端运行的专业工作台。除了基础的对话和绘图功能外,它还内置了…

PaddleOCR-VL部署使用体验记录

前言前阵子看到paddle发布SOTA的OCR模型,预览效果很nb,但看很少人去尝试使用。刚好公司有一些书籍类型的pdf(含公式,图片,表格等),内容双栏显示。使用场景够复杂了吧,也是日常会遇到的情况。于是就开始折腾部署PaddleOCR-VL模型。配置RTX6000(46G显存)Windows11(配置wsl,Ubuntu-22.04)python==3.12确保wsl内的C…