标签 人工智能应用 下的文章

很感谢一直支持我的朋友,虽然很久没发帖子,但是插件一直努力更新,今天有一些有意思的事情,于是想分享一下。

随时随地,随用随走是AI Anywhere的本心,智能体是必然的发展方向

前提

前段时间更新了内置MCP,包括(utools发布版本为1.11.10,测试版为1.11.14):

  • Web Search:获取互联网信息和网页内容
    • 网络搜索(DDG):通过关键词在互联网上搜索相关信息并返回摘要
    • 网页获取:抓取并解析指定 URL 网页的全文内容
  • 文件操作:对本地文件系统进行查找、读取和编辑
    • 文件定位:使用通配符模式快速查找匹配的文件路径
    • 内容检索:使用正则表达式在文件内容中搜索特定模式
    • 读取文件:从本地或远程路径读取文件内容(支持分段读取)
    • 写入文件:创建新文件或完全覆盖现有文件内容
    • 编辑文件:通过精确字符串替换来修改文件内容
  • 代码执行:在本地环境中运行 Python 代码和系统命令
    • 运行 Python 代码:直接执行提供的 Python 代码片段
    • 运行 Python 文件:执行本地存储的 .py 脚本文件
    • 解释器列表:扫描并列出系统中所有可用的 Python 解释器路径
    • 执行 Shell 命令:在 Windows 系统上执行各类命令行指令
  • 任务委派:处理复杂的多步骤任务
    • 子智能体(Sub-Agent):将复杂任务委派给具备特定工具权限的子 Agent 协同完成

很眼熟?因为照着claude code的功能模仿的,他目前是我见到的最优秀的智能体示例


事件经过

今天看到了qwen3-tts发布的消息,但是已经没有追着新模型本地部署测试的激情了,突然想到能不能试试我的智能体?于是便有了接下来的一幕:

系统提示词:空
模型:gemini-3-flash-preview
MCP工具:仅限于上述的内置MCP

提出要求-自动部署-告诉他取消用uv环境,使用配置好CUDA的p312环境,然后就部署好了?!

虽然anywhere可以分享会话文件给其他用户打开并继续聊天,但是因为命令行运行涉及到个人隐私,于是分享一下导出的html

See the Pen qwen3-tts-deployment by ComorebiC (@ComorebiC)
on CodePen.

整个过程我基本没怎么操心(除了偶尔运行时命令行报错,我原封不动发回去让他处理就行)。

虽然这是 Claude Code 的一个功能,但也是我用 Anywhere 从“划词翻译”、“OCR”、“辅助读论文”这些基础功能向更便捷更智能迈进的一大步(其实生活中也有些例子了,比如文件归档,我把目录告诉 AI,告诉它整理格式,它能自动分类、命名整理好,如开启chrome dev tool mcp,让它帮我爬取炎拳漫画的某些章节等等)。

未来我们也能自定义更多便捷的智能体,不仅仅是代码方面,还有办公、开发、个人兴趣、学习……超级期待!


如果有好的创意欢迎分享,我很乐意尝试,如果对插件有建议也欢迎分享!


📌 转载信息
转载时间: 2026/1/25 08:06:27

一、背景:为什么 2026 被认为是 AI 元年

过去十年,人工智能的发展主要集中在​技术突破阶段​:算法进步、算力提升、模型规模扩大。但到 2024–2025 年,这种变化开始发生转折。大模型能力趋于稳定,成本快速下降,工具链逐步完善,AI 不再只是实验室技术,而是开始进入真实生产系统。

2026 年被称为“AI 元年”,并不是因为 AI 在这一年才出现,而是因为​这一年,人工智能第一次具备了大规模、稳定、可复制落地的条件​。
从技术演示走向真实应用,是 AI 发展的关键分水岭。


二、什么是“AI 元年”:一个清晰的定义标准

AI 元年不是营销概念,而是一个产业判断标准。它至少满足三个条件:

  1. AI 能稳定参与核心生产流程
    不再只是辅助工具,而是成为流程的一部分。
  2. AI 应用具备规模化能力
    不是个例成功,而是行业可复制。
  3. AI 成本下降到可普及水平
    企业和个人都能负担并长期使用。

2026 年,以上三个条件同时满足,这就是它被称为“AI 元年”的原因。


三、技术拐点:大模型、智能体与工具链成熟

1. 大模型(LLM)进入稳定可用阶段

到 2026 年,大模型的能力不再依赖规模指数级增长,而是转向​稳定性、可控性与成本优化​。模型成为基础设施,而非稀缺资源。

大模型的角色变化​:
从“展示能力” → “长期运行的生产组件”。


2. 智能体(AI Agent)成为主流应用形态

智能体是基于大模型构建的​自主执行系统​,具备规划、执行、记忆与反馈能力。它的出现,标志着 AI 从“生成内容”进入“完成任务”。

这意味着:

  • AI 可以接管流程,而不仅是输出
  • AI 可以长期运行,而不仅是一次调用
  • AI 可以协同多个工具,而不是单点能力

3. 工具链完善,AI 工作流成为标准

到 2026 年,**Workflow(工作流)+ Agent(智能体)+ 工具调用(Tool Calling)**成为标准架构,AI 应用的开发门槛大幅降低,推动大规模落地。


四、应用拐点:AI 从试验走向规模化

真正标志 AI 元年到来的,不是技术本身,而是​应用形态的变化​。

  • AI 开始进入企业核心业务
  • AI 成为日常工作的一部分
  • AI 不再需要“单独学习”,而是自然使用

AI 应用从“项目制”转向“系统化”,从“辅助工具”转向“生产成员”。


五、产业影响:哪些行业最先被重塑

1. 内容与创意产业

智能体接管生产流程,创作者转向系统设计与认知输出。

2. 软件与 IT 行业

AI 编程、AI 运维、AI 测试成为默认能力。

3. 企业运营与管理

AI 进入决策支持、数据分析、流程优化环节。

4. 教育与培训

AI 成为个性化导师,重塑学习方式。

这些行业的共同特征是:​高度信息化、流程可拆解、结果可评估​。


六、个人与企业如何提前布局

对个人而言:

  • 学会与 AI Agent 协作,而不是只学工具
  • 提升问题定义与判断能力
  • 建立不可替代的认知优势

对企业而言:

  • 把 AI 当作长期系统,而不是短期项目
  • 优先改造流程,而不是单点引入
  • 提前建设数据与工作流基础

七、未来 3–5 年的趋势判断

  1. AI 将成为基础生产力
  2. 智能体将成为主要应用形态
  3. AI 工作流成为企业标配
  4. 人机协作成为默认模式
  5. 不使用 AI 的组织将失去竞争力

2026 不是终点,而是起点。


八、总结:2026 AI 元年真正意味着什么

2026 AI 元年,意味着人工智能​正式从技术革命进入应用革命​。
从这一年开始,AI 不再是“未来的技术”,而是​现实的生产力基础设施​。

对个人来说,这是一次能力结构的升级窗口;
对企业来说,这是一次组织形态的重构窗口;
对社会来说,这是一次生产方式的长期变革。

AI 元年,不是热潮,而是新常态的开始。

“AI不是要取代人类,而是要放大人类的价值。”当阿里在2026年开年发布“商业操作系统”(B-OS)时,这句宣言让无数产品经理热血沸腾。从ChatGPT到Sora,从大模型军备竞赛到AI视频卷出新高度,这场技术革命正以摧枯拉朽之势重塑商业格局——而产品经理,正是这场变革中最关键的“价值放大器”。

一、AI狂飙:从实验室到产业毛细血管的“真实效能”

当行业还在争论“千亿参数是否必要”时,AI早已悄然渗透到产业最深处:
汽车赛道:大搜车用AI重构二手车交易全流程,从维保记录解析到夜间直播留资,AI工具日均调用超百万次,将信息不对称的“黑箱”变成标准化数据流。某华东车商靠AI走播机器人拿下30%夜间订单,证明AI不是“炫技”,而是“印钞机”。

影视制作:Minimax的“动物奥运会”视频引爆全网,背后是Hailuo-02模型对高难度人体动作的精准复现。PixVerse的“实时世界模型”让视频生成从“重现历史”跃迁至“创造现在”,导演喊“cut”的瞬间,AI已根据新指令调整画面。

医疗领域:哈佛医学院的EVE模型预测出3200多个疾病相关基因中的3600万个致病突变,将基因诊断从“大海捞针”变为“精准打击”。DeepMind的Enformer神经网络一次编码超20万个碱基对,让基因表达预测准确率飙升。

这些案例揭示一个真相:AI的真实效能不在于参数规模,而在于能否解决具体场景的“真实痛点”。当行业从“技术炫技”转向“场景深耕”,产品经理的价值被彻底放大——他们既是技术价值的“翻译官”,也是商业闭环的“设计者”。

二、产品经理的“泼天富贵”:50万岗位缺口与百万年薪

“现在入行AI产品经理,就像2010年做移动互联网产品。”这句话正在成为现实:
薪资暴涨:初级AI产品经理年薪25-40万,专家级年薪百万已成常态。某二本机械专业学员通过4个月系统学习,成功转型AI医疗产品经理,薪资翻3倍。

需求井喷:2025年全球AI大模型市场规模突破5000亿美元,中国核心企业超300家,AI产品经理岗位缺口达50万。阿里、腾讯等大厂明确要求产品经理“必须具备大模型落地经验”。

跨界红利:文科生、非科班背景正成为AI产品经理的主力军。某日语专业硕士通过强化数据分析能力,成功转型AI产品经理,年薪超40万;翻译专业出身的点点用低代码平台开发AI智能体,年入百万。

这场风口的核心逻辑是:AI技术普惠化后,企业需要大量“懂业务、会翻译、能闭环”的产品经理,将技术能力转化为商业价值。正如阿里B-OS的逻辑:算力、模型、连接管道都由平台提供,产品经理只需定义“当A发生时,参考B规则,执行C动作”——这直接将AI创业门槛从“算法科学家”拉低到“资深业务专家”。

三、破局关键:从“PRD写手”到“价值定义者”

当AI能自动生成PRD、分析用户反馈、甚至写竞品报告时,产品经理的核心价值在哪里?答案藏在三个真实案例中:
客服系统的情感革命:某团队用AI优化客服系统,上线后用户投诉激增。原因很简单:AI能正确回答问题,却无法处理“我等了三天”的情绪。后来加入“情绪识别+人性化话术”模块,用户满意度提升23%。

物流延误的“上帝视角”:传统AI只能回答“物流受天气影响”,而业务专家会调用CRM数据发现客户是VIP,协调杭州仓补发顺丰空运,并在钉钉同步处理进度——这需要AI理解“业务流”而非“关键词”。

二手车估值的“数据炼金术”:大搜车的AI估值模型融合车况、区域行情、历史成交等268维因子,将经验判断转化为数据标签。这背后是产品经理对“非标品标准化”的深度理解。
这些案例揭示AI时代产品经理的三大核心能力:
业务洞察力:比AI更懂“上下文图谱”,知道“这个客户昨天在钉钉里特批了什么折扣”。
场景定义力:将技术能力转化为具体功能,如用RAG系统让大模型精准输出行业知识。
闭环设计力:从“提示词工程”到“Agent编排”,确保AI输出能反哺业务系统。

四、未来已来:2026年的三大生存法则

别被“千亿参数”迷惑:企业更关注推理成本,参数量超500亿的项目落地率不足20%。掌握模型量化压缩技术(如AWQ),用4bit量化实现80%精度保留,才是硬通货。
数据质量大于数量:某电商评论分析项目因爬虫数据含敏感信息被下架,血泪教训证明:构建数据清洗SOP(去重→脱敏→质量评分)比盲目收集数据更重要。
懂部署者得天下:阿里P7级产品岗需掌握vLLM部署与负载测试,能用Docker快速搭建本地测试环境。技术大厂要求产品经理“像系统设计师一样思考”,构建能随时间产生复利价值的系统。

结语:站在风口的“价值放大器”

当OpenAI与马斯克为“非营利初心”对簿公堂时,真正的AI革命正在产业深处发生:它不追求“无人驾驶”的乌托邦,而是用AI重构二手车检测、客服对话、视频生成等具体场景;它不制造“算法霸权”,而是让文科生、传统行业从业者通过“业务理解+AI工具”实现价值跃迁。
对于产品经理而言,这是最好的时代——AI放大了他们的效率、洞察力与商业敏感度;这也是最坏的时代——那些只会写PRD、做竞品分析的“执行者”,终将被AI取代。但有一点毋庸置疑:当技术成为基础设施时,定义价值的人,永远站在风口之上。

刚刚,喝到了千问APP给我点的奶茶

0%
icon展开列表
刚刚,喝到了千问APP给我点的奶茶
今天
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
今天
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
今天
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
今天
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
01月14日
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
01月14日
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
01月14日
img

刚刚,喝到了千问APP给我点的奶茶

2026 一开年,智能体的发展立马进入狂奔状态。

本周二,Anthropic 发布 Cowork 掀起了打工人的革命。它不再像 Claude Code 一样专门面向程序员,而是把大模型与智能体能力推进到电脑桌面上,可以解决大部分人的工作问题。

同一时间,谷歌联合 Walmart 等零售商推出了一项专为智能体购物场景设计的开放标准 —— 通用商务协议(UCP)。此举旨在推动智能体购物全流程的标准化,实现从商品推荐、购买决策到支付结算的无缝衔接。

1 月 15 日上午,千问又前进了一大步,已经准备让智能体全面接管我们的日常生活了。

这一次,千问 App 上线了全新 AI Agent 能力「任务助理」,同时全面打通阿里生态,一次开启了 400 多项新功能,邀请测试与灰度上线已经同步开启,全都是免费可用的。

图片

      千问 C 端事业群总裁吴嘉

国内最强的 AI 模型,与最全的应用生态,现在合而为一了。

现在,你只需要对 AI 说「我要两杯奶茶」,千问就可自动找到相应的店铺,选好你的地址、选好商品、下好订单,你只需要点击最终的支付即可。

图片

如果你想买点什么东西拿不定主意,也可以和千问「任务助理」商量一下,它不仅可以讨论出个符合需求的结果,而且可以直通商店的付款链接。

图片

可以看到,千问能够接入的应用包括淘宝、闪购、飞猪、高德地图和支付宝。如果你有需要,千问还能帮你打电话。在发布会现场,千问就展示了 AI 帮人订餐,看起来餐厅老板没有认出与他交谈的是千问。

图片

除了各种有意思的功能,我们也初步体验到了 AI 智能体带来的交互革命 —— 强大的千问模型,正在把阿里独有的生态优势全部并联起来。不论生活还是工作,以后通行的方法,或许都会被 AI 重新整理一遍。

图片

一手实测  触角已经碰到了物理世界

刚过去的 2025 年被普遍视为智能体元年,智能体在人工智能领域的热度一直没有断过。从 Manus、ChatGPT Agent 到更多国产 Agent 大模型与应用,几乎每一次发布都会引起轰动。

智能体的出现,让大模型从拥有智能「大脑」进化出灵活的「手」和「脚」,对复杂任务的自动分析、拆解、执行能力与日俱增。有了智能体的参与,人们可以从繁冗的流程性工作中解放出来,大大节省了工作量与时间成本。

在全面接入一众阿里生态业务之后,千问 App 上的这个智能体新面孔能带来哪些不一样的东西呢?带着这个疑问,我们在拿到内测资格之后,马上对它来了一次摸底测验。

多品牌团购不在话下

在上文,我们已经见识到千问「任务助理」点奶茶的便利。接下来的实测中,我们给它上上难度,看能不能搞定多品牌、跨店铺的团购任务。

团购不同牌子的奶茶通常需要我们进入购物 App 并一一查找、浏览对应牌子的奶茶店,还要确认店中有没有自己想要的口味,这会浪费不少时间。在将类似的任务交给千问「任务助理」后,一切的麻烦都没有了。

我们输入指令「帮我点 3 杯霸王茶姬,5 杯瑞幸,8 杯茶百道」,它在确认你的收货地址之后会首先询问你的口味需求。

图片

在确认你有无特殊的口味需求之后,它便开始马不停地自动跑完接下来的所有流程,包括分析用户点单需求、核对点单数量、以及搜索并获取购物平台(这里是淘宝闪购)商品信息。随着一系列内外部信息被它吸收消化,紧接着会进入到制定最佳点单方案的环节。

图片

在制定点单方案时,它会根据距离的远近等因素自动为你匹配合适的商家,并初步完成满足你需求的商品筛选与推荐。

图片

一套丝滑连招下来,它为我们推荐了三种差异化的方案,或想更快收到货、或是选择评分高销量高的门店、或想要订单中包含更多样的饮品种类。这些潜在的用户意图被它精准地捕捉并考虑进来,转化为对应的优先级推荐方案。

图片

最后一步,凭自己的喜好下单付款即可。整个操作过程中,除了在有特殊口味需求时需要你的手动介入,其他时候全权交给千问「任务助理」就行了。

定制旅游计划一气呵成

前几天,「威海暴雪」的新闻登上了微博热搜,让这座滨海城市闯入了人们的视线。提起山东,大家可能更多地想到青岛。相比之下,威海的名气没有那么大。但从网上的口碑来看,威海以「小而美」著称。

带着对这座城市的好奇,我们让千问「任务助理」制定一份 1 月 16 日(这周五)北京出发的威海两日游计划。

在接收到任务之后,它便自动进入到了任务规划以及逐步的任务执行流程。首先会对我们的需求进行一个整体分析,将威海的景点、美食、住宿等因素统统考虑进来,并启动搜索子任务,即调用搜索工具查询相关的背景知识。

通过不间断地搜索、查询多类型网络来源(包括门户网站新闻、旅行社区热帖等)的威海旅游攻略,尽可能地确保信息准确可靠。

图片

紧接着,根据筛选后的优质搜索结果,它为我们规划详细的两日游行程,这里全程对高德飞猪进行了调用。

图片

最终在整合所有行程信息之后,它在高德地图上呈现出了两条交互式路线图。

图片

完整的威海两日游计划出来之后,我们发现,不仅囊括了威海热门景点,还兼顾自然风光与历史文化,并综合考虑了预算成本与游玩体验。

图片

在生成的行程计划中,你既可以一键跳转高德来导航去某处景点的路线并一键打车,也能跳转飞猪去订景区门票和酒店。

在日常购物、旅游规划之外,千问「任务助理」擅长的事情还有很多,比如政务场景,在接入支付宝政务服务之后,只需用户一句话就能快速完成政策解读、材料清单梳理等步骤,覆盖办签证、查社保等等场景,并直达办理入口,效率高得惊人。

图片

简单的几个任务测下来,我们感受颇深的一点是:在交互方式上,以前我们是与大模型「对话」,现在是给智能体「派单」。只需要给出任务,然后等待结果即可。该说不说,这才是智能体真正的定义。

千问 AI 助手  有一套「拟人化」思考架构

千问不仅是能点外卖这么简单,千问「任务助理」已经完成了一套基于通用 Agent 体系的底层重构。

首先,千问 App 采用了一套全新的通用 Agent 体系。它基于 MCP 和 A2A 协议,在其中,主 Agent 作为指挥者,它基于千问最强模型拆解和规划任务;子 Agent 作为执行者,它们是多个具有反思能力的智能体,在其领域具有完全决策执行的权限,可以根据任务情况动态纠偏。

这套范式实现了高效的分层规划,在特定任务领域上也可以保证正确的决策,大幅提升了跨领域、长链路的复杂任务执行效率和准确率。

千问深度重构了 Agent 的原生能力栈。不同于目前流行的基于视觉识别(GUI)的 Agent 路线,千问选择了更加直接的协议打通,提升了 Agent 在执行任务时的精度和效率,在隐私安全上也更有保障。为了进一步提升效率,千问还专门为 AI 进行了工具栈的重构。

比如在搜索时,Agent 能够自主选择不同的搜索方式,或是进行并发搜索;操作浏览器的 Agent 经过了专门训练,结合阿里自研浏览器内核,具备毫秒级响应和极高的交互精度;在处理可视化、写小程序或复杂表格时,智能体会检索、对齐经过验证的成熟代码范式,确保产出结果具备「工程级」稳定性。

「任务助理」多层 Agent 的系统,深度集成了阿里自家生态的各种应用、工具,大量的应用会被拆解成原子化的指令级,确保了工具调用的准确。在跨场景任务上,系统能够正确地感知实时的位置、价格等时效信息,减少了大模型常见的幻觉问题。

千问的 Agent 系统还具备可以持续演进的能力。在完成任务之后,Agent 并不是就结束工作了,而是会像人一样进行「反思」并沉淀经验,让 Agent 可以持续进化。实践的经验会被转化为结构化经验库,作为先验知识在后续任务中动态加载。

这样,AI Agent 就可以逐渐具备人类的工作直觉。

最后,通过 AI Coding 的能力,千问现在可以在执行任务时发动 AI 生成代码能力现写工具。前面说到在大量任务上,Agent 可以实现精准的识别与操作。而在比较少见的任务上,千问的 Agent 可以启动 Agentic Learning 机制,自主编写、测试并封装新的原子工具。随着人们的使用,千问「任务助理」的能力会持续增强。

前天 Anthropic 发布的 Cowork,据说是十天之内用 AI 生成代码能力写出来的。看起来现在千问把类似的能力已经给你集成在智能体上了。千问表示,目前在数百个常用工具中,有超过一半是由 AI Coding 编程自主生成的。

智能体的 AI 革命  已经开始了

今年,AI 领域正在进入产品爆发的阶段。

仅在 1 月份,业界就出现了 Anthropic 的 Cowork,OpenAI 的 ChatGPT Health 等一系列新产品。各家科技公司正在快速兑现 OpenAI 总裁 Greg Brockman 对于智能体在企业、专业领域落地的预言。

刚刚千问的新发布,更是把智能体拉近到了我们身边:它能用快速精准的方式连接最常用的 App,让 Agent 进入到你生活的每一步。在国内,能做到覆盖如此全面的生活场景的公司,还真的只有阿里,其生态囊括了购物、出行、支付、办公等方方面面。

我们能够看出,目前这些 Agent 能力还显得比较简单 —— 正如第一代 iPhone 功能的简单并没有掩盖其划时代的意义一样,千问 APP 今日的推出,也许就像是智能体的 iPhone 时刻。从鼠标点击到手指触控,再到自然语言对话的交互方式升级,从这场发布开始打响了第一枪,人与机器的关系也进入到了第三次革命的关口。

当 AI 开始帮你整理发票、规划行程、甚至下单买咖啡时,它不再是云端那个高冷的「先知」,而变成了身边能干活的「助理」,这是 AI 从「言」到「行」的分水岭。

千问,会像淘宝开启移动互联网时代那样,开启一个全新的 AI 时代吗?我们拭目以待。

红墨 RedInk 小红书图文生成器开源

昨天就已经开源了,但是测试的时候智能使用官方接口,今天下午更新了,而且提供了docker版,部署更简单了,刚刚试了一下,已经成功生成图片了,就是使用起来账号积分如流水。

红墨 - 小红书AI图文生成器

让传播不再需要门槛,让创作从未如此简单

红墨首页

使用红墨生成的各类小红书封面

使用红墨生成的各类小红书封面 - AI驱动,风格统一,文字准确

写在前面

前段时间默子在 Linux.do 发了一个用 Nano banana Pro 做 PPT 的帖子,收获了 600 多个赞。很多人用?Nano banana Pro 去做产品宣传图、直接生成漫画等等。我就在想:为什么不拿?2来做点更功利、更刺激的事情?

于是就有了这个项目。一句话一张图片生成小红书图文


✨ 效果展示

输入一句话,就能生成完整的小红书图文

提示词:秋季显白美甲(暗广一个:默子牌美甲),图片 是我的小红书主页。符合我的风格生成

同时我还截图了我的小红书主页,包括我的头像,签名,背景,姓名什么的

示例1

然后等待10-20秒后,就会有每一页的大纲,大家可以根据的自己的需求去调整页面顺序(不建议),自定义每一个页面的内容(这个很建议)

示例2

首先生成的是封面页

示例3

然后稍等一会儿后,会生成后面的所有页面(这里是并发生成的所有页面(默认是15个),如果大家的API供应商无法支持高并发的话,记得要去改一下设置)

示例4


?️ 技术架构

后端

  • 语言: Python 3.11+
  • 框架: Flask
  • AI 模型:

    • Gemini 3 (文案生成)
    • ?Nano banana Pro (图片生成)
  • 包管理: uv

前端

  • 框架: Vue 3 + TypeScript
  • 构建: Vite
  • 状态管理: Pinia

? 如何自己部署

方式一:Docker 部署(推荐)

最简单的部署方式,一行命令即可启动:

docker run -d -p 12398:12398 -v ./output:/app/output histonemax/redink:latest

访问 http://localhost:12398,在 Web 界面的设置页面配置你的 API Key 即可使用。

使用 docker-compose(可选):

下载 docker-compose.yml 后:

docker-compose up -d

Docker 部署说明:

  • 容器内不包含任何 API Key,需要在 Web 界面配置
  • 使用 -v ./output:/app/output 持久化生成的图片
  • 可选:挂载自定义配置文件 -v ./text_providers.yaml:/app/text_providers.yaml

方式二:本地开发部署

前置要求:

  • Python 3.11+
  • Node.js 18+
  • pnpm
  • uv

1. 克隆项目

git clone https://github.com/HisMax/RedInk.git
cd RedInk

2. 配置 API 服务

复制配置模板文件:

cp text_providers.yaml.example text_providers.yaml
cp image_providers.yaml.example image_providers.yaml

编辑配置文件,填入你的 API Key 和服务配置。也可以启动后在 Web 界面的设置页面进行配置。

3. 安装后端依赖

uv sync

4. 安装前端依赖

cd frontend
pnpm install

5. 启动服务

启动后端:

uv run python -m backend.app

访问: http://localhost:12398

启动前端:

cd frontend
pnpm dev

访问: http://localhost:5173


? 使用指南

基础使用

  1. 输入主题: 在首页输入想要创作的主题,如"如何在家做拿铁"
  2. 生成大纲: AI 自动生成 6-9 页的内容大纲
  3. 编辑确认: 可以编辑和调整每一页的描述
  4. 生成图片: 点击生成,实时查看进度
  5. 下载使用: 一键下载所有图片

进阶使用

  • 上传参考图片: 适合品牌方,保持品牌视觉风格
  • 修改描述词: 精确控制每一页的内容和构图
  • 重新生成: 对不满意的页面单独重新生成

? 配置说明

配置方式

项目支持两种配置方式:

  1. Web 界面配置(推荐):启动服务后,在设置页面可视化配置
  2. YAML 文件配置:直接编辑配置文件

文本生成配置

配置文件: text_providers.yaml

# 当前激活的服务商
active_provider: openai

providers:
  # OpenAI 官方或兼容接口
  openai:
    type: openai_compatible
    api_key: sk-xxxxxxxxxxxxxxxxxxxx
    base_url: https://api.openai.com/v1
    model: gpt-4o

  # Google Gemini(原生接口)
  gemini:
    type: google_gemini
    api_key: AIzaxxxxxxxxxxxxxxxxxxxxxxxxx
    model: gemini-2.0-flash

图片生成配置

配置文件: image_providers.yaml

# 当前激活的服务商
active_provider: gemini

providers:
  # Google Gemini 图片生成
  gemini:
    type: google_genai
    api_key: AIzaxxxxxxxxxxxxxxxxxxxxxxxxx
    model: gemini-3-pro-image-preview
    high_concurrency: false  # 高并发模式

  # OpenAI 兼容接口
  openai_image:
    type: image_api
    api_key: sk-xxxxxxxxxxxxxxxxxxxx
    base_url: https://your-api-endpoint.com
    model: dall-e-3
    high_concurrency: false

高并发模式说明

  • 关闭(默认):图片逐张生成,适合 GCP 300$ 试用账号或有速率限制的 API
  • 开启:图片并行生成(最多15张同时),速度更快,但需要 API 支持高并发

⚠️ GCP 300$ 试用账号不建议启用高并发,可能会触发速率限制导致生成失败。


⚠️ 注意事项

  1. API 配额限制:

    • 注意 Gemini 和图片生成 API 的调用配额
    • GCP 试用账号建议关闭高并发模式
  2. 生成时间:

    • 图片生成需要时间,请耐心等待(不要离开页面)

? 参与贡献

欢迎提交 Issue 和 Pull Request!

如果这个项目对你有帮助,欢迎给个 Star ⭐

未来计划

  • [ ] 支持更多图片格式,例如一句话生成一套PPT什么的
  • [ ] 历史记录管理优化
  • [ ] 导出为各种格式(PDF、长图等)

更新日志

v1.3.0 (2025-11-26)

  • ✨ 新增 Docker 支持,一键部署
  • ✨ 发布官方 Docker 镜像到 Docker Hub: histonemax/redink
  • ? Flask 自动检测前端构建产物,支持单容器部署
  • ? Docker 镜像内置空白配置模板,保护 API Key 安全
  • ? 更新 README,添加 Docker 部署说明

v1.2.0 (2025-11-26)

  • ✨ 新增版权信息展示,所有页面显示开源协议和项目链接
  • ✨ 优化图片重新生成功能,支持单张图片重绘
  • ✨ 重新生成图片时保持风格一致,传递完整上下文(封面图、大纲、用户输入)
  • ✨ 修复图片缓存问题,重新生成的图片立即刷新显示
  • ✨ 统一文本生成客户端接口,支持 Google Gemini 和 OpenAI 兼容接口自动切换
  • ✨ 新增 Web 界面配置功能,可视化管理 API 服务商
  • ✨ 新增高并发模式开关,适配不同 API 配额
  • ✨ API Key 脱敏显示,保护密钥安全
  • ✨ 配置自动保存,修改即时生效
  • ? 调整默认 max_output_tokens 为 8000,兼容更多模型限制
  • ? 优化前端路由和页面布局,提升用户体验
  • ? 简化配置文件结构,移除冗余参数
  • ? 优化历史记录图片显示,使用缩略图节省带宽
  • ? 历史记录重新生成时自动从文件系统加载封面图作为参考
  • ? 修复 store.updateImage 方法缺失导致的重新生成失败问题
  • ? 修复历史记录加载时图片 URL 拼接错误
  • ? 修复下载功能中原图参数处理问题
  • ? 修复图片加载 500 错误问题

交流讨论与赞助

联系作者

用爱发电,如果可以,请默子喝一杯☕️咖啡吧

赞赏码

Star History

Star History Chart


? 开源协议

个人使用 - CC BY-NC-SA 4.0

本项目采用 CC BY-NC-SA 4.0 协议进行开源

你可以自由地:

  • 个人使用 - 用于学习、研究、个人项目
  • 分享 - 在任何媒介以任何形式复制、发行本作品
  • 修改 - 修改、转换或以本作品为基础进行创作

但需要遵守以下条款:

  • ? 署名 - 必须给出适当的署名,提供指向本协议的链接,同时标明是否对原始作品作了修改
  • ? 非商业性使用 - 不得将本作品用于商业目的
  • ? 相同方式共享 - 如果你修改、转换或以本作品为基础进行创作,你必须以相同的协议分发你的作品

商业授权

如果你希望将本项目用于商业目的(包括但不限于):

  • 提供付费服务
  • 集成到商业产品
  • 作为 SaaS 服务运营
  • 其他盈利性用途

请联系作者获取商业授权:

默子会根据你的具体使用场景提供灵活的商业授权方案。


免责声明

本软件按"原样"提供,不提供任何形式的明示或暗示担保,包括但不限于适销性、特定用途的适用性和非侵权性的担保。在任何情况下,作者或版权持有人均不对任何索赔、损害或其他责任负责。


? 致谢

  • Google Gemini - 强大的文案生成能力
  • 图片生成服务提供商 - 惊艳的图片生成效果
  • Linux.do - 优秀的开发者社区

?‍? 作者

默子 (Histone) - AI 创业者 | Python & 深度学习

  • ? 位置: 中国杭州
  • ? 状态: 创业中
  • ? 专注: Transformers、GANs、多模态AI
  • ? Email: histonemax@gmail.com
  • ? 微信: Histone2024
  • ? GitHub: @HisMax

"让 AI 帮我们做更有创造力的事"

前言

前阵子看到paddle发布SOTA的OCR模型,预览效果很nb,但看很少人去尝试使用。刚好公司有一些书籍类型的pdf(含公式,图片,表格等),内容双栏显示。使用场景够复杂了吧,也是日常会遇到的情况。于是就开始折腾部署PaddleOCR-VL模型。

配置

  • RTX6000(46G显存)
  • Windows11(配置wsl,Ubuntu-22.04)
  • python==3.12
  • 确保wsl内的CUDA 版本必须大于或等于 12.6(nvidia-smi查看)

开始操作

所有流程都在wsl中操作,包括python虚拟环境创建包安装等。我使用非Docker的方式安装
1.创建虚拟环境
conda create -n paddleocr python==3.12
2.安装paddle包

# 以下命令安装 CUDA 12.6 版本的 PaddlePaddle,对于其他 CUDA 版本以及 CPU 版本,请参考 https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/develop/install/pip/linux-pip.html
python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

连续使用以下命令即可

python -m pip install -U "paddleocr[doc-parser]"
python -m pip install https://paddle-whl.bj.bcebos.com/nightly/cu126/safetensors/safetensors-0.6.2.dev0-cp38-abi3-linux_x86_64.whl

3.python代码(单个pdf文档)

from pathlib import Path
from paddleocr import PaddleOCRVL

input_file = "./your_pdf_file.pdf"
output_path = Path("./output")

pipeline = PaddleOCRVL()
output = pipeline.predict(input=input_file)

markdown_list = []
markdown_images = []

for res in output:
    md_info = res.markdown
    markdown_list.append(md_info)
    markdown_images.append(md_info.get("markdown_images", {}))

markdown_texts = pipeline.concatenate_markdown_pages(markdown_list)

mkd_file_path = output_path / f"{Path(input_file).stem}.md"
mkd_file_path.parent.mkdir(parents=True, exist_ok=True)

with open(mkd_file_path, "w", encoding="utf-8") as f:
    f.write(markdown_texts)

for item in markdown_images:
    if item:
        for path, image in item.items():
            file_path = output_path / path
            file_path.parent.mkdir(parents=True, exist_ok=True)
            image.save(file_path)

4.完成到这部就可以运行了,第一次使用会下载模型比较慢。可能之前安装依赖中断过几次的原因,运行代码报错缺失系统依赖,错误日志丢ai解决即可。
我使用的文档是书中截取的三页内容,并非全书。消耗显存5.9G左右

效果

效果图
可以看到即使两栏内容,paddleocr也能很好的识别连接,公式使用latex,图表这里不知道为什么没识别成表格(官方演示效果)但还是完整保留下来了。有部分公式格式异常,导致公式没有正常渲染。后面写了脚本把二十多个pdf都进行ocr,占用显存44.5G。

结论

目前看效果已经非常好了,个人还没有做多模态检索,所以图片数据不是很重要,但确实已经很好的保留书籍的完整结构。这种文档结构识别再进行ocr的架构(类似于工作流)应该是未来OCR的方向了。

参考连接:使用教程 - PaddleOCR 文档