【开源分享】智能商品场景生成系统,接入 OAI 兼容格式和 sora2
主要功能
上传一张白底图,自动分析商品特征,生成 Front, Side, Top 等 9 种不同角度和场景的高质量营销图。
基于生成的图片,一键转换为动态视频(支持 Sora/Veo 等模型接口)
自动编排分镜,生成连贯的故事性视频脚本和画面。
置完善的用户系统,支持多用户登录、权限隔离(管理员 / 普通用户)及用量统计。
支持自定义 API Endpoint 和模型参数,兼容 OpenAI 格式接口。
xiaohack博客专注前沿科技动态与实用技术干货分享,涵盖 AI 代理、大模型应用、编程工具、文档解析、SEO 实战、自动化部署等内容,提供开源项目教程、科技资讯日报、工具使用指南,助力开发者、AI 爱好者获取前沿技术与实战经验。
主要功能
上传一张白底图,自动分析商品特征,生成 Front, Side, Top 等 9 种不同角度和场景的高质量营销图。
基于生成的图片,一键转换为动态视频(支持 Sora/Veo 等模型接口)
自动编排分镜,生成连贯的故事性视频脚本和画面。
置完善的用户系统,支持多用户登录、权限隔离(管理员 / 普通用户)及用量统计。
支持自定义 API Endpoint 和模型参数,兼容 OpenAI 格式接口。
IT 之家 12 月 30 日消息,据科技媒体 Windows Latest 今天报道,一则招聘信息显示,微软内部正在酝酿代号为 “Project Strong ARMed” 的新项目,隶属于体验与设备(E+D)事业部,旨在将基于 x64 架构的项目代码优化并迁移至 WoA
微软在招聘信息中写道:“应聘者将作为 Project Strong ARMed 的高级软件工程师,参与战略性计划,加速体验与设备事业部转向 ARM64 架构。他将与工程、研究团队合作,设计并实现可扩展系统,利用生成式 AI 与程序分析,自动化地让软件从 x64 架构转向 ARM64 架构”。
不过目前我们还不清楚这项计划是面向消费级市场还是企业级市场,但如果微软真的能实现上述内容,那对于 ARM64 生态兼容性而言将是重大进展。
微软还提到:“该岗位将在第一方自研芯片 Cobalt 100 的应用方面处于核心位置,通过 AI 智能体与自动化技术,将现有 x64 工作负载移植到 ARM 兼容平台”。
需要指出的是,Cobalt 100 并非面向普通消费者,而是用于微软自家的 ARM 服务器。因此我们可以合理推断该项目更可能与云相关,而非面向消费者方向。
招聘还写道:“应聘者将构建并部署 AI 驱动的软件工程智能体,将代码库从 x64 架构迁移至 AnyCPU,以及从 Windows 向 Linux 的移植”。
目前,大多数微软服务和内部应用都是围绕 x64 架构构建,由于 CPU 架构有别,这些应用不能原生运行在 Windows on Arm 系统上。不过无论如何,移植代码绝不是 “重新编译一下就完事”,尤其是那些设计 Windows 底层、内部工具或服务的大型代码库。
不过我们目前还不清楚有多少人参与这个项目,但可以看出微软正在投入,且这一方向也合乎时代逻辑。Windows on Arm 并不完美,但也在逐步发展,也有部分消费者因为续航等原因青睐这一平台。
根据佬友 fatekey 的帖子 雨云无限白嫖 FRP 服务器攻略(无 aff) 白嫖雨云的游戏云
首先雨云的游戏云类似 NAT,你可以在管理面板增加端口映射。其次最重要的是雨云游戏云的终端和普通的 shell 终端不同,它是 Minecraft 服务器控制台,所以不支持一般的 Linux 指令。 那我们要如何让它可以像一个普通 VPS 运行一些我们想要的服务呢?雨云游戏云有一个启动脚本,你可以修改这个脚本,所以你可以通过修改启动脚本进而运行一些我们想要的服务,这个教程带佬们利用启动脚本搭建 Alist
# 下方编写启动语句 echo "----------------启动alist-----------------"
./alist start
echo
java -Xms128M -XX:MaxRAMPercentage=95.0 -jar Paper-1.21.10.jar
# 下方编写启动语句 echo "----------------启动alist-----------------"
./alist restart # 重启Alist
./alist admin set 12345 # 设置Alist管理员密码,你可以设置自己的密码 echo
java -Xms128M -XX:MaxRAMPercentage=95.0 -jar Paper-1.21.10.jar
通过 xm.rainplay.cn: 你配置文件修改的端口 访问 Alist,然后你就会看到熟悉的 Alist 登录界面
这里用户名 admin,密码 12345,看到下面就表示登录成功了,然后你就可以挂载云盘了
新增绘图功能(实验),暂时没保存配置入数据库
多轮对话生图、改图
支持拖拽上传图片、拖拽调整图片附件顺序,图片附件预览
支持并发生成 1-4 张图片
支持提示词翻译
右侧生成结果区可以对图片预览、下载、删除,可以查看详细参数和提示词
fix: 筛选模型时,匹配不到不会直接消失了
同时生成多张图

拖拽上传和拖拽排序,预览图片

提示词翻译

配置提供商和模型
配置模型参数
Slin HTTP Studio 是一个基于 Flask 功能强大的 Web 端 HTTP 请求测试工具,专为 API 开发和调试设计。
开源地址: GitHub - Ryderwe/FlaskHTTPStudio
在线演示(wispbyte 免费容器部署):http://212.227.64.179:10061/
一键 cURL 转换
直接从浏览器开发者工具复制 cURL 命令,自动解析为可编辑的请求表单,支持 20+ 种 cURL 选项。
智能预设系统
通过规则配置实现参数自动替换,支持 KV 键值对修改和 JSON Path 深层字段修改,可按域名和路径过滤作用域,解析后自动应用。
完整的请求管理
可视化 KV 编辑器与文本模式实时双向同步
支持 5 种 Body 类型(JSON / 表单 / 文件上传 / 原始数据)
自动保存历史记录(含响应数据),支持收藏和搜索
一键回放历史请求
企业级安全防护
内置 SSRF 防护机制,阻断所有内网地址访问,DNS 解析验证,重定向二次校验,确保生产环境安全。
响应式界面
桌面端手风琴面板,移动端抽屉式响应查看,支持 HTML 预览和源码模式切换,提供完整的响应下载功能。
轻量级架构:Flask + 原生 JavaScript,无重度框架依赖
本地存储:所有数据保存在浏览器 localStorage,服务端不落盘
安全优先:多层 SSRF 防护,响应大小限制,临时存储自动清理
开箱即用:仅需 Python 3.8+ 和两个依赖包(Flask + requests)
API 接口调试和测试
参数化测试和批量修改
团队协作(导出 / 导入预设规则)
请求收藏和快速回放
移动端 HTTP 请求测试
最后依旧求 Stars~
复古终端风格
极简风格
一小时滑动窗口 黑曜石主题
iframe 快速嵌入页面
小妙招: 发行版说明 直接叫 gemini 使用 chrome-devtools MCP 截图写的
100star 咯 再来一些也行 谢谢大家支持 嘻嘻
点个认可试试 (好像还没有认可过)
因为现在的 ai ide 都有很完善的 agents 功能,而且还可以上网搜索资料
因此比如说对于改稿的部分:
你先让它创建一个改稿工作流(反重力里面叫这个名字)
差不多这样:
然后用 Gemini 3 Pro 等模型,让它执行这个工作流
他就会咔咔咔进行竞稿
你就只需要在吐出的文字里面人工再加上修改建议,然后重复这套工作流就好了。
而且由于模型本身聪明,文笔还挺不错的,就是你可能需要额外找一个地方定义写作的规范,因为中英文的区别还是挺明显的。
你甚至没有参考文献的话可以让它调用自带的搜索功能增加文献
从 继续讨论,咕咕咕了一个月终于迎来了又一个大版本~
Abstract交互式学习 Vim,每一个技巧都能提高编辑效率~
v2.0 相比于 v1.5 主要更新了:
详见前帖:
当前处于 v2.0.0 版本,已实现功能如下。还在持续迭代中
现在项目仍有一些 bug 和不完善的地方(包括但不限于文案不易于理解、Vim 编辑器与真实行为不一致等),欢迎佬友们试用之后在楼内或者 issue 区反馈
衷心感谢如下佬友为这个项目提出宝贵的意见和建议!
@l39 @kika @GoldenZqqq @sodacola
Tip觉得不错的话就帮我点个 Star吧~
. 重播(cw/paste/ 末行 jw)、多行寄存器行粘贴、撤销快照去重与 cw 边界全面对齐 Neovimbug 修复与新功能预览
来晒一晒你的 Vim + 贪吃蛇水平吧!
腾讯发布首个 Diffusion 大语言模型:WeDLM-8B。WeDLM-8B 是一个基于扩散机制的大语言模型,有 80 亿参数。它从 Qwen3-8B 初始化而来,经过指令微调后,有基础版和 Instruct 版。
性能测试中,在数学推理任务上,WeDLM 比用 vLLM 优化的 Qwen3-8B 快 3 到 10 倍。比如计算 1 到 100 的和,只需 0.22 秒,而传统方式要 1.8 秒。在低复杂度任务中,每秒能生成上千个词。
模型已开源,在 Hugging Face 上可下载,支持 wedlm 引擎优化推理。这让扩散式语言模型第一次在实际速度上超过主流自回归模型。
腾讯开源的扩散大模型是否能掀起扩散大模型的浪潮?
来源火绒安全近期发现多款日本色情游戏(来源 BT 站)捆绑有高隐蔽挖矿木马。
木马利用 “白加黑” 技术植入,会大量消耗电脑 CPU 与内存。
而且这木马有防检测手段:
当你打开任务管理器时候,木马就会停止运行挖矿操作,防止被发现
iMini AI 重磅升级,推出全新功能【精细编辑】
简单说,就是对于 AI 图片生成不满意的地方,圈一下就可以马上修改。
比如下图,修改一下人物手中的水果、修改一下人物帽子颜色… 等等
体验入口:https://imini.com/tools/ai-image/text-to-image
除了【精细编辑】还有
1、分图层 / 编辑元素
2、1k 图片变 4k 高清
3、一键扣主体
4、扩图
5、擦除
…
等等,简单说,就是不单止能生图,还能修图了,并且没有使用门槛。
win11 中内置 copilot GPT5.1 中的 juice 值,其中 Think Deeper 以及 Smart 模式下都是 16
edge 中内置 copilot 里的 GPT5.2, Smart Plus 模式下也是 16(我是 M365 会员,可能有点影响)
github copilot 里的 GPT5.2 是 64
windsurf 家的 GPT5.2 low,juice 是 16
windsurf 家的 GPT5.2
先交代下背景:玩 PT 也就几个月,这段时间陆续进了馒头、人人、UB、杜比这些站(在这里真心感谢各位佬儿友的信任)。我这边整体是 “两条线” 在跑:
刚开始在馒头那会儿,我都是挑自己喜欢的资源下(但不是最新官种),结果基本吃不到上传 —— 很正常,新种发布后的时间窗口才是最香的。
后来在杜比、UB 这类站,我发现只要是跟着下最新官种,保种阶段上传速度经常能看到 3–4 MiB/s(指单种 / 短时间波动,不是一直满速)。当然,那些 “经久不衰” 的内容偶尔也会出点速度,但总体来说,刷流想稳定,还是得围绕新种节奏来。
我试过:
最后发现对我这种网络环境来说,最稳的反而是:
一个 qB 容器 + 一个 Vertex 容器,然后在 Vertex 里跑 RSS 任务(我这个版本一次最多就开 3 个 RSS 订阅任务,够用了)。
核心就一句话:不要贪心,要平衡。
我以前也干过下班回家直接把 qB 拉满:下载 70–80 MiB/s、同时下载数量 16/24/48/64 甚至不设上限…… 爽是爽,但结果就是:
所以我现在用的是双重约束:Vertex 控总量节奏,qB 控队列与慢种策略。
我这边 Vertex 主要卡这些:
同时我开了 自动删种,删种周期是 cron(我这里是 * * * * *,也就是每分钟检查一次)。删种规则我勾了三条:
qB 这边我做了几件很基础但很有用的事:
(1)PT 必备:关 DHT / PeX / 本地发现,开匿名模式
这个不展开了,懂的都懂。
(2)队列:最大活动下载数 = 15
并且我勾了:慢速 torrent 不计入限制内
(3)做种限制:到点就清(我这套偏刷流思路)
(4)速度 / 连接(给个参考值)
在我这套环境下(公司 1000M、无公网无 v6),长期跑下来一个很明显的结论是:
一句话收尾:刷流不是把性能发挥到极致就会更好,尤其在 “无公网 / 无 IPv6” 的内网条件下,更重要的是 “节奏” 和 “队列的流动性”。
以上就是我这几个月踩坑后的 “能长期跑、别太折腾” 的版本。各位佬儿友如果也有类似内网环境的玩法,欢迎一起交流你们的平衡点怎么找的。
余额可在 https://crs.prismllm.tech/admin-next/api-stats 输入 api_key 查看。
~/.codex/config.toml:
model_provider = "crs" model = "gpt-5.2-codex" model_reasoning_effort = "xhigh" disable_response_storage = true preferred_auth_method = "apikey" [model_providers.crs] name = "crs" base_url = "https://crs.prismllm.tech/openai" wire_api = "responses" requires_openai_auth = true env_key = "CRS_OAI_KEY" ~/.codex/auth.json:
{ "OPENAI_API_KEY": null } export CRS_OAI_KEY=cr_ab8f442a747e9e5d591c54cfad8078c354993f5883e126d4c2c3310a8d37a980
反重力里面的 claude 量还是比较充足的,这两天学习了一下如何转换格式到 cherry studio 中使用,算是学习笔记贴吧,大佬们需要有反重力的账号,然后部署下面这个项目(我是本地部署的),
https://github.com/su-kaka/gcli2api
部署好之后在 7861 端口打开,是下面这个界面,然后获取认证链接,会跳转网页去登录自己的 Google 账号,认证完成就 ok 了,
第一个是 gemini cli 的,只有 gemini 模型能使用,反重力的话有 claude 可以使用,所以我们推荐把反重力也认证了,接下来就简单了,我们选择 url 和 key 填到 cherry studio 中
如果是 cli 的话使用这个
openai.api_base = “http://127.0.0.1:7861/v1”
openai.api_key = “pwd”
如果是反重力的话使用这个
openai.api_base = “http://127.0.0.1:7861/antigravity/v1”
openai.api_key = “pwd”
#模型我暂时先选择 claude-sonnet-4-5 ,大家也可以选择其他模型,看自己爱好喽
然后这个仓库是一个大佬发在 qq 群的,我没看懂,私聊大佬学习了这个技巧,我只有他 qq 号,他是 空悲切 ,再次感谢大佬(如果大佬看到了可以评论一下哈哈),作为一个非程序员,我平时喜欢折腾这些东西,可能很简单,也希望为社区做一点小小的贡献吧,如果大家有其他使用技巧也欢迎在评论区补充,好了好了,得开始上班了
相信站内不少佬平时都得啃论文,我自己也是。但总得在各种翻译,ai 聊天软件里切换来切换去,索性自己动手搞了这个项目。
首先先介绍一下功能
第一:可以转换成 md 后进行翻译,格式不会丢失,还有中英对照页面
翻译采用 ReactAgent 架构,搜寻从 arxiv, 以及网上各种信息,从背景、动机、切入点:
第二:不熟悉的专业术语,划词后让 ai 解析
解析完成后会在整个项目全局高亮,鼠标悬停则会出现解析
第三:拥有用户画像功能的就论文对话功能
ai 能根据用户的回答实时调整用户画像,给出让用户最能听懂最想要的回答
1. 解析效果:结构公式啥的都没毛

2. Agent 翻译:
![[开源] PaperMate,让读论文看文档再优雅一点点3](https://xiaohack.oss-cn-zhangjiakou.aliyuncs.com/typecho/images/2025/12/31/20251231112821_695498552621e.gif!mark)
类似于沉浸式那样的对照阅读也没问题:
![[开源] PaperMate,让读论文看文档再优雅一点点2](https://xiaohack.oss-cn-zhangjiakou.aliyuncs.com/typecho/images/2025/12/31/20251231112702_6954980698405.gif!mark)
3. 深度解析:

4. 划词 & 记忆:遇见不懂的陌生的词?直接划词解析(这些都会进入 llm 的记忆,可以在对话中用到):
![[开源] PaperMate,让读论文看文档再优雅一点点4](https://xiaohack.oss-cn-zhangjiakou.aliyuncs.com/typecho/images/2025/12/31/20251231112950_695498ae048f2.gif!mark)
5. 智能问答: llm 会根据用户回答自动调整用户画像(beta,可能有 bug):
![[开源] PaperMate,让读论文看文档再优雅一点点5](https://xiaohack.oss-cn-zhangjiakou.aliyuncs.com/typecho/images/2025/12/31/20251231113126_6954990e802e4.gif!mark)
to_do_list:
未来想完善的功能:
添加项目级别的记忆,不止是术语和画像,提升 llm 回答的质量,让 llm 更懂你,也更懂论文
将整个项目里的所有论文,以及专业术语和记忆,作成 rag 知识库,在对话、翻译等地方运用上去
优化翻译 agent 和对话流程
大家在读论文里还有什么需要的可以提,如果好的我都会采纳放进去,还有 rag 我完全没整过,感觉有点复杂就先放到后边去了
最后,star 一下吧
通过 1key 的方式已经认证成功了
然后进去链接
以为已经成功,再此点击就出现下述的报错:
得如何解决。。。
前情提要:最新注册了新号,地区问题和新号导致账号风控太多,导致 gemini 网页 和 Antigravity 都没法正常使用,最近更换地区到适配的地区,还是没法使用,
最近意外加入了一个 google one 群组,发现 gemini 能用了,但是 Antigravity 还是没法使用。所以研究一下,分享经验
目前我的账户还是 Your current account is not eligible for Antigravity. 通过以下步骤,还是没法使用 Antigravity 的编辑器,但是可以使用 Antigravity Tools 来进行 2api 使用
注意哈,google one 用户,下面步骤执行完还是没法正常使用 ide,只是能使用模型了
2. 安装 gemini-cli 登录 ,如果 gemini-cli 没法使用,大概率 Antigravity 也没法使用,但是可以提高 Antigravity 2 api 的机率
npm install -g @google/gemini-cli
进行简单对话测试账号是否可用
3. 使用 Antigravity Tools ,进行登录,如果正常显示额度就可以用了
注意哈,Antigravity 还是不可用的,但是能使用 cc 来接入模型了哈
具体可看
【来猛烈的 AI 组合技】工具集合分享 ,看看是不是差生文具多 - 开发调优 - LINUX DO
提前叠甲:雨云 aff 很疯狂,但本文无 aff。
使用该方法搭建的 frp 速度在 100 mbps 左右。
加入 Q 群 → 我爱雨云
关注 B 站 → 雨云爱你
关注淘宝 → 成功加入
在积分商城里可以很容易的买到 E5 入门版游戏云,无货的话等刷新就好。
在 NAT 端口映射管理界面配置至少 2 个端口(一个用于 FRP 服务,一个用于要暴露的内网服务)
然后进入控制台
除了 启动脚本外的内容都可以删掉,再上传 frps、frps.toml
https://github.com/fatedier/frp/releases/download/v0.65.0/frp_0.65.0_linux_amd64.tar.gz
这一步建议用 SFTP 工具来操作,因为自带的文件管理上传大文件很容易失败。
启动脚本的内容如下
./frps -c frps.toml
frps.toml 内容如下
bindPort = 10000 auth.token = "passwd" 端口就写前面映射的端口,再设置个密码防止被人白嫖。
如果只有自己用的话不建议用 frpc 直接暴露内网服务,建议 frpc 暴露 easytier。
github 上有现成的自动签到,不过部署起来比较麻烦,我这里改了个 docker 版本,可以一键构建镜像部署。
续费的话用官方的 api ,替换 api key 和 服务器 id 即可。
curl --location --request POST 'https://api.v2.rainyun.com/product/point_renew' \
--header 'x-api-key: key' \
--header 'Content-Type: application/json' \
--data-raw '{
"duration_day": 7,
"product_id": id,
"product_type": "rgs"
}'在 https://pypi.org/project/*/ 网页中,都会有 pip 开头的安装命令
这个插件的功能就是,将 pip 替换成其他包管理工具的安装或者添加依赖命令
下载 chrome 结尾的 zip 压缩包,解压然后加载即可。
因为还未在扩展商店上架,所以只能使用 调试附加组件 的方式安装。
打开 about:debugging#/runtime/this-firefox
安装完成后,提供了两种触发方式:
说明