包含关键字 typecho 的文章

基于 YOLOv8 的多车型交通车辆实时检测识别项目 [目标检测完整源码]

一、背景与问题引入

在智慧交通体系中,“看得清、分得准、跑得快”始终是视觉感知系统的核心诉求。传统基于规则或特征工程的方法,在复杂道路环境、密集车流、多车型混行的场景下,往往存在鲁棒性不足、维护成本高的问题。

随着深度学习目标检测模型的成熟,YOLO 系列逐渐成为交通视觉领域的主流方案。其中,YOLOv8 以其 Anchor-Free 架构、更优的速度–精度平衡以及完善的工程生态,非常适合用于实时车辆检测与系统级落地。

本文将从工程实践角度,完整介绍一个 支持 12 类常见交通车辆、具备图形化界面、可直接部署运行 的实时检测系统设计与实现思路。
在这里插入图片描述

源码下载与效果演示

哔哩哔哩视频下方观看:

https://www.bilibili.com/video/BV1dwg5zCEkL/

在这里插入图片描述

包含:

📦完整项目源码

📦 预训练模型权重

🗂️ 数据集地址(含标注脚本

二、系统整体架构设计

该系统并非仅停留在“模型推理”层面,而是以完整应用系统为目标进行设计,整体架构可划分为四个核心模块:

┌────────────┐
│  数据输入层 │  ← 图片 / 视频 / 摄像头 / 文件夹
└─────┬──────┘
      │
┌─────▼──────┐
│  检测引擎层 │  ← YOLOv8 Detection Model
└─────┬──────┘
      │
┌─────▼──────┐
│  结果处理层 │  ← NMS / 置信度过滤 / 可视化
└─────┬──────┘
      │
┌─────▼──────┐
│  UI 交互层  │  ← PyQt5 图形界面
└────────────┘

这种分层结构具备以下优势:

  • 算法与界面解耦,便于模型升级
  • 输入方式可扩展(无人机、RTSP流等)
  • 易于二次开发与功能叠加

在这里插入图片描述
在这里插入图片描述

三、核心功能能力解析

3.1 多源输入的统一检测流程

系统支持多种数据源接入,并统一走同一套检测逻辑:

  • 单张图片检测:适合离线分析与测试
  • 文件夹批量检测:用于数据清洗与标注校验
  • 视频文件检测:适配道路监控录像
  • 实时摄像头检测:满足在线监控需求

在底层实现上,通过对输入源进行抽象封装,确保模型推理逻辑保持一致,避免重复代码。


3.2 多车型精细化识别

本项目针对真实交通场景,定义了 12 类常见车辆类型,涵盖:

  • 轿车、SUV、面包车
  • 公交车、卡车、工程车辆
  • 特殊用途车辆等

YOLOv8 的 Anchor-Free 机制在多尺度目标(远距离小车 / 近景大车)检测中表现稳定,有效降低漏检与误检率。


3.3 PyQt5 图形化交互系统

为了降低系统使用门槛,引入 PyQt5 构建桌面级应用界面,核心设计原则是:

  • 无需编程经验即可使用
  • 操作路径清晰
  • 结果可视、可保存

主要功能包括:

  • 输入源选择与切换
  • 检测启动 / 停止控制
  • 实时画面显示(带检测框)
  • 检测结果自动保存

这使得模型能力真正转化为“可使用的软件”,而不仅是脚本级 Demo。


在这里插入图片描述

四、YOLOv8 模型训练与评估实践

4.1 数据集组织规范

项目采用标准 YOLO 数据格式,便于复用与迁移:

dataset/
├── images/
│   ├── train
│   └── val
└── labels/
    ├── train
    └── val

标签文件采用归一化坐标,兼容 Ultralytics 官方训练接口。


4.2 模型训练策略

训练阶段基于 YOLOv8 预训练权重进行微调,核心关注点包括:

  • box_loss:定位精度
  • cls_loss:车辆类别区分能力
  • dfl_loss:边框质量优化

在实际项目中,当 mAP@0.5 稳定超过 90%,即可满足工程部署需求。


4.3 推理与部署方式

模型推理通过 Ultralytics 官方 API 完成,具备如下特点:

  • 接口简洁,代码量少
  • 支持 CPU / GPU 自适应
  • 可导出 ONNX / TensorRT

结合 UI 层,可直接形成“即点即检”的完整工作流。


在这里插入图片描述

五、工程化落地与可扩展性

与单纯算法实验不同,该项目在工程层面具备以下实用特性:

  • 完整源码与权重打包
  • 一行命令启动系统
  • 训练 / 推理 / UI 全流程覆盖

在此基础上,可进一步拓展:

  • 车辆轨迹跟踪(DeepSORT / ByteTrack)
  • 车流量统计与时间序列分析
  • 多路摄像头并行检测
  • 智慧交通平台对接

在这里插入图片描述
在这里插入图片描述

六、总结与展望

本文从系统视角出发,完整介绍了一套 基于 YOLOv8 的多车型交通车辆实时检测平台 的设计与实现思路。通过将高性能目标检测模型与 PyQt5 图形界面深度融合,实现了从算法能力到实际可用系统的有效转化。

该项目不仅适用于智慧交通与城市监控场景,也非常适合作为:

  • 计算机视觉工程实战案例
  • AI 教学与科研实验平台
  • 工业级视觉系统原型

随着模型与算力的持续演进,交通视觉系统将不再只是“看见车辆”,而是逐步走向 理解交通、预测交通、优化交通。这一项目,正是迈向该目标的一个扎实起点。

在这里插入图片描述

本文从工程化与系统化的角度,介绍了一套基于 YOLOv8 的多车型交通车辆实时检测系统,完整覆盖了数据输入、模型训练、推理部署以及 PyQt5 图形化交互等关键环节。通过将高精度目标检测模型与易用的桌面端界面相结合,系统实现了对多种交通场景下车辆目标的稳定识别与实时展示,显著降低了深度学习技术在智慧交通领域的使用门槛。整体方案结构清晰、可扩展性强,不仅具备直接落地应用的工程价值,也为后续在车流统计、行为分析和交通智能决策等方向上的功能扩展提供了良好的技术基础。

作者:张红霞,青岛雨诺网络信息股份有限公司新零售产品部总监

综述

当前,医药零售企业已不再满足于“卖药”,而是致力于成为“健康管理伙伴”。通过构建以 CRM 会员系统为核心、线上与线下深度融合的全渠道服务架构,企业实现了服务时间与空间的无限延展、会员数据的集中管理与智能应用、营销活动的精准触达与高效转化。

作为医药零售的头部企业,重庆医药(集团)股份有限公司(简称“重药集团”)前身是成立于1950年的中国医药公司西南区公司,服务于医药全产业链,同时从事医药研发(MAH)、医疗器械生产,并投资参与医药工业。重药集团拥有全级次分、子公司200余家,正在从传统的配送商业企业向“互联网+医药”融合型现代医药企业转型。

随着CRM会员系统的使用时间拉长,其底层的传统数据库逐渐难以满足复杂数据的高效处理需求。面对海量交易和多维度行为数据的汇聚,重药集团CRM会员系统亟需采用具备高可用、强一致、可扩展特性的数据库。经过对比三款国产分布式数据库,重药集团选择OceanBase,最终实现系统稳定运行、复杂场景实时分析、查询效率提升25倍、存储空间节约60%。

此次重药集团CRM系统的数据库升级不仅提升了用户体验与品牌忠诚度,也为后续集团构建高性能、高可用的“集团级数字化运营中枢”提供了明确的业务需求与数据基础,构建可扩展、可复制、可监管的集团化运营体系。

医药零售商业模式变革,CRM系统实现全渠道协同

随着消费者行为的数字化转型和健康需求的持续升级,医药零售行业正经历深刻的商业模式变革。传统药店“有啥卖啥”的经营逻辑,逐步向“顾客需要什么”的逻辑转变,除了提供到店服务外,还支持线上服务,比如通过企业微信、公众号等渠道建立长期沟通机制。微商城代客下单、在线解答疑问等。

为构建以专业化服务为基础的顾客信任体系,医药企业建立了完整的会员服务体系——CRM 会员系统,以实现绑定多重会员信息、建立精准的会员标签画像,为会员提供更多的服务和营销。通过数据驱动决策的专业化服务能力提升来提高企业在行业内的竞争力,实现增收。

如图1 所示,CRM 会员系统可以实现线上、线下全渠道协同,支持会员档案统一、标签体系完善、自动触发机制、店员触达赋能、社群营销等关键功能。完成顾客到店/线上购药 → 完成交易 → 数据沉淀至 CRM → 触发服务与营销 → 二次消费 → 再次触达,实现“交易—服务—再交易”的正向循环。

图1 CRM会员系统实现线上、线下全渠道协同

为实现一体化管理需求,构建CRM会员系统

重药集团CRM会员系统的搭建背景,源自于其各子公司会员管理分散,系统缺乏统一规划,导致数据难沉淀、服务差异大、运营难复制,且缺乏实时监控,难以支撑决策。

为实现一体化管理,重药集团CRM会员系统分阶段建设。第一阶段完成会员营销平台的底座建设,打造集团化、标准化、数据化运营基础,核心目标如下。

  • 搭建集团化会员运营平台。现集团—子公司—门店的一体化管理,打通组织架构与业务链路,确保会员在不同层级和渠道中都能获得一致的服务体验。
  • 统一的会员运营服务体系。构建覆盖会员管理、营销活动、服务交付的标准化流程,减少分散运作带来的效率损耗,提升整体运营协同能力。
  • 可快速复制标准化服务能力。形成可落地的服务模板和运营机制,帮助新业务和子公司快速复制成熟经验,缩短建设周期,提升推广效率。
  • 实现经营数据统一分析。沉淀完整的数据资产,打破信息孤岛,实现对会员、门店、区域的多维度统一分析,为企业战略决策与合规审计提供有力支撑。

在上述目标指导下,我们做了三个核心举措:

  • 联合集团会员中心,推进一体化进程。覆盖集团全品牌及线上会员,实现线上和线下会员统一运营和全域价值管理(见图2)。
  • 构建多层级组织架构视角报表。支持集团、品牌、门店的权限管理,权限灵活配置,便于集团总部进行跨品牌的数据报表分析。
  • 集团统一下达任务。集团可向各品牌下发销售任务、患者教育活动任务及拉新任务,实现集团任务统一管理与执行监督。

图2 集团会员同意运营架构

我们计划以集团内个别区域公司为试点,试行以上举措,若成功,则进行全面推广。推广成功后,重药集团会员运营平台将实现从“单一业务系统”向“集团级数字化运营中枢”演进。依托统一的技术底座与标准化流程,平台不仅实现对多家子公司、多个品牌的全面接入,更构建起可扩展、可复制、可监管的集团化运营体系。

此外,为实现全渠道会员统一运营,平台通过整合分散在各系统中的数据,构建统一、动态、多维度的会员标签画像体系(见图3),支撑精细化运营决策。

图3 多维度会员标签画像体系

通过会员系统精准化的服务来反哺我们的线上和线下的会员营销和服务,实现线上精准营销、个性化推荐、好物推送、会员关怀,线下关联用药建议、慢病管理提醒、店员主动触达等,提升营销转化率,增强客户粘性,实现“数据驱动服务”的闭环。

精细化会员服务,带来海量数据的查询、存储难题

然而,随着集团化会员运营平台的推进,精细化服务模式持续深化,导致用户数据规模呈指数级增长,显著提升了系统的查询与存储复杂性。

  • 会员量:突破千万级,覆盖多个品牌及区域公司。
  • 交易数据量:达到亿级,涵盖线上线下购药、用券、复购等行为。
  • 用户行为类数据:包括商品浏览、搜索、加购等,总量亦达千万级以上。

这些数据来源于线上商城、私域平台、公众号等多个渠道,经标签体系整合后,用于构建立体化的会员画像,支撑精准营销与双向引流。

但数据体量大、类型多样、实时性要求高,对数据库的高并发读写能力、存储扩展性与查询性能提出严峻考验。面对千万级会员、亿级交易和多维度行为数据的汇聚,传统数据库难以满足高效处理需求,亟需采用具备高可用、强一致、可扩展特性的分布式数据库系统进行支撑。

CRM会员系统数据库升级,应对千万级数据处理难题

传统数据库的技术瓶颈制约业务发展

重药集团会员服务平台的规模化发展,使系统数据总量迅速增长至千万级、数十 TB 存储规模,传统关系型数据库在支撑精细化会员运营场景时,暴露出四大核心挑战。

  • 性能:百万大表 InnoDB 在高并发读写及复杂查询场景下,性能显著下降,无法满足业务需求,且有事务访问,无法通过拆分提升性能。同时,业务强依赖事务一致性,无法通过拆分提升性能。
  • 效率:核心归档由于业务需求,需要保留大量数据(数十 TB),会造成 DDL 周期长,延迟业务上线时间。
  • 成本:随着企业数量增多、历年数据累积,存储成本将越来越高。
  • 及时性:在各种场景下,对应数据处理的及时性需求越来越强。

上述技术挑战不乏真实业务案例。

例 1:某大型连锁店,以满足信创要求为前提进行性能保障

如今国家对信息技术应用创新(简称“信创”)的要求日益严格,特别是在国有企业中,系统必须符合相关标准才能上线。为了响应这一趋势,我们严格按照信创目录选择数据库产品,并对其进行了全面的业务场景适配与性能验证。

  • 数据准备:会员卡 9950万+、订单 1 亿 9980万+。
  • 验证数据库:OceanBase 数据库、某数据库1、某数据库2。
  • 验证功能:报表 14 项内容、高级筛选 8 项内容。
  • 参考标准:报表查询小于 20s、静态化数据小于 60s、高级筛选小于 15s。

测试结果如图4所示。OceanBase 在所有测试项中均显著优于其他两个国产数据库,在报表查询、高级筛选、静态化数据三个场景的性能表现都远超预期:

  • 报表查询小于 7s,平均提速 78 倍以上。
  • 高级筛选响应高级筛选小于 1s,速度提升 200–700 倍。
  • 静态化数据静态化数据小于 46s,效率提升 6.7 倍以上。

图4 OceanBase 数据库、某数据库1、某数据库2的测试结果

在严格遵循国家信创要求的前提下,OceanBase 不仅完全满足合规性准入条件,更在百亿级数据规模下的复杂查询与批量处理场景中展现出卓越性能,远超同类国产数据库产品。基于此,我们总结了三个数据库的性能数据,向客户提交了一份详细的分析报告。

例 2:连锁会员、订单交易数据量增长迅速,实时性查询瓶颈

除了信创需求外,客户对业务的实时性、及时性要求也越来越高。过去,企业主要依赖 BI 工具进行周期性报表生成,可容忍数小时甚至数天的数据延迟。然而,随着营销策略向精准触达和即时响应演进,业务人员需要在高价值客户识别、复购提醒触发、定向营销投放、健康知识推荐等场景中获取近实时数据支持。为实现精准服务,运营人员经常需要基于会员信息、会员属性、历史消费、会员标签、商品集合等多个维度进行多维组合筛选,由于关联维度过多,可能会出现查询失败、查询时间过长、范围跨度受限、复杂查询无法支持等问题,显然,这些问题是我们服务的客户无法接受的。

例 3:海量业务数据,系统可用性与存储成本难平衡

连锁医药企业会员体系的不断扩展和数字化运营的深入,必然会带来业务数据量的指数级增长,海量数据带来的高存储成本成为制约系统可持续发展的关键瓶颈之一。

  • 用户数据:累计会员数量突破千万级(>1000万)。
  • 交易流水:日均订单量达百万级,历史累计超过亿级(>1亿条)。
  • 用户行为数据:包括浏览、搜索、加购、收藏等行为记录,总量亦达千万级以上。

单个业务数据库实例空间占用已达到 N 个 TB 级别,且随时间推移呈线性增长。随着客户数量增加和业务持续扩张,业务数据库实例的空间占用迅速攀升至数十TB甚至上百TB级别,这些数据不仅用于支撑日常业务运行,还需长期保留以满足合规审计、精准营销、客户画像构建等需求。企业面临保障性能与可用性的前提下降低存储成本的难题。

因此,引入具备高效数据压缩、自动冷热分层、弹性扩展能力的新一代分布式数据库,是实现“数据价值最大化、存储成本最小化”的必然选择。

数据库技术引入,支撑海量交易数据的高效处理

综合业务需求与传统数据库的技术瓶颈考虑,我们需要替换传统数据库,升级为高性能、稳定性强、成本低、 HTAP 一体化的分布式数据库。

自 2023 年起,我们开始系统性地评估并引入 OceanBase,历经技术认知、多轮测试、工具链验证、SaaS 级试点上线等关键阶段(见图5),最终成功应用于重药集团会员管理平台。

图5 上线OceanBase的关键阶段

1.技术引入与评估阶段(2023年)

测试重点包括三部分。

其一,日常抖动测试。在对 OceanBase 初期测试时,我们首先进行了业务压力测试。低峰期业务配合100%模拟线上流量直接发压,高达4轮的压力测试,每次持续 3 小时以上。

其二,扩容/缩容测试。在业务流量低时进行相关操作验证。为了验证是否存在小概率事件,进行了为期一周的脚本自动扩、缩容操作以观察其稳定性。

其三,Add Index 测试。与扩容、缩容相仿,基于业务流量对1T大表进行多达几十次的add index操作,观察延迟情况。

2.SaaS 产品试点上线(2023 年 12 月)

在完成全面技术验证后,我司将 OceanBase 应用于内部 SaaS 类产品中,作为首个生产级试点场景。该阶段实现了:

  • 数据库稳定运行于真实业务环境中。
  • 验证了迁移、运维、监控等全生命周期管理能力。
  • 积累了宝贵的实战经验,为后续客户项目打下坚实基础。

3.重药集团项目正式上线(2025 年 4 月)

基于前期充分验证与试点成果,我们于 2025 年 4 月正式启动重药集团会员管理平台项目,OceanBase 正式投入生产使用,支撑海量交易数据的高效处理。

会员服务平台“新面貌”:稳定、高性能、低成本

构建标准化数据链路,稳定、高效处理海量数据

目前,OceanBase 主要支撑重药集团会员服务平台的分析型业务场景,支撑高并发、多维度的会员数据查询、标签计算、报表生成及精准营销决策。其核心价值体现在:高效处理海量历史数据、支持复杂实时分析、保障查询性能与系统稳定性。

整个数据链路遵循“源系统 → CRM 中转清洗 → OceanBase 分析库”的三层架构,如图6所示。

图6 会员服务平台的数据分析链路

数据来源(源系统)包括POS 订单数据、各渠道会员信息、组织人员数据、会员标签数据、档案测量数据、全部商品主数据。

  • 中转与清洗层(CRM 系统):所有原始数据通过定时抽取或实时接入方式进入 CRM 系统,进行统一的数据清洗、去重、合并与标准化处理。关键处理策略包括历史数据清洗、订单数据合并、积分逻辑处理、会员标签动态更新、消费行为计算、活跃度模型计算。
  • 目标存储与分析层(OceanBase 分析库):清洗后的数据通过同步机制实时或定时写入 OceanBase 分析库;并分为原始数据表、静态化处理表、日表/月表、报表中间表。

通过构建“源数据 → CRM 清洗 → OceanBase 分析库”的标准化数据链路,实现了多源异构数据的统一整合、复杂分析场景的高性能响应、业务数据的长期留存与高效利用。

会员精准筛选复杂场景,查询效率提升 25.7 倍

在重药集团会员服务平台的实际运营中,多维度组合筛选(见图7)是支撑精细化营销与客户管理的核心功能。对于数据库而言,该功能是典型的复杂查询场景,用户需同时基于多个维度进行精确匹配,查询通常涉及多表关联、大量过滤条件和聚合计算,非常考验数据库的执行效率。我们通过开启 OceanBase 的列存模式(Columnar Storage),将原本传统数据库MySQL 的响应时间从 18 秒缩短至 0.7 秒,性能提升达 25.7 倍,满足业务对“实时圈选、即时触达”的严苛需求,显著提升了系统整体吞吐量与用户体验。

图7 会员服务平台多维度组合筛选

数据存储空间省 60%,有效降低存储成本压力

OceanBase 将全量数据划分为两个部分进行管理:一是增量数据(Memtable),即实时写入内存中的热数据,支持快速读写;二是基线数据(静态数据),即经过合并与持久化后的冷数据,存储于磁盘。

对于静态数据,OceanBase 采用高效的压缩算法,对列式存储的数据进行深度压缩,显著减少磁盘 I/O 和存储开销。例如,当原始数据总量为 4TB 时,MySQL 需要完整保留所有数据,存储空间占用为 4TB;而 OceanBase 通过对静态数据进行高压缩处理,仅需 1.5TB 即可承载相同规模的数据。

在重药集团会员服务平台的实际部署中,OceanBase 通过其先进的列式存储引擎与高效压缩算法,显著降低了数据存储空间占用,在同等业务数据规模下实现了 60% 以上的存储空间节约,有效缓解了海量数据带来的存储成本压力。

面向未来,持续推进 OceanBase 的深度集成与价值释放

随着 OceanBase 在重药集团会员服务平台的成功落地,我们对其在更广泛业务领域和客户群体中的应用充满信心。面向 2026 年及未来,我们将围绕场景拓展、客户推广、技术融合与产品适配四大方向,持续推进 OceanBase 的深度集成与价值释放。

应用于更多业务场景与产品

当前,OceanBase 已稳定支撑重药集团会员管理平台的复杂分析型业务(如精准筛选、标签计算、报表生成)。订单处理中心和运营诊断产品也在生产环境开始使用OceanBase,下一步,我们将推动其全面融入日常运营服务场景,包括:实时会员服务、营销活动执行、AI 智能推荐等业务场景。

另外,我们将逐步将 OceanBase 适配至更多内部产品,包括商品主数据管理、患者健康管理平台、智能补货与供应链协同系统,构建以 OceanBase 为核心的统一、弹性、智能的企业级数据基础设施。

向业内客户推荐

在国家信创政策与企业降本增效双重驱动下,我们已将 OceanBase 作为高并发、大数据量、强一致性要求场景下的首选数据库,并向行业客户积极推广。截至目前,已在以下大型医药企业成功落地:扬子江药业集团、鹭燕医学、重药集团、上海医药、国大药房。未来,我们将继续优先推荐 OceanBase 作为会员服务、订单中心等关键系统的数据库底座,助力更多企业完成安全、高效、低成本的国产化替代。

交流开发,沉淀运维经验

为持续提升团队与客户的 OceanBase 应用能力,我们计划定期组织专题培训、参与社区技术沙龙、共建问题解决机制、定期组织数据库培训及实战分享会议,探讨并解决遇到的问题,争取打造一支“懂业务、精技术、能落地”的复合型数据库应用团队。

未来,我们将携手更多合作伙伴,共同探索“数据库 + AI + 行业场景”的创新路径,为医药健康行业的高质量发展注入新动能。


CVE-2025-36463 Sudo_chroot Elevation of Privilege 漏洞分析

CVE-2025-32023 Redis 漏洞分析

智能体对话正在告别“纯文本时代”!近日,腾讯云智能体开发平台(ADP)重磅上线国内首个“AI 原生 Widget”,面向企业客户提供“富交互任务交付”能力,只需自然语言描述,就能实时生成表单、按钮等交互组件。该能力还同步在腾讯元器(一站式 AI 智能体创作与分发平台)生态侧落地,支持创作者一键生成交互卡片。

 

值得一提的是,这一功能还兼容 OpenAI 生态的 Widget 接入规范,外部 Widget 可依据标准协议直接导入复用,进一步拓展智能体能力边界与生态扩展空间。

 

“AI 原生 Widget”是一种面向智能体任务交付的“富交互组件形态”,模型输出结构化描述(JSON Schema),平台自动渲染为可操作的表单、按钮,并将用户交互结果回传智能体,实现任务闭环执行。

自然语言秒级生成智能体交互组件

在传统的大模型对话中,文本输出是主要形式。海量的文字堆砌,不仅抬高理解成本,而且完成单一任务需要多轮来回沟通,效率低且体验不佳。Widget 作为可嵌入式的自定义展示组件,能在智能体对话流中,灵活融入图表、表单、按钮等“富交互”模块,将对话界面升级为沉浸式任务平台,引导用户按步骤操作,大幅提升信息传递与任务执行效率。

 

当前国内的智能体平台构建 Widget 时,普遍采用传统“拖拉拽式低代码+手动配置字段/数据源映射关系”的方式,流程繁琐、耗时久、稳定性一般,难以适配高效开发的需求。针对这一痛点,腾讯云 ADP 推出的 AI 原生 Widget,提供了模版创建、代码创建、自然语言生成等多种方式,降低开发门槛。即使非专业前端开发者,只需用语言描述需求,或调用现成 Widget 模板,一分钟内就能够生成对应组件,真正实现“所想即所得”。

支持多种 Widget 开发模式

比如用户想要搭建一个“健身小助理”智能体,通过 AI 原生 Widget,输入提示词后,一键就能生成对应卡片。当用户询问“我要跑步”时,系统会弹出预设卡片,引导用户点选运动频率、强度等习惯信息,再根据用户的选择,快速生成“跑步训练周计划”卡片,包含每周运动安排、单次运动内容、时长和强度建议等核心信息。

从纯文本对话到富交互任务执行

虽然我并不认同“IDE 会在 2026 年消亡”这种绝对说法,但 Steve Yegge 和 Gene Kim 在分享中抛出的判断,依然值得认真对待:在他们的推演里,从 2026 年 1 月 1 日起,继续依赖传统 IDE 的工程师,会被更快拉开差距。

他们认为这不是“工具升级”,而是“生产方式换代”:工程师的竞争力,越来越取决于你能否用好新一代 AI 开发方式,以及你愿不愿意为它付出真实成本——例如把每天的 token 开销重新定价到“接近日薪”的量级。

更刺耳的是,他们转述了 OpenAI 的 Andrew Glover 的一项观察:是否使用 Codex,可能会让同级别工程师之间的生产力差距被拉到 10 倍,这让管理层“非常惊慌”,“因为他们甚至可能不得不裁掉 50% 的工程师”。

其核心观点如下:

  • 现在的模型本质上是派一个潜水员下去,让它在代码库里四处探索,即使给它更大的氧气瓶,比如一百万 token,它仍会耗尽。正确做法应该是派多个角色,而不是寄希望于一个超大的单一潜水员。

  • 如果你在 2026 年 1 月 1 日后还在使用 IDE,那你就是一个“不好的工程师”。

  • 作为工程师,我每天花在 Token 上的费用应该与我的日薪相当,也就是每天 500 到 1000 美元。

  • Claude Code 走错了方向,他们造出一只巨大、耗能、高成本的“肌肉蚂蚁”。

 

Steve Yegge:今天的时间会过得很快,我将讨论明年(2026 年)开发工具的样貌。

 

现在所有人都迷恋 Claude Code,市面上大概有四十个竞争者,但 Claude Code 并不是答案,代码补全也不是。

 

虽然我每天使用它十四个小时,但开发者并未真正采纳。核心问题是这些工具使用难度过高,认知负担重,而且常常“撒谎、作弊、偷懒”。因此大多数开发者并不喜欢这样的工具。

 

我逐渐认识到,Claude Code 很像电钻或电锯。对于没有受过训练的人,它既能帮上忙,也能造成巨大损伤。未受训练的工程师使用 Claude Code,与一个新手拿着电锯差不多:既可能“切到脚”,也可能在熟练后完成极其精细的工作。然而软件世界无限广阔,而我们的野心也同样无限。

 

因此我想用一个类比说明:明年将是从“手持电锯、电钻”转向“数控机床(CNC)”的一年。CNC 在给定坐标后能自动执行极其精确的操作,这项技术我们已经使用了数百年,也不会在今年停止。

 

有人说“模型已经触顶了”,你的工程师们可能也这么说。即使如此,我们仍然等同于刚发现蒸汽和电力,还需要时间去驾驭它。现在的问题已经主要是工程问题。一年到一年半内,所有代码都将由大型自动化“磨床”式系统生成,工程师不再直接查看代码。这将是一个全新的世界,而我们正走向那里。

 

Gene 和我曾与 OpenAI 的 Andrew Glover 交流过,他说公司内部出现了明显的分化:部分工程师使用 Codex,而更多人没有用(拒绝使用工具的人主要是资深与 Staff 级工程师),产能差距巨大,导致绩效评估出现警报。两个同级别的工程师,其生产力可能相差十倍,这让管理层非常惊慌,因为他们甚至可能不得不裁掉 50% 的工程师。

 

这种情况类似瑞士机械表产业的衰落:经历数百年的辉煌,却被石英表在短短几年内颠覆,当时的工匠与今天坚持传统方式的资深工程师反应如出一辙。

 

未来需要的是一种全新的 UI,不是传统 IDE,而是新的 IDE。事实上,Replit 已经走得最前,他们的方向非常值得称赞。我们不该再继续追着旧形态、构建各种命令行界面。

 

更重要的是,Claude Code 及其竞争者都走错了方向——它们像在打造“世界上最大的蚂蚁”。

 

我的朋友、澳大利亚联邦银行的 Brendan Hopper 说得很好:自然界靠蚁群协作,而 Claude Code 却造出一只巨大、耗能、高成本的“肌肉蚂蚁”。无论是要分析整个代码库,还是只是问“我的 git ignore 还在吗”,它都调用最昂贵的模型。

于是我想到了“潜水员隐喻”:上下文窗口就像氧气瓶。现在的模型本质上是派一个潜水员下去,让它在代码库里四处探索,即使给它更大的氧气瓶,比如一百万 token,它仍会耗尽。正确做法应该是派多个角色:产品经理潜水员、开发潜水员、代码审查潜水员、测试潜水员、合并潜水员等,而不是寄希望于一个超大的单一潜水员。可没人这么做,大家都在造“大潜水员”。

 

未来的构建方式将是工程师熟悉的:任务分解、逐步细化、组件化、黑盒化,并依赖大量协作的智能体,而不是单一智能体。

但在此之前,我的建议还是:学习 Claude Code 来适应新方式,并放弃你的 IDE。如果你在明年 1 月 1 日后还在使用 IDE,那你就是一个“不好的工程师”。

Gene Kim:我研究高绩效技术组织已有 26 年,这段旅程始于我作为 Tripwire 的技术创始人。我们致力于研究那些表现卓越的技术组织——它们在项目交付、运维稳定性、安全合规方面都处于领先。我们想理解这些组织如何实现“从优秀到卓越”的转变,以及其他组织如何复制这些成果。

 

在这 26 年中我经历了许多意外,其中最大的意外之一,是这项研究最终将我带到了 DevOps 运动的中心。DevOps 改变了测试、运维、信息安全等角色的协作方式。我曾以为这会是我职业生涯中最激动人心的经历,直到我在今年 6 月首次与 Steve Yegge 见面。

 

我和 Steve 有许多共同点,其中之一就是对人工智能的热爱,以及都认为 AI 将从底层重塑软件开发的方式。我们相信,AI 对技术组织的影响,可能比十年前敏捷、云计算、CI/CD 和移动化所带来的变革大上百倍。而这些技术突破不仅会改变组织,也会重塑整个经济,让经济结构围绕更先进的生产方式重新排列。

 

过去一年半,我们观察了许多案例,让我们提前看到未来技术组织的雏形。有人可能熟悉 Adrian Cockcroft,他曾是 Netflix 的云架构师,主导了 2009 年将 Netflix 整个基础设施从自建机房迁移到云端。他在几个月前写道,2011 年有人提出“无运维(NoOps)”时,引发了基础设施和运维团队的强烈反对,但现在类似的事情再次发生,只不过这次可能叫“无开发(NoDev)”。如今看来,这似乎不再好笑。

 

我们从 Zapier 的分享中看到,支持团队能发版,设计师能发版,UX 设计也能直接发版。过去被开发者告知“排队、等一个季度、等一年、甚至永远等不到”的人,现在突然能够自己把功能“对话式地”写进生产环境。这不仅改变技术组织,也可能改变整个经济。

 

Steve 和我很幸运能看到部署方式的改变带来什么影响。十年前,我写了《The Phoenix Project(凤凰项目)》,讲述灾难性的部署流程。当时许多组织一年只发布一次版本,难以想象。后来我参与了 DevOps 状况研究,这项跨行业研究在 2013–2019 年间覆盖了 36,000 名受访者。我们发现,高绩效团队每天能多次部署,并能在一小时内完成一次发布。

 

在 2009 年,多次每日部署被视为鲁莽、不负责任甚至“不道德”,但如今却是常态。若想保持高可靠性、缩短平均修复时间,就必须更频繁地进行更小规模的部署。现在我们看到的案例表明,不再手写代码,而是运用新的方式进行开发,可能是一种价值更优的路径。

 

我们在《Vibe coding》一书中提出的定义是:只要不是靠双手在 IDE 里敲代码的方式,都可以称作“Vibe coding”。有些人还像在暗房里冲洗照片一样,依旧习惯在昏暗环境里手动输入代码。但 Anthropic 联合创始人兼 CEO Dario Amodei 给了我们更好的定义:Vibe coding 是由反复对话推动的、由 AI 生成代码的过程。他说这个词很美,能表达一种全新的开发方式,但也略带戏谑。不过对他们而言,这已经是“唯一的方式”。

 

这是编程语言领域的重要人物 Erik Meijer 博士,他参与过 Visual Basic、C#、Haskell,也在 Meta 推出了 Hack 编程语言,在一年内迁移了数百万行 PHP 代码,引入静态类型检查。他说,我们可能是最后一代手写代码的开发者,所以应该享受这一段最后的旅程。

 

还有一件事是这样的:去年 11 月开始,我一直在观察 Steve,他每天在编码代理上花掉几百美元。这在当时看起来非常奇怪。他不仅把各种月度订阅都用到了上限,实际上还远远超出了这些额度。

但现在我们听到的一种说法是:作为一名工程师,我的工作本身就应该要求我每天在 token 上的花费,和我的日薪大致相当。也就是说,大概每天 500 到 1000 美元。因为这些工具带来的,是一种机械优势和认知优势。作为工程师,我会挑战自己,去榨取这种投入所能带来的最大价值,把成果交付给真正重要的人。

在书中,我们把人们为何愿意这样做总结成一个缩写:FAAFO。

第一个 F 是 Faster(更快),但这是最表层的理由。

 

更重要的是 A-Ambitious(雄心),AI 让我们得以完成过去无法实现的雄心项目,把不可能的事情变得可能。在另一端,琐碎麻烦的小任务也几乎变成了零成本。我非常喜欢 Claude Code 团队中的一段采访,Katherine 说,以前客户问题会被放进 Jira 的待办项,在梳理会议中争论,一拖数周;而现在我们直接在当下修复,并在 30 分钟内发布。记录依然会做,但协调成本几乎完全消失了。也就是说,不可能的事情变得可能,麻烦的小事变得免费。

 

第二个 A 是 Able(能力),代表“更独立”,更能单独完成工作。这里有两类协调成本正被 AI 消除。第一类协调成本来自“等待”。如果你需要开发者或一个团队帮你做事,你必须沟通、协调、同步、排优先级、游说、升级……总之必须让他们“和你一样在乎这个问题”。而现在,依靠这些近乎奇迹般的新工具,你可以自己完成许多工作。第二类协调成本来自“理解”。即使别人愿意像你一样重视某件事,他们也无法读你的心。但我们发现,LLM 是惊人的“协作中介”。仅通过一个 LLM,你就能以 Markdown 文档的形式与不同职能顺畅协同。这当然不是最终形态,但它让高带宽的理解成为可能。因为要想实现共同的成果,就必须先有共同的目标与共同的理解。

 

第二个 F,是 Fun(好玩)。正如 Steve 所说,Vibe coding 具有成瘾性。我们见过两个人原本以为“写代码的黄金时代已经过去了”,结果却意外发现现实恰恰相反。我现在常常玩得太投入,不逼自己去睡就会写到凌晨两三点。它不是只有好的一面,但肯定比无聊、枯燥甚至痛苦要好得多。

 

O 是 Optionality(可选项)。我们非常重视“创造期权价值”。模块化之所以强大,也因为它能创造更高的期权价值。Vibe coding 能让你同时进行更多实验、更多尝试,因此它是极具经济价值的工具。Steve Yegge 说,对于已经经历“顿悟时刻”的人来说,本能反应往往是:如何让团队中所有人都获得与你现在同等的生产力?

 

下面我分享一些让我们看到未来形态的案例。

 

例如,Travelopia 的产品与技术负责人 Sree Balakrishna 的分享。Travelopia 是一家年营收 15 亿美元的旅行企业。他们曾用一个小团队,在 6 周内替换一套传统系统。按过去的方式,需要 8 人(6 个开发、1 个 UX、1 个产品负责人);而现在,也许只需要一个开发与一个领域专家,正如 Kent Beck 所说,“一个有问题的人加一个能解决问题的人”。这种团队规模的变化会深刻影响组织未来的运作方式。

 

我最兴奋的案例来自 Dr. Tapabrata Pal。他在 Capital One 推动过 DevOps,如今在 Fidelity 负责一个关键应用,用来查询公司 2.5 万个应用中哪些受 Log4j 影响。过去他的团队总说重新做这个工具需要 5 个月,并需招聘前端工程师。

 

最终他自己花 5 天 Vibe coding 出了一个版本,并上线生产。他只是想证明:事情完全能做,而且可以更快完成。后续更戏剧的是:他为应用找维护者,资深工程师们都不愿接手,最后是团队中最年轻的工程师成为维护者,并正在快速成长。

 

与此同时,这个应用的内部用户数量增长了 10 倍,他也因此获得更多人手。这些变化是任何人都没预料到的。

 

再分享一个例子,我重返 Google Cloud 团队做的 Dora 研究,其中一项未进入正式报告的发现是关于“AI 信任度”。我们采用的信任定义是:你能多大程度预测对方(AI)的行为?越信任,就能给更大请求,用更少词语,减少反馈需求。结果显示:使用 AI 的时间越长,信任越高。那些说“我试了一下,它写代码很差”的人,多半只用了 1 小时。显然,AI 的掌握是可训练的技能,需要实践,而不是一次性体验。

 

因此,我们的责任之一,是帮助他人获得“顿悟时刻”,并协助他们不断练习,从而真正掌握这些强大的工具。

 

六周前,Steve 和我为领导者们做了一次 Vibe coding 工作坊。三小时内,完成率 100%,每个人都做出了成果。还有一位,他说自己 15 年没写代码了,却在短时间内做出一个自动帮自己抢 Southwest 登机位的工具(直到被反机器人系统封掉),你从他脸上的表情就能看到那种久违的创造力被重新点燃。

所以,当支持团队、领导者能编码并上线时,技术组织必然会重塑。

 

一个技术领导者说,当他告诉团队他写了一个应用,其中 6 万行代码都是 AI 写的,而他自己一行没看时,团队看他的眼神仿佛“希望他不存在”。

 

另一个例子,一些存在十年的遗留系统问题,团队集合资深工程师,用 AI 生成修复方案并提交 Pull Request。这次被接受了,而不像过去那样被污名为“AI 生成的低质量内容(AI slop)”。还有团队说,他们现在的代码提交速度如此之快,以至于每个代码仓库只能容纳一个工程师,否则合并冲突会让协作成本爆炸。

 

参考链接:

https://www.youtube.com/watch?v=cMSprbJ95jg&t=4206s

 

现在,大模型可以独立写完整整一个浏览器了?

 

Cursor CEO Michael Truell 最近分享了一项颇为吸睛的实验:他们用 GPT-5.2 让系统连续不间断运行一周,从零构建出一个“可用”的 Web 浏览器。按他的描述,产出规模达到:超过 300 万行代码、横跨数千个文件,全部通过这套 AI 驱动的编程平台生成。

 

数百个 Agent “从零”写了一个浏览器?

 

按照他的说法,这个项目并没有依赖现成的渲染引擎,而是用 Rust 从零实现了一整套渲染引擎,其中包括 HTML 解析、CSS 级联规则、布局计算、文本排版(text shaping)、绘制(paint)流程,甚至还实现了一个自定义的 JavaScript 虚拟机。

 

Truell 也坦言,这个浏览器目前只是“勉强能用”,距离 WebKit 或 Chromium 等成熟引擎还有很大差距;但团队依然“感到震惊”,因为简单网站在它上面渲染得很快,而且整体效果在很大程度上是正确的。

 

与此同时,Cursor 还发布了一篇博客文章,题为《Scaling long-running autonomous coding》(扩展长时间运行的自主编程)。文章回顾了一系列实验:让“编程 agent 连续自主运行数周”,目标是“理解在那些通常需要人类团队耗费数月完成的项目中,agentic coding 的能力边界究竟可以被推进到什么程度”。

 

在这篇文章里,他们重点讲的是多 Agent 如何协同:如何在单个项目上同时运行数百个并发 Agent、如何协调它们的工作,并观察它们写出超过一百万行代码和数万亿个 token 的过程与经验。

 

Cursor 先承认了单个 Agent 的局限:任务规模一大、依赖一复杂,推进速度就会明显变慢。并行化看似顺理成章,但他们很快发现,难点不在并发,而在协同。

 

“学习如何协同:我们最初的方法是让所有 agent 具有同等地位,并通过一个共享文件自行协同。每个 agent 会检查其他 agent 在做什么、认领一个任务并更新自己的状态。为防止两个 agent 抢占同一项任务,我们使用了锁机制。

 

这一方案在一些有趣的方面失败了:

 

agent 会持有锁太久,或者干脆忘记释放锁。即使锁机制正常工作,它也会成为瓶颈。二十个 agent 的速度会下降到相当于两三个 agent 的有效吞吐量,大部分时间都花在等待上。

 

系统非常脆弱:agent 可能在持有锁的情况下失败、尝试获取自己已经持有的锁,或者在完全没有获取锁的情况下更新协调文件。

 

我们尝试用乐观并发控制来替代锁。agent 可以自由读取状态,但如果自上次读取后状态已经发生变化,则写入会失败。这种方式更简单、也更健壮,但更深层的问题依然存在。

 

在没有层级结构的情况下,agent 变得非常规避风险。它们会回避困难任务,转而做一些小而安全的修改。没有任何一个 agent 承担起解决难题或端到端实现的责任。结果就是工作长时间在空转,却没有实质性进展。”

 

为了解决这一问题,Cursor 最终引入了更明确的角色分工,搭建一条职责清晰的流水线:将 Agent 分为规划者和执行者。

 

“规划者(Planners) 持续探索代码库并创建任务。他们可以针对特定区域派生子规划者,使规划过程本身也可以并行且递归地展开。

 

执行者(Workers) 领取任务并专注于把任务完成到底。他们不会与其他执行者协调,也不关心整体大局,只是全力处理自己被分配的任务,完成后再提交变更。

 

在每个周期结束时,会有一个评审 Agent 判断是否继续,然后下一轮迭代会从干净的初始状态重新开始。这样基本解决了我们的协同问题,并且让我们可以扩展到非常大的项目,而不会让任何单个 Agent 陷入视野过于狭窄的状态。”

 

在此基础上,Cursor 把这套系统指向一个更具挑战性的目标:从零构建一个浏览器。他们表示,Agent 持续运行了将近一周,在 1,000 个文件中写出了超过 100 万行代码(原文如此,跟 Michael Truell 说的 300 万行不同),并将源码发布在 GitHub 上供外界浏览。

 

Cursor 进一步宣称:即便代码库规模已经很大,新启动的 agent 仍然能够理解它并取得实质性进展;同时,成百上千个 worker 并发运行,向同一个分支推送代码,而且几乎没有冲突

 

一场“全民打假”的开始?

 

这次实验之所以引发强烈反应,很大程度上是因为:Web 浏览器本身就是软件工程里公认的“地狱级”项目。

 

它难的不只是“写代码”,而是工作量的量级、模块之间的高耦合,以及兼容性这条几乎看不到尽头的长尾。

 

在 Hacker News 上,有人顺手抛了一个问题:“开发一个浏览器最难的地方是什么?”很快就有人给出一个类比:“说句真心话,这个问题几乎等同于:开发一个操作系统最难的地方是什么?”

 

因为现代浏览器是千万级代码量的系统,能够运行非常复杂的应用。它包含网络栈、多种解析器、frame 构建与回流(reflow)模块、合成(composite)、渲染(render)与绘制(paint)组件、前端 UI 组件、可扩展框架等等。这里面每一个模块,都必须同时做到:既支持 30 年前的旧内容,也支持复杂得离谱的当代 Web 应用。同时,它还得在高性能、高安全前提下尽可能少占用系统资源,并且往往要跨 Mac、Windows、Linux、Android、iOS 等多个平台运行。

 

还有人提到,最难的是那张超长的任务清单。浏览器里包含多个高复杂度模块,每一个单拎出来都可能要做很久;更麻烦的是,它们之间还要通过一套相当“啰嗦”的 API 连接起来——很多接口你必须实现,至少也得先把壳子(stub)搭出来,否则系统就会崩。

 

对这个浏览器项目,Cursor 在博客中写道:“虽然这看起来像是一张简单的屏幕截图,但从头开始构建一个浏览器是非常困难的。”

然而如果外界自己去尝试编译这个项目,会很快意识到:它离“功能齐全的浏览器”还差得很远,甚至看起来在公开代码状态下,连最基本的构建都很难稳定通过。

 

从仓库公开信息来看,近期 main 分支的多次 GitHub Actions 运行结果显示失败(其中还包括工作流文件本身的错误);不少开发者的独立构建尝试也报告了数十个编译错误。与此同时,最近的一些 PR 虽然被合并,但 CI 仍处于失败状态。

 

更有开发者表示自己回溯 Git 历史,往前翻了约 100 个提交后表示,依然没能找到一个可以“干净编译通过”的版本。

 

这也引出了一个问题:这些被 Cursor 描述为在代码库中长期并发运行的“agent”,在工程链路上到底做到哪一步?至少从当前公开状态看,它们似乎并没有把“能编译、能检查”当成最基础的收敛目标——因为无论是 cargo build 还是 cargo check,都会立刻暴露出成片的编译错误和大量警告。

 

而 Cursor 的博客文章除了提供代码仓库链接外,既没有提供可复现的演示,也没有提供任何已知的有效版本(标签/发布/提交)来验证截图。无论如何,这文章本身给人一种原型功能完备的错觉,却忽略了此类声明应有的基本可复现性特征。

 

有人在 Michael Truell 的 LinkedIn 上直接把结果抛了回去:“构建直接失败,报了 32 个错误,代码本身就是坏的;没有任何 release、没有 tag,CI 也在持续失败,我们甚至连这个所谓‘可用的浏览器’都没法编译、没法试跑。这更像是一场营销活动,而不是一次真正的 agentic 实验。”Michael Truell 至今没有回复。

 

目前唯一一个在社交平台上明确分享“复现成功”的人,是前浏览器开发者 Oliver Medhurst。他表示自己花了大约两个小时修复编译错误和漏洞,才把项目跑起来。至于性能,他的评价也很直接:有些页面加载要整整一分钟,“不算好”。

 

还有一个更敏感的追问也随之出现:“所以这真的是从零开始写的吗?”他给出的回应更像一句反转预告:“剧透:不是。”

 

更多网友通过翻看仓库依赖发现,这个项目直接引入了 Servo (一个最初由 Mozilla 开发的基于 Rust 的浏览器)项目的 HTML 与 CSS 解析器(html parser、css parser),以及 QuickJS 的 Rust 绑定(rquickjs),并非所有关键组件都是自行实现。

 

再加上 selectors、resvg、wgpu、tiny-skia 等一系列成熟库,这个“浏览器实验”更像是直接调用了人类编写的代码,而不是“从零开始”的一整套渲染与执行引擎。

 

更搞笑的是,Cursor 这里用的还是一个发布于 2023 年 6 月的 wgpu 0.17 这种非常旧的老版本,而当前最新版本已经是 28(发布于 2025 年 12 月)。大概因为大模型写代码时往往会直接改版本管理文件(如 package.json、Cargo.toml),而不是通过 npm add、cargo add 这类构建工具来引入依赖。

 

这也不怪网友骂他们:

 

“这简直是胡扯。应用根本跑不起来,功能也缺得厉害。LLM 更像是在把它训练过的现成代码拼起来做个浏览器——毕竟 Chromium 本来就是开源的。最后堆出了 300 万行‘看起来很多’但没有价值的代码,结果还不能用,更谈不上什么新产品。折腾到最后,你还是得让开发者花大量时间去调试、排查安全漏洞,才能把它打磨得像一个早就存在的成熟产品。”

 

“两周时间、数百个 agent,V8 和 Blink 又都是开源的。说到底,这就是在浪费 GPU 和电力。”

 

最后值得一提的是,这个实验还暴露出一个不容忽视的问题:成本。

 

有人翻回 Cursor 的原帖指出,他们还在跑类似实验,比如一个 Excel 克隆项目(https://github.com/wilson-anysphere/formula)。GitHub Actions 的概览数据很夸张:累计触发了 16 万多次 workflow 运行,但成功的只有 247 次——失败的主要原因不是代码本身,而是超出了支出上限。

 

当然,Agent 并不在乎预算;但在真实的软件工程里,可复现的构建、可持续的成本、可验证的产出,才决定一个系统最终能不能被信任、被维护、被继续推进。

 

参考链接:

https://cursor.com/cn/blog/scaling-agents

https://news.ycombinator.com/item?id=46646777

https://www.reddit.com/r/singularity/comments/1qd541a/ceo_of_cursor_said_they_coordinated_hundreds_of/

https://www.linkedin.com/posts/activity-7417328860045959169-PFuT/

https://xcancel.com/CanadaHonk

生成式 AI 的投资回报远超预期?Snowflake 调研全球 1900 位企业与 IT 专业人士后发现平均 ROI 高达 41%!点击下载完整报告

在技术发展史上,总会出现一些被反复回望的“拐点时刻”。在 Snowflake 首席执行官 Sridhar Ramaswamy 看来,我们正身处这样的关键节点之中——多年来机器学习与深度学习的研究积累、Transformer 等关键架构的突破,以及云计算规模能力的成熟,在这一刻汇聚,推动人工智能走向真正的产业化阶段。

在这一背景下,Snowflake 邀请了两位深度参与并塑造这一进程的核心人物,共同展开了一场关于 “未来十年 AI 蓝图” 的对话:堪称全球最具影响力的人工智能教育者和先驱者、LandingAI 执行董事长、DeepLearning.AI 创始人吴恩达(Andrew Ng),以及亚马逊云科技 Agentic AI 副总裁 Swami Sivasubramanian,他曾主导 Amazon SageMaker 与 Amazon Bedrock 的构建。

这场对话并未停留在对模型能力的抽象讨论,而是围绕竞争优势、商业模式、工程架构、数据治理以及开发者未来等关键问题,勾勒出一条从战略到落地的清晰脉络。

竞争焦点正逐渐脱离模型本身

围绕“AI 时代的护城河从何而来”这一核心问题,讨论首先打破了一个常见误区:竞争优势并不必然源于模型本身

在吴恩达看来,ChatGPT 这类产品在消费者层面形成的品牌认知,本身就构成了防御壁垒;但在更多行业场景中,护城河往往取决于行业结构,而非 AI 技术能力。例如,借助 AI 加速构建双边市场的平台,其持久性来自平台机制本身,而不是底层模型。

一个重要变化是,软件护城河正在被削弱。过去需要多年、大规模团队才能构建的软件系统,如今在 AI 辅助编程的加持下,其可复制性显著提高。API 调用的灵活性也使开发者能够迅速切换工具,这让“API 即护城河”的逻辑变得愈发脆弱。

Swami 从企业市场的视角补充道:在真实的企业环境中,竞争焦点正从“谁的模型更强”,转向“谁能通过 API 和服务,以更优的性价比,帮助企业真正提升收入或降低成本”。在这个意义上,真正的“最佳模型”,往往是企业自身的商业模式

从订阅制到按量计费:AI 正在重塑软件商业逻辑

在商业模式层面,圆桌讨论也触及了一个正在发生的结构性变化。

过去十余年,SaaS 以订阅制为核心,其背后依赖的是软件接近零边际成本的特性。但在 AI 尤其是智能体场景中,这一前提正在发生变化——推理成本真实存在,且可能随使用规模非线性增长

Swami 指出,当 AI 系统开始代表用户执行任务,且工作负载与用户数量脱钩时,更接近云服务的按量计费模式将变得合理且必要。吴恩达则从开发者体验出发,分享了一个直观感受:AI 编程工具的效率如此之高,以至于开发者愿意为其消耗更多算力和费用,因为由此带来的生产力提升是实实在在的。

这并非简单的定价方式变化,而是意味着 AI 正在重新定义“软件价值如何被衡量和付费”

成功的 AI 架构:产品先行,为不确定性留出空间

当讨论从战略转向工程实践,三位嘉宾形成了高度一致的共识:产品市场契合(PMF)始终优先于成本优化

吴恩达强调,在早期创新阶段,最大的挑战不是控制成本,而是打造用户真正热爱的产品。当 PMF 出现后,工程手段总能在后续阶段将成本曲线重新压低。关键在于,在架构设计之初,就为模型可替换性和技术选择权留出空间。

Swami 从大量初创企业的实践中总结出一条清晰路径:

  • 初期采用通用基础模型快速验证产品;

  • 随着真实负载显现,通过微调、蒸馏、提示缓存优化等手段应对非线性成本;

  • 将模型选型视为可演进的工程问题,而非一次性决策。

在这一过程中,掌控自身数据层被反复强调。将数据牢牢掌握在企业自身体系内,而不是被封装进供应商的“云端密匣”(box in a cloud),是确保未来技术与合作可选性的关键。

非结构化数据的真正解锁:从 PDF 开始

在谈及 AI 应用的下一个增长点时,吴恩达将注意力投向了一个长期被忽视的领域:非结构化数据

在他看来,企业中最具价值、却最未被充分利用的隐性数据,正大量存在于 PDF 文档之中。无论是金融领域复杂的报表,还是医疗行业的各类表单,过去人们对 PDF 的主要交互方式,往往只是简单的关键词搜索。

而如今,借助智能体驱动的文档解析能力,AI 已能够理解复杂表格结构、提取语义信息,并将其转化为可分析、可计算的数据资产。这一变化,正在迅速催生大量新的企业级应用场景。

给开发者的长期建议:回到基础,拥抱创造

在圆桌的最后,讨论回到了一个更具情绪张力的话题:年轻开发者在 AI 浪潮下的焦虑

Swami 指出,行业在某种程度上混淆了“编程”与“计算机科学”。即便 AI 能生成大量代码,对底层原理的理解,编译器、数据库、系统架构、数学与统计基础,依然不可替代。历史经验表明,每次技术变革初期都会经历短暂低谷与普遍焦虑,当前正处在类似阶段,但最终带来的是更大规模的创造者群体。

吴恩达则将这一判断推向更积极的方向:这是一个前所未有的创造窗口期。构建产品所需的时间和成本正在大幅降低,而 AI 辅助编程让“学习编程”本身变得更具现实意义和乐趣。

正如 Sridhar Ramaswamy 在圆桌结束时表示,未来无需被动等待,当下的我们比以往任何时候都更有能力去进项创造 。

原视频地址:https://www.snowflake.com/en/build/americas/agenda/?login=ML

点击链接立即报名注册:Ascent - Snowflake Platform Training - China

demo-interactive-flow


交互式提示词生成流程

支持带附件(图,docx,pdf)对话优化提示词


多轮问题导向优化提示词
demo-template-management

Question

无论是复杂任务,如论文精度,汇报 PPT 大纲制作,深度搜索调研,还是 agent.md
还是简单任务,比如 linux 命令生成,旅游规划,text2img 绘图
我都体验过很多万能的模板,也体验了生成提示词的提示词优化器,然而他们都无法满足我的需求
这并不是这些提示词不行,而是并不适合我
我想,只有一个模板,他能通过交互式的方式适配到我的业务或需求上,这种方式的模板才真正万能
然而据我所知,市面上并没有这样的一款工具,因此,我开发了这样一款纯前端项目

Quote

一句话介绍: 通过多轮交互式对话,将模糊想法转化为结构化、高质量的 AI 提示词

在线体验

【免费免部署免配置体验】一个更贴近日常使用的交互式提示词优化器1 【免费免部署免配置体验】一个更贴近日常使用的交互式提示词优化器2

目前配置了免费的 apikey,欢迎测试,感谢 @huan 焕佬的支持,额度有限,大家轻点用
项目地址
如果这个项目对你有帮助,欢迎给个 Star!

核心亮点

1. 智能交互引导

不需要你是提示词专家,AI 会主动询问:

  • 你的角色定位是什么?
  • 目标受众是谁?
  • 需要什么深度的内容?
  • 期望的输出格式?

通过交互式表单,几次点击就能明确需求!

2. 多模态文件支持

  • 上传 PDF 论文,AI 自动解析内容
  • 粘贴图片截图,AI 理解视觉信息
  • 支持 DOCX、TXT 等多种格式

3. 本地优先 (Local-First)

  • API Key 仅存储在浏览器本地
  • 对话历史使用 IndexedDB 离线存储
  • 无需担心隐私泄露

4. 现代化体验

  • 深色模式支持
  • 响应式设计(移动端友好)
  • 基于 Shadcn/UI 的精美界面

案例展示

案例 1:模糊命令

Example




案例 2:复杂任务

Example

dog food example




对比生成后


然后我有点想选前者

todo

Todo

接入之前看的一个佬的 gemini 网页 2api 项目,实现免配使用
接入 CC/CODEX/ 寸止,进行交互式 Vibe Coding 提示词增强
▢ 提示词收藏与管理
▢ 目前元提示词不是很好,还要优化,一些指令遵从不好的模型,如 grok,会偏离流程
▢ 有些交互 bug
▢ 动画不是很好看
▢ icon 很丑,UI 太大众

碎碎念

其实用别人项目的时候我屁事都比较多,之前用过一个佬的优化提示词,后面用一直没能力也没时间弄出自己的想法,这次总算心一狠弄了出来,项目本身我还是挺喜欢的,至少满足了我的需求

这个项目从前天想到到今天上线弄了三天,中间被老板因课题没进度批了一顿,还差点放弃开发,没想到前端项目还开发这么久,可能还是没有前端基础导致,连一个 AI chat ui 的 AI 返回一直白屏都让 cld 用 playwright 和反重力的 gemini 3 pro high 改了一天,不过做出来还是成就感满满,毕竟站在 AI 的肩膀上很快从想法到实现了个稍微复杂的项目,并且自我感觉比较完善

技术细节

一共花费挺少的,反重力 0 成本,cld 这边大概花了 10 块吧



目前用的 ccg 工作流,但是一直没成功调用 codex,gemini,以及寸止,playwright 等 7 个 mcp,由于是纯前端项目,需要不断交互,主要用到前两个,ace 相关 mcp 也偶尔用到,anycode 不怎么用,之前以为跟 ccg 有冲突就没用,一般用开箱未配置的 wezterm


参考项目

  1. smkalami/prompt-decorators: Prompt Decorators are structured prefixes, such as +++Reasoning and +++StepByStep, designed to enhance AI responses. Inspired by Python decorators, they make AI outputs more logical, accurate, and well-organized without requiring lengthy instructions, simplifying interactions for users.
  2. GitHub - anthropics/prompt-eng-interactive-tutorial: Anthropic's Interactive Prompt Engineering Tutorial
  3. GitHub - tranzwalle/prompt_builder: 基于 [Anthropic 的 Interactive Prompt Engineering Tutorial](https://github.com/anthropics/prompt-eng-interactive-tutorial) 构建的智能 Prompt 优化工具。
  4. GitHub - xavierchoi/Prompt-Enhancer
  5. GitHub - lwh8915/PromptX: PromptX 不仅仅是一个提示词存储工具,它是专为 AI 时代打造的生产力神器。采用 UI/UX Pro Max 设计标准,结合强大的 版本管理 和 智能分类,让你的 AI 工作流效率提升 10x。
  6. GitHub - Hunyuan-PromptEnhancer/PromptEnhancer: PromptEnhancer is a prompt-rewriting tool, refining prompts into clearer, structured versions for better image generation.
  7. GitHub - songtingze/prompt-optimizer: 大模型提示词优化器,让大模型根据测试结果进行反思生成优化建议,并结合用户要求进行提示词优化。
  8. GitHub - linshenkx/prompt-optimizer: 一款提示词优化器,助力于编写高质量的提示词

参考帖子

  1. 新人水帖,一个提示词优化器项目 - 开发调优 - LINUX DO
  2. 提示词优化分享 - 递归自优化生成系统 - 开发调优 - LINUX DO
  3. 「SSRPrompt」为了方便内部项目的 prompt 管理,产品经理设计了这款开源软件 - 开发调优 - LINUX DO
  4. 【提示词工程】分享那些我认为好用的, 我在用的, 我愿意推荐的提示词 - 文档共建 - LINUX DO

📌 转载信息
原作者:
systemoutprintlnhell
转载时间:
2026/1/16 18:50:38

空闲时间搓了一个可自托管的 GitHub Stars 管理工具,项目大幅使用 vibe codeing,claude opus 贡献了百分之九十五的代码,开源地址:Starflow

Github 自带的 star 功能个人觉得并不好用,尤其是 list,整理起来非常地繁杂,同类项目很多都没有更新,或者是不喜欢这样那样的界面,故有了此项目。

我自己在一个小鸡上也部署了这个项目,占用大致一百多 MB,地址 Starflow, 可以在线试试,登录的话默认会读取私库!,介意请勿登录,自行托管即可。

功能特性

核心功能

  • Lists 分类管理 - 创建自定义 Lists,将仓库按项目、技术栈或用途分类,支持 24 种预设颜色
  • AI 智能分类 - 接入 OpenAI 兼容 API,一键自动分类所有未整理的仓库
  • 双向同步 - 与 GitHub 实时同步,取消 Star 也会同步到你的账号
  • README 预览 - 无需跳转即可查看仓库的 README 文档

搜索与筛选

  • 全文搜索 - 按名称、描述快速搜索仓库
  • 多维筛选 - 按语言、List、星标数、更新时间等筛选
  • 排序方式 - 支持按 Star 时间、更新时间、星标数等排序

数据管理

  • 笔记备注 - 为仓库添加个人笔记,记录使用心得和备忘
  • 导入导出 - 支持 JSON/CSV 格式导出,便于备份和迁移
  • 数据持久化 - PostgreSQL 存储,支持数据目录映射便于备份

用户体验

  • 主题切换 - 支持亮色 / 暗色模式,偏好自动保存
  • 键盘快捷键 - 支持快捷键操作,提升效率
  • 响应式设计 - 适配桌面和移动端

预览

🌙 暗色模式


☀️ 亮色模式



支持自托管,支持 docker-compose 部署,具体部署比如环境变量配置详情可以查看项目 Github README:

services: starflow:  gemiluxvii/starflow:latest container_name: starflow restart: unless-stopped ports: - "3000:3000" environment: - DATABASE_URL=postgresql://starflow:starflow@db:5432/starflow - GITHUB_CLIENT_ID=${GITHUB_CLIENT_ID} - GITHUB_CLIENT_SECRET=${GITHUB_CLIENT_SECRET} - NEXTAUTH_SECRET=${NEXTAUTH_SECRET} - NEXTAUTH_URL=${NEXTAUTH_URL} depends_on: db: condition: service_healthy db:  postgres:16-alpine container_name: starflow-db restart: unless-stopped environment: - POSTGRES_USER=starflow - POSTGRES_PASSWORD=starflow - POSTGRES_DB=starflow volumes: - ./data/postgres:/var/lib/postgresql/data healthcheck: test: ["CMD-SHELL", "pg_isready -U starflow"]
      interval: 5s timeout: 5s retries: 5 


AI 分类

Starflow 支持接入 OpenAI 兼容的 API 进行智能分类。

支持的服务

  • OpenAI 官方 API
  • 第三方中转站
  • 本地部署的 Ollama、LocalAI 等

配置方式

  1. 进入「设置」页面
  2. 在「AI 分类」部分填写:
    • API 地址(如 https://api.openai.com 或中转站地址)
    • API Key
    • 模型名称(如 gpt-3.5-turbo
  3. 点击「测试连接」验证配置
  4. 启用 AI 分类功能

分类说明

  • 提供 15 种标准分类:AI 工具、代理工具、CLI 工具、前端、后端、数据库、DevOps、编辑器、开发工具、下载工具、媒体工具、安全工具、学习资源、系统工具、其他
  • 支持单个仓库分类和批量一键分类
  • 优先匹配已有 Lists,减少重复分类


技术栈

  • 前端: Next.js 15, React 19, Tailwind CSS 4, Radix UI
  • 后端: Next.js API Routes, NextAuth.js 5, Prisma 5
  • 数据库: PostgreSQL
  • AI: OpenAI 兼容 API


佬友也可以提提建议,喜欢的话点个 star,不胜感激


📌 转载信息
原作者:
GEMILUXVII
转载时间:
2026/1/16 18:49:18

前因:

上次有佬友问如何自动定时同步上游仓库,当时我随手糊了一段脚本,结果发现 bug 满天飞,于是删除了。同时也推荐了 pull 这个工具,但是这个工具的同步比较随机,不可控。
于是就搞了现在这个脚本,支持多仓库、多用户、多分支、多平台通知

食用方法:
fork 仓库,然后根据 README.md 进行配置。
上游仓库:可以是任意公开仓库
目标仓库:可以是任意用户的仓库(需要具备 repo 权限的 token)

目标仓库支持你 fork 别人的,不影响 pr、创建分支等。也可以你自己创建一个空仓然后搬运。

该脚本运行于 GitHub Aactions,运行后的 actions 日志会显示上游仓库地址、目标仓库 owner/repo,但是不会暴露各种 token 等私密信息。可以把仓库设置为私密,不影响同步功能和效果。

推送的消息如下:


📌 转载信息
原作者:
binghe
转载时间:
2026/1/16 17:41:31

代理人

代理

CC UI


📌 转载信息
原作者:
xiaola1
转载时间:
2026/1/16 17:41:17

一、背景介绍
因为最近换了联通卡,发现联通流量特别不经用,虽然看着有 100G,但是半个月不到就完了。所以只能搞一些骚操作了
这个就是以前的免流,效果各地区不一样,我这边重庆效果挺好。因为我的手机是 IOS,所以跳点挺高(推测是因为 IPV6 导致),所以标题给了一个省流
二、实现途径
在 VLESS 中,通过修改 HOST 地址为 pull.free.video.10010.com,走联通的公免流量达到免流效果(客户端和服务器都要修改,有些机场支持自定义 host)。


有国内服务器的可以上国内服务器,这样日常体验上基本无感。我没有国内服务器,只有通过联通办理的家宽(有公网 IP)来搭建 V2 服务器,日常使用上也是没什么差异。
V2 上还可以做分流操作,免流 + 翻墙一站式解决。
附上一个效果图


PS: 各位多点点赞让我赚点 LDC 呀


📌 转载信息
原作者:
revivable3066
转载时间:
2026/1/16 17:40:43

啥叫 UI 的 AI 味?

让我们先给 AI 一个 “正常产品经理 / 设计需求文档级别” 的需求描述,不做人为干预(让他自由发挥一个)
需求提示词(GPT 生成):

然后我们分别交给 gemini-3-pro-preview,claude-opus4.5,gpt-5.2-codex-high
以下是养蛊的过程:

上图!

各个模型完全不加任何 UI 样式要求版本:

Claude-opus-4-5、


gemini-3-pro-preview



gpt-5.2-codex-high





在不加任何限制词的情况下,AI 生成 UI 时暴露出的典型「AI 味」

1. 渐变色本身不是问题,但几乎一定会被用错场景

蓝紫渐变色(tailwindcss 默认设置)还有各种各样的渐变色乱用


这是一种很安全的蓝 / 蓝紫配色上,看起来不难看(但显然有点审美疲劳了已经)

AI 非常喜欢用渐变色来 “兜底视觉效果”,渐变色本来咋用都没啥问题的,可是老是把鲜艳的渐变色直接填充式用在大面积容器、主背景或卡片主体上,你这…。结果就是界面第一眼好看,但信息边界模糊,主次不清。看久了还有点烦躁。

2. 渐变再进一步叠加光泽和玻璃拟态,UI 经常搞这种莫名其妙的 “假高级”

你想:
渐变色 + 高透明度 + 模糊背景 + 发光边缘
界面会迅速变成展示页或概念稿风格。
这玩意,emmm 怎么说呢
虽然我不是啥守旧派,但是架不住啥页面都这个德行

3. 阴影被当作装饰,而不是层级工具

AI 生成的 UI 里,阴影我甚至觉得是在乱用,但又没靠这玩意儿区分明确的层级职责。不同卡片、弹层、操作区使用相同强度和样式的阴影,导致 “所有东西都在浮起”,这效果叫啥来着?
算了,反正就是实际上看着很别扭

4. 卡片边界过弱,依赖背景和阴影勉强区分内容

上面说到了阴影,然后也跟这个情况有关,边界太弱了,AI 搞的界面里面,卡片要么使用极浅的边框要么完全没有边框,只靠背景色差或阴影与页面区分。我偶尔搞个白色或浅灰背景下跟我带着眼镜在大冷天吃拉面一样
我是真看不清,内容混在一起,都不用说阅读疲劳的问题了
你这玩意儿已经伤害我的眼睛了

5. 纯白卡片被大量使用,页面整体显得 “轻而薄” 还散装

上面说了卡片,不只是单个卡片有问题,AI 生成的基本上都是一堆的散装卡片。
尤其是使用纯白背景的卡片。
只要你生成的时候需要一个 “干净、现代” 的样式,这绝对是一写一堆,拉的到处都是
纯白卡片一旦数量增多,就会显得缺乏质感和层次,页面整体像一张尚未完成填充的线框稿。

而且页面利用效率有问题,就是有些页面第一眼很 “干净”,但第二眼发现内容其实很少
卡片很大、留白很多、排版很松,看着舒服,但是你仔细看会发现屏幕被浪费得非常严重,更像展示页而不是能用的工具,这点我觉得 Claude 和 GPT 写的还是行的,东西至少不少。

6. 装饰性细节被平均分配,导致没有视觉节奏(这个观点是 GPT 帮我总结的,我实在不知道咋描述)

小渐变块、色条、图标背景、装饰点缀被均匀地撒在页面各处,每个模块都想 “精致一点”,但没有任何地方真正承担视觉焦点。最终页面没有节奏,只有装饰堆积。
人话:“这些莫名其妙的小组件,丢这些地方干什么??用么没什么用,放着嘛多余,删了嘛又觉得缺点东西”

7. Emoji 或偏卡通风格图标被当作功能图标使用(这个是我最不能忍的)

AI 生成的 UI 只要你不要求,emoji 或拟物感较强的图标会被直接用于功能入口。
讲真的,这玩意儿我也就是发个帖子发个消息会加
甚至我都不会用那些很有年代感的 emoji

8. 正常用图标,图标风格也会混杂,缺乏统一的视觉语言

即便不用 emoji,AI 也经常在同一界面中混用线性、填充、双色甚至插画风格的图标。

单个看都你不会觉得有啥问题的,放在一起就不行了。

9. 为了显得 “高级”,过度叠加多种视觉效果

渐变、阴影、圆角、描边、模糊、透明度同时出现。
第一眼惊艳,第二眼疲劳,第三眼开始觉得乱。

10. 整体视觉看起来完整,但缺乏真实使用感

这些 UI 看起来像是 “已经设计完成的后台”,但更像展示用的样例界面。
看着是 “做完了”,但真点两下就会觉得是 “没开始”。

人话总结:

AI 生成 UI 的最大问题不是用了什么效果,而是它不知道什么时候该不用这些效果。反正你也没说不能用,那直接用了好了

那我是从什么时候开始写「限制词」的?

其实一开始我也没想过要 “限制” AI,我个人是真没啥艺术细胞
毕竟 AI 画出来的 UI 第一眼都挺好看,说实话比不少人自己糊的还顺眼。

问题出在第二眼、第三眼、以及真正开始用的时候。

渐变色越来越多、阴影越来越重、光泽和玻璃拟态开始乱飞,直接开始污染我幼小的心灵,
然后接着图标开始不讲武德地混风格,
emoji 开始混进功能入口里。

这些东西单独看都不算错
(蛐蛐一下:md, 其实单看我都觉得错)

当这个 UI 瞅着开始不再像一个 “被长期使用的工具”,更像一个… 像一个小红书水文

更 TMD 要命的是:这些问题反而是 “稳定复现” 的

其实用久了就会发现一个鬼故事:

  • 换模型也好
  • 换需求也好
  • 换业务类型也好

只要不加约束,这些 AI 味几乎必定会出现。

这就说明问题不在某一个模型,
而在于 ——
这是当前模型默认理解里的 “好 UI”。

他把他知道的最好的东西都给你了,你还能怎么样?


所以我开始反着来:不再告诉它我要什么,而是直接告诉它 “不能干什么”

从那之后,我写 UI 相关 Prompt 的方式彻底变了:

  • 都不用一上来写设计原则
  • 也不用写 “高级”“现代”“好看”
  • 而是先把这些 稳定复现的 AI 味,一条一条禁掉

比如:

  • 你老爱用渐变?那我就先说别用
  • 你老爱上光泽和玻璃?先禁
  • 你老爱用 emoji 当图标?直接点名不许
  • 你老爱堆卡片?那我就先卡你

不是我对这些效果有意见,而是它们在工具 UI 里出现得太频繁了。

好吧我就是有意见


那问题来了:如果我把这些已知的 AI 味禁掉,UI 会变成什么样?

接下来我做了一个对照实验。

不换需求、不换页面、不换模型,
只在 Prompt 里明确禁止前面提到的那些 “稳定复现的 AI 味”。

不追求完美,也不追求设计感,

UI 会不会比之前的更像一个印象里面的 UI?

对照实验:只靠「禁止」,UI 能变成什么样?

二次养蛊开始:


追加的 prompt 很简单:

下面的修改是在【你刚刚生成的 UI 页面基础上进行】,
请保持页面结构、信息架构和功能不变,
只对视觉样式和表现方式进行调整。


请注意:
- 不要重新设计页面结构 - 不要新增或删除功能模块 - 不要改变布局层级或信息顺序 - 不要重新组织页面内容


在本次修改中,请明确禁止以下视觉表现:

- 禁止使用蓝紫渐变色及类似风格的渐变 - 禁止使用玻璃拟态、光泽、高透明模糊背景 - 禁止将 emoji 作为功能图标或装饰元素 - 禁止大面积纯白卡片堆叠 - 禁止无实际信息意义的装饰性组件


你可以:
- 使用纯色或低饱和背景色 - 使用统一风格的 SVG 图标 - 使用适度阴影建立层级关系 - 使用少量强调色突出关键操作


目标不是追求视觉冲击,
而是让界面更接近一个会被长期使用的工具型 UI。

① 明确这是「基于现有页面的修改」
② 明确「不允许的行为」(禁止重构,先不让彻底重构)
③ 列出「禁止项」(就是刚才咱们总结的 AI 味)
④ 给 “最低限度的自由空间”(防止他钻牛角尖),也就是防止 AI 因为被禁太多而做出 “难看 UI”

上图!

各个模型加上 UI 禁止项的生成版本:

Claude-opus-4-5


gemini-3-pro-preview


gpt-5.2-codex-high





这次养蛊大家都有变化,不过 GPT 这次是完胜的,这 UI 比剩下的两个更好

原因是因为第一次版本 gpt 的就比另外俩打版打的好

接下来我允许:

重新设计页面结构
新增或删除功能模块
改变布局层级或信息顺序
重新组织页面内容

也就是:

进入「三次养蛊:在去 AI 味前提下,让模型开始真正设计」

使用前提
已经做过「禁止 AI 味」的一轮
现在要:在这些禁止条件仍然生效的前提下,允许 AI 放开重构
这次的 prompt 是:

现在开始第三次生成。

在上一轮中,你已经基于原页面,
在明确禁止部分视觉表现的前提下完成了一版 UI。

在本轮中,你【可以】:
- 重新设计页面结构 - 新增或删除功能模块 - 调整布局层级和信息顺序 - 重新组织页面内容

但请注意:

这仍然是一个【企业级工具型 UI】,
用于长期、高频使用,
不是营销页面、不是展示页、不是概念稿。

在重新设计过程中,以下视觉规则仍然【严格生效】:

- 禁止使用蓝紫渐变色及类似风格的渐变 - 禁止使用玻璃拟态、光泽、高透明模糊背景 - 禁止将 emoji 作为功能图标或装饰元素 - 禁止大面积纯白卡片堆叠 - 禁止无实际信息意义的装饰性组件

你可以:
- 使用纯色或低饱和背景 - 使用统一风格的 SVG 图标 - 使用适度阴影建立清晰的层级关系 - 使用有限且克制的强调色突出关键操作

目标不是追求视觉冲击或设计感,
而是设计一个
「在失去所有廉价高级感之后,仍然成立的工具型 UI」。

请直接输出完整页面方案。

梅开三度,养蛊继续

上图!

各个模型加上 UI 禁止项但放开手脚的生成版本:

Claude-opus-4-5

gemini-3-pro-preview

gpt-5.2-codex-high

对比结果就是各自都有升级,gpt 的把界面删的就剩下这一个了,Claude 是直接重写了属于,Gemini 重写的样式是真不错

前三轮我一直在做一件事:把 AI 的 “默认审美” 压下去。

但光不难看是不够的,真正的产品 UI 还需要 “厚度” 和 “秩序感”。

第四次养蛊,我不再单纯限制,

而是把一些我在真实项目里反复验证过的 “增强 UI 质感的手段” 明确告诉 AI,看它能不能顺着这套逻辑往上走。

为什么还会有第四次养蛊呢?因为我想给 Claude opus 一个机会

虽然刚才 Opus 的生成结果都差点意思,实际上我用他已经做了比较不错的 UI 了,一种没正确发挥水平的感觉,gpt 和 gemini 也一样,总觉得没发挥真实水平

比如下面这个是我昨天刚用 Opus 做的应用的截图:

第四次养蛊开始:

开始加一点 “人类设计师才会在意的细节引导”,
并且要求 AI 把整个系统的页面一次性补齐,
看他能不能真正把一个产品原型做完整。
示例 Prompt(原则嘛就是基于刚才那些原则从零彻底开始):

现在开始一次全新的 UI 生成。

请注意:本次不是在已有结果上修改,
而是【从零开始设计并实现一个完整的前端 HTML 项目】。

---

## 项目目标

设计并实现一个【企业级工具系统 / 会员中心 / 管理后台】,
面向长期、高频使用的真实用户。

这不是营销页面、不是概念稿、不是组件示例,
而是一个“看起来就可以继续开发和交付”的前端项目。

---

## 交付物要求(非常重要)

你需要输出的是一个【前端项目级结果】,包括:

1. 清晰的项目目录结构说明
2. 多个页面级 HTML 文件(不是单页)
3. 拆分的 CSS 文件(统一设计语言)
4. 拆分的 JS 文件(只处理基础交互)

示例结构(仅作说明,可自行调整):
- index.html(工作台 / 概览)
- products.html(功能或套餐页)
- detail.html(详情页)
- settings.html(设置页)
- assets/css/style.css
- assets/js/app.js

---

## 样式与视觉规则(限制项)

在本次生成中,请**明确禁止**以下表现:

- 禁止使用蓝紫渐变色或默认 Tailwind 风格渐变
- 禁止玻璃拟态、光泽、高透明模糊背景
- 禁止使用 emoji 作为功能图标或装饰元素
- 禁止大面积纯白卡片堆叠
- 禁止无信息意义的装饰性组件
- 禁止为了“显得高级”而叠加多种视觉效果

---

## 视觉风格引导(允许且推荐)

在遵守以上限制的前提下,**推荐使用以下设计方向**:

1. 浅色但非纯白的背景体系(如浅灰、灰白)
2. 明确的“盒子感”设计:
   - 使用边框、背景、间距建立层级
   - 阴影只作为辅助,不作为主要分层手段
3. 允许使用“有岗位的花活”,例如:
   - 图标容器样式
   - featured / 推荐模块
   - 状态背景、进度条、徽章
   但这些花活只能出现在关键模块上,不能平均分布
4. 允许使用低饱和、低对比的层次变化或微渐变,
   仅用于模块内部或状态表达
5. 图标统一使用线性 SVG 风格,风格保持一致
6. 页面信息密度以“效率优先”,
   合理利用横向空间,避免单列堆叠

---

## 页面与内容要求

- 每个页面都应是“可用页面”,不是占位结构
- 页面之间需要体现功能差异,但保持统一视觉语言
- 页面结构、模块组织、信息顺序可自由设计
- 允许自行决定需要哪些页面和模块,只要合理

---

## 最终目标

生成一套:

- 从零设计
- 项目级结构清晰
- 视觉上不存在明显 AI 味
- 同时具备设计感和工具属性

的【企业级工具系统前端 HTML 项目】。

请按“项目级输出”的方式给出结果。


上图!

各个模型第四次养蛊生成版本:

Claude-opus-4-5

gemini-3-pro-preview

gpt-5.2-codex-high

各自有各自的风格,而且我觉得这回真的是哪个模型就生成哪个模型的风格

结论:还是没找全最合适的降低 AI 味道的限制条件


📌 转载信息
原作者:
mistpeak
转载时间:
2026/1/16 16:55:24

项目简介

LinMusic 是一个基于 Vue 3 的在线音乐播放器,支持多平台音乐搜索和 PWA 后台播放。
大家创建的歌单存在 cf 的 D1 中,可以共享(也可以互删歌单 ),所谓的 "一人一首歌" 便捷版。

在线体验:

功能特性

  • 多平台搜索(网易云、酷我、QQ 音乐)
  • PWA 支持,可添加到主屏幕
  • 后台播放,锁屏控制
  • 歌词同步显示
  • 自定义歌单管理
  • 多种播放模式
  • 歌曲下载

技术栈

  • 前端:Vue 3 + TypeScript + Vite + Tailwind CSS
  • 部署:Cloudflare Pages + D1(用梯子加载会快点)
web 效果


ios 效果







项目地址,点个 star 嘛

项目音乐 api 来源于 https://linux.do/t/topic/1326425
在此感谢


📌 转载信息
原作者:
Yolon
转载时间:
2026/1/16 16:50:49

基本上需要的功能齐全了

Antigravity+GemeniCLI 双额度
原生 Google_Search
原生大香蕉文生图 图生图

在 opencode 里可以和 Antigravity 里一样自动调用生图工具制作 / 修改项目需要的图片


📌 转载信息
转载时间:
2026/1/16 16:50:22

想让 AI 帮你自动清理电脑、分析股票或者发日报?你需要给它编写一个 Skill (技能)

其实写一个 Skill 并不难,它本质上就是一个配置文件加上一段代码

本文档将手把手教你如何创建一个标准的 Skill,并避开新手最容易踩的坑。

一、 YAML 头部元数据 (Frontmatter)

每个 Skill 的入口文件(通常叫 SKILL.md),由 “身份证” (YAML) 和 “躯干” (文件结构) 组成,最开头都必须有一段被三根短横线 --- 包裹的内容。

这叫做 YAML Frontmatter (头部元数据)

通俗地说,这就是给 AI 看的身份证。AI 通过它来知道这个技能叫什么、能干什么。

1. 一个标准的身份证长这样:

--- name: system-cleaner description: "清理电脑里的垃圾文件,释放C盘空间" tags: ["清理", "系统", "优化"]
version: 1.0.0 ---

2. 这里的每一行代表什么?

td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}

字段类型必填说明
nameString技能 ID。建议使用 kebab-case (小写短横线),如 git-helper。
descriptionString核心 Prompt。智能体依靠这句话来理解技能用途。建议包含具体动词(如 "清理"、“生成”)。
tagsArray关键词列表。用于模糊匹配和分类检索。
versionString版本号。遵循语义化版本 (Major.Minor.Patch)。

二、文件夹要怎么放?(目录结构)

写代码最怕乱。为了以后好维护,建议你按照下面的结构来整理文件。

这就好比把衣服、裤子和袜子分开放进不同的抽屉,找起来才快。

推荐的 “三抽屉” 结构:

my-skill/                  # 你的技能总文件夹
├── SKILL.md               # [身份证] 上面写的 YAML 就放这里
├── scripts/               # [工具箱] 所有的代码脚本放这里
│   ├── main.ps1           # 比如 PowerShell 脚本
│   └── utils.py           # 比如 Python 脚本
├── config/                # [设置] 配置文件放这里
│   └── settings.json      # 比如你想让用户设置“清理哪个盘”,就写在这里
└── data/                  # [仓库] 存放运行结果
    └── logs/              # 如果有日志,就生成在这里 

三、 代码实战 (The Code)

光有配置是不够的,Skill 的灵魂在于代码。

Skill 的本质是命令行工具 (CLI)。智能体通过命令行调用你的脚本,并读取打印的输出。

  1. 实战演练:编写 “Hello World” Skill

我们来编写一个简单的 Python 脚本,它接收一个名字参数,并输出问候语。

  1. 脚本代码 (scripts/main.py)

import argparse
import sys

# 1. 设置参数解析 (让脚本能听懂 AI 的指令) # AI 会以 `python main.py --name "LO"` 的方式调用
parser = argparse.ArgumentParser(description="Greeter Skill")
parser.add_argument("--name", type=str, required=True, help="要问候的名字")

# 2. 解析参数
args = parser.parse_args()

# 3. 执行逻辑 (这里可以写任何业务逻辑)
greeting = f"👋 你好,{args.name}!Skill 运行成功!" # 4. 输出结果 (这是 AI 唯一能看到的东西!) # 必须使用 print 输出。AI 会捕获 stdout 作为执行结果。 print(greeting)
  1. 进阶技巧:健壮性与反馈

  • 错误处理: AI 看不到报错弹窗。如果出错,必须打印错误信息并以非 0 状态码退出。
try:
    # 业务逻辑... except Exception as e:
    print(f"❌ 发生错误: {str(e)}")
    sys.exit(1) # 告诉 AI 任务失败 
  • 依赖管理:如果用了第三方库,请在根目录创建 requirements.txt
  1. 核心连接:配置与交互

你已经建了 config 文件夹,现在教你怎么用它。

2.1 读取外部配置 (Reading Config)

不要把参数写死在代码里!用 json 库读取 settings.json

import json
import os

# 动态找到 config 文件夹 (不管用户把 Skill 放在哪)
current_dir = os.path.dirname(os.path.abspath(__file__))
config_path = os.path.join(current_dir, "..", "config", "settings.json")

# 读取配置
with open(config_path, "r", encoding="utf-8") as f:
    config = json.load(f)

print(f"✅ 读取到配置: {config}")

2.2 与用户对话 (Interaction)

有时候需要问用户 “确定吗?”。

# 1. 打印问题 (AI 会展示给用户) print("❓ 确认执行操作吗?(y/n)")

# 2. 等待输入 (脚本会暂停)
user_input = input().strip().lower()

if user_input == 'y':
    print("🚀以此执行...")
else:
    print("🛑 操作取消")

四、 新手避坑指南 (千万别踩这些雷!)

YAML 这种格式虽然看起来简单,但它脾气很怪。很多新手写代码一次过,却在 YAML 上卡半天。

  1. 它是 “空格控”,严禁使用 Tab 键!

YAML 依靠缩进来分层级。

  • 雷区:千万不要用键盘左上角的 Tab 键来缩进!

  • 正确做法:老老实实按 空格键。一般按 2 下或 4 下空格。

  1. 冒号后面必须有空格

这是最容易被忽略的错误。

  • 错误写法:name:my-skill (冒号后面紧挨着字)

  • 正确写法:name: my-skill (冒号后面加了个空格)

  1. 还有什么要注意的?

  • 路径别写死 (No Absolute Paths):

    • 不要在代码里写 D:\我的项目\scripts 这种绝对路径。别人的电脑可能只有 C 盘。

      • 建议:使用 “相对路径”。也就是告诉程序 “就在当前文件夹的下一级找”。
  • 幂等性 (Idempotency):

    • 脚本应支持重复运行。比如创建文件夹前,先检查它是否已经存在。
  • 自测 (Self-Test):

    • 在提交给 AI 之前,先自己在终端里跑一遍命令:python scripts/main.py --name "Test",确保没有报错。

总结

写 Skill 其实就三句话:

  1. 写好 YAML 身份证,注意冒号后要空格

  2. 把代码和配置分开放,保持目录整洁

  3. 代码里多打印进度提示,方便 AI 理解


📌 转载信息
原作者:
Y_yuHou
转载时间:
2026/1/16 16:50:03

原理跟手动进任务栏调整一致,已经用了一段时间了,没有封过号。
操作方式:进入三角洲(其余游戏同理)后,双击 SGuardLimiter.ps1 或右键选择 PowerShell 运行,会自动弹出管理员确认,选择是就行。

代码

SGuardLimiter.ps1.zip (777 字节)


📌 转载信息
原作者:
Longbin
转载时间:
2026/1/16 16:49:42

Skills 的底层逻辑:从提示词到架构模式

最近 Skills 功能上线了,看到大家都在分享使用教程。

我就不凑热闹发教程了,今天给各位大佬分享一点更底层的东西:Skills 的本质到底是什么?

学不会?没事,学中干,干中学各位,没必要非要知道原理,只要会用即可!!!

下面我用很简答易懂的话讲解了,还不懂就评论问吧!!!

什么是 Skills?

Skills 的本质:Agent 时代的通用架构模式

Skills 不属于任何模型,不属于 MCP,也不属于任何一家科技巨头。

它是 Agentic AI ( 智能体 AI) 发展过程中诞生的一种通用设计 模式 (Design Pattern)

抛开所有无用的内容,来看看具体实现,Skills 的核心逻辑其实很简单,可以用下面这个永恒的公式概括:

Skills = System Prompt (系统提示词) + Trigger (自动触发器) + Executable (可执行文件)

1. 手动模式 vs 自动模式

为了理解 Skills 的适用性,我们回溯到人与 AI 交互的最基本形式。

比如当你想要 AI 帮你写出一段高质量代码时,你通常可能会输入这样一段话:

“你现在是一个资深 Python 架构师,精通设计模式和性能优化。请帮我审查这段代码…”

在这个瞬间,你所输入的对话,其实就是在手动执行一个 Skill。

你通过手动输入,给 AI 设定了角色 (Role)上下文 (Context)

所谓的 Skills,就是把这个过程 “代码化” 或 “自动化” 了。

无论是在 Gemini CLI、Claude Code 还是现在的这些 IDE 中,逻辑都是一样的:

用户将这段 “资深 Python 架构师” 的设定(Prompt)封装成一个独立的模块。

系统告诉模型:“如果用户问代码问题,你就自动加载这个模块,不需要用户每次都手敲。”

2. 为什么系统提示词 (System Prompt) 也能调用 Skills?

你可能会问:模型是怎么知道我有这些 Skills 的?

这就涉及到了 System Prompt 的隐形机制

在对话开始之前,IDE 已经在后台偷偷做了一件事:它把所有可用 Skills 的名字和描述,写进了发给模型的第一条系统提示词里。

这就像是考试前,老师(IDE)给学生(模型)塞了一张小纸条

“考试须知:如果你遇到不懂的代码题,你可以申请查阅‘Python 架构师手册’(即调用 skill: python-architect)。”

正因为系统提示词里预埋了这些指令,模型才能在遇到问题时,理直气壮地 “调用” Skills。

所以,System Prompt 不仅是 Skills 的载体,更是 Skills 的 “目录” 和 “导航”。这也是为什么我在 IDE 不支持的情况下能够将 skills 实现,很早就写出提示词来实现了 skills 这个功能

3. 进阶:Skill 包的解剖学 (Scripts & Assets)

很多高级 Skill(比如 ui-ux-pro-max-skill)不仅仅是一个 Markdown 文件,它往往是一个文件夹

一个完整的 Skill 包结构通常是这样的:

my-complex-skill/
├── SKILL.md          # 大脑:提示词和指令
├── scripts/          # 手脚:Python/Node.js 脚本
│   ├── audit.py
│   └── generate.js
└── assets/           # 素材:图片、模板
    └── logo.png

当 AI 决定调用这个 Skill 时,它不仅会读取 SKILL.md,还会获得执行 scripts/ 下脚本的权限。 比如,AI 可能会运行 python scripts/audit.py 来扫描你的代码,而不是自己瞎猜。

4. 环境悖论:没有 Node 环境会怎样?

这是一个非常现实的问题:

“如果我在 Skills 中设定了调用 Node.js 脚本,但我电脑上没有安装 Node,Skills 会自动下载吗?”

答案是:通常不会。

Skills 是运行在你本地环境 (Local Environment) 中的。

  • Skill 就像是一张游戏光盘。

  • 你的电脑 就像是游戏机。

  • Node/Python 环境 就像是操作系统。

如果你买了游戏光盘(下载了 Skill),但没买游戏机(没装 Node),游戏是跑不起来的。 Agent 尝试运行 node script.js 时,会直接收到系统的报错:command not found: node

虽然现在的 Agent 很聪明,它可能会检测到报错,然后建议你:“检测到未安装 Node.js,请先安装。”

但它通常不敢(也不应该)擅自帮你下载安装这种系统级的 Runtime,因为这涉及巨大的安全风险和兼容性问题。 如何保证能够让 skills 实现下载 node 环境呢?

这里有一个专业的术语,叫 “Runtime Bootstrapping” (运行时引导)

你不应该简单地说 “下载 Node”,而应该在 Skill 的定义中加入一段 “自愈式 (Self-Healing)” 的指令。

专业的话术建议:

“Prerequisite Check & Environment Setup” (前置检查与环境搭建)

“在执行任何脚本之前,请先运行 node -v 验证运行时环境。如果环境缺失,请不要直接报错,而是根据用户的操作系统(Windows/macOS/Linux),生成对应的安装命令(如 winget install brew install),并引导用户完成安装。”

这样做,你的 Skill 就从一个 “会报错的脚本”,变成了一个 “会照顾用户的智能体”。

这也是为什么 ui-ux-pro-max-skill 这个 skills 会有那么多人是使用,因为人在 skills 中照顾到了所有的群体,没有环境,那我就下环境,可以看这个 skills 来实现自己的 skills。

5. 核心辨析:Skills vs MCP vs RAG

在 Agent 的架构中,很多人容易混淆这三个概念。其实它们构成了智能体的 “能力铁三角”

概念本质人体比喻作用
RAG数据 (Data)记忆 / 书本告诉 AI 它不知道的事实(如公司规章、私有文档)。
MCP接口 (I/O)手和脚让 AI 连接外部世界(如读取数据库、操作 GitHub、发送 Slack)。
Skills方法论 (Behavior)大脑皮层教 AI 处理问题的专业思维(如代码审计流程、苏格拉底教学法)。

一句话总结它们的关系:

一个强大的 Agent,会用 Skills (专业思维) 去指挥 MCP (手脚),并参考 RAG (记忆) 来完成任务。

Skills 往往是那个指挥官。它定义了流程,而 MCP 是它调用的工具。

6. 痛点:为什么有些模型 (如 GLM-4.7) 跑 Skills 效果不好?

这其实是目前 Agent 开发中最大的坑:Skills 对模型是有门槛的。

你可能会发现,同样的 Skill,在 gemini 3 flash 上跑得行云流水,但在 GLM-4.7 或 DeepSeek 上却经常 “卡壳” 或 “乱答”。

这背后的原因主要有三点:

A. Function Calling (工具调用) 的微调差异

Skills 的触发依赖于模型输出极其精准的 JSON 格式 指令。

  • Claude/Gemini:经过了海量的 Tool Use 专项微调,它们知道什么时候该 “闭嘴去调工具”。

  • 普通模型:往往有 “抢答” 的毛病。它们看到了 Skill 的描述,却选择直接用自己的通用知识去回答用户,而不是去调用 Skills。

B. System Prompt 的权重问题

Skills 的指令通常是写在 System Prompt 里的。

有些模型在训练时,过分强调了 User Prompt (用户输入) 的权重,导致它忽略了 System Prompt 里的设定。

结果就是:你明明加载了 “资深架构师” 的 Skill,它却还是像个 “普通客服” 一样回答你。

这也就是为什么在国内模型中需要设定很严格的提示词规则!!!

C. 复杂推理链 (Reasoning Chain) 的断裂

执行一个 Skill 往往需要多步操作(思考 → 选工具 → 看结果 → 再思考)。

很多模型在第一步之后就 “累” 了,或者丢失了上下文,导致 Skill 执行到一半就中断了。

结论:Skills 是一种高级玩法,它需要 Agentic Model (代理级模型) 的支持,而不仅仅是 Chat Model (聊天模型),并且要上下文够长才能支持的更好。

6. Skills 是如何跑起来的?

这个模式的成功,依赖于现代 LLM (大语言模型) 进化出的两个通用素质:

A. Tool Use / Intent Recognition (意图识别能力)

这是 Skills 的开关

模型必须具备一种元能力:不仅仅是 “回答问题”,而是能 “判断该用什么方法回答问题”。

当模型意识到:“用户的问题超出了我的通用知识,我需要激活 python-architect 这个专业模块” 时,Skill 就被触发了。

B. Long Context / In-Context Learning (上下文学习能力)

这是 Skills 的容器

当 Skill 被激活时,系统会瞬间将几千字甚至上万字的专业指令(即那个封装好的 Prompt)注入到对话流中。

模型必须有足够大的容量来接纳这些新规则,并立即改变自己的行为模式。

7. 最后的最后

Skills 是 Prompt Engineering (提示词工程) 走向 Software Engineering (软件工程) 的必然产物。

它解决了 AI 应用开发中的一个根本矛盾:通用性与专业性的矛盾

我们不需要一个在每一秒都精通所有领域的臃肿 AI。

我们需要的是一个灵活的调度器,它能根据你的需求,在毫秒级的时间内,从口袋里掏出那个最正确的剧本(Skill),瞬间变身为那个领域的专家。

这就是 Skills。

它是流动的知识,是按需分配的智慧。 感谢各位观看!!!如果有用请多多评论!!!


📌 转载信息
原作者:
Y_yuHou
转载时间:
2026/1/16 16:49:05

在大语言模型(LLM)快速发展的今天,庞大的参数规模带来高昂的推理存储成本和回复时延,已成为实际应用中的关键挑战。特别是在面向人机对话的应用场景,模型推理效率直接影响到对话体验。在推理优化方法中,参数剪枝作为一项经典的模型压缩技术,旨在通过剔除模型中“不重要”的权重来实现参数量的显著降低与计算效率的提升。然而,传统的“剪枝-微调”范式或直接的后训练剪枝方法,往往带来明显的模型性能损失,特别是在硬件友好的半结构化稀疏(如 2:4 稀疏)场景下,该问题尤为突出。这使得应用中的模型效果和推理效率,呈现一个“鱼和熊掌”的两难局面。

面对这项挑战,美团 LongCat Interaction 团队联合上海交通大学听觉认知与计算声学实验室,以及香港科技大学的研究者,共同完成了大模型剪枝方法的创新研究,提出了名为 DenoiseRotator 的新技术。通过首先对参数矩阵进行变换,“浓缩”对结果有影响力的参数,再对重要性最低的参数进行剪枝,实现了大模型剪枝的新范式。DenoiseRotator 能够与现有的剪枝算法快速集成,有效缓解模型压缩带来的性能损失。这一研究成果已在 2025 年的 NeurIPS 会议上发表。

01 动机:传统剪枝的局限性——密集训练与稀疏推理的隐式冲突

传统后训练剪枝的一般流程可概括为:对一个已训练好的 稠密模型,基于某种启发式准则(如权重幅值或 Wanda、SparseGPT 等算法)为每个参数赋予“重要性分数”,随后根据预设的稀疏度阈值,移除分数较低的一部分权重。 尽管流程清晰,该方法存在一个本质局限:其整个剪枝过程建立在 固定不变的参数空间 上,本质上是一种 被动的筛选机制。这进一步凸显了以下深层冲突:

  • 密集训练 的本质是隐式地激励模型 充分利用每一个参数。每个参数都承载了一定的知识或推理能力,并通过参数间的协同工作共同支撑模型的整体表达能力。

  • 稀疏推理 则要求模型仅基于 被保留的部分参数 完成推理任务,并保持高性能。

这种训练目标与推理机制之间的内在不一致,意味着 直接裁剪必然会导致部分知识或推理能力的丢失,从而破坏原有参数间协同工作的平衡,引发性能下降。

02 技术方案:DenoiseRotator——从“被动筛选”到“主动优化”的范式转变

针对上述挑战,我们重新思考剪枝范式:能否在剪枝前先对模型进行 稀疏性引导的优化,使其 自身结构更易于被剪枝?基于此,我们提出了“重要性浓缩”的全新思路,并开发了 DenoiseRotator 框架予以实现。

2.1 核心思想:重要性浓缩

我们的核心目标是在执行剪枝 之前,将原本分散在众多参数上的重要性,尽可能地 集中到一个较小的参数子集中。这样,在后续剪枝过程中,被移除权重所包含的关键信息将大幅减少,从而显著增强剪枝的鲁棒性。
为量化并优化“浓缩”效果,我们引入了 信息熵 作为衡量指标。通过将参数重要性分数归一化为概率分布,其熵值直接反映了重要性的集中程度:熵越低,表明重要性越集中于少数参数。因此,我们的优化目标明确为 最小化归一化重要性分布的熵

2.2 实现机制:可学习的正交变换

DenoiseRotator 通过向 Transformer 层中引入 可学习的正交矩阵,实现重要性分布的熵减与浓缩。

如上图所示,我们在 Transformer 层的特定位置(例如 Attention 模块的 Value 和 Output 投影层前后)插入正交矩阵。这些矩阵对原始权重进行“旋转”变换,在 保持模型输出完全不变(得益于正交变换的计算不变性)的前提下,重新分配参数的重要性。

2.3 关键优势

训练与剪枝解耦:DenoiseRotator 采用 模块化设计,正交矩阵的优化与具体剪枝方法完全独立。我们首先利用校准数据,以最小化重要性熵为目标训练这些正交矩阵;训练完成后,将其合并回原始权重。此时,我们获得了一个“易于剪枝”的优化版稠密模型,可 无缝对接 任何现有剪枝工具(如 SparseGPT、Wanda)进行后续操作。

优化过程稳定:正交变换具有保范数特性,确保在重新分布重要性时,既不会人为引入也不会丢失总重要性量,从而保证了优化过程的稳定性,不影响原始模型性能。

下图直观展示了 DenoiseRotator 的有效性。以 LLaMA-3-8B 模型首层输出投影层为例,经我们的方法变换后,参数重要性分布从分散趋于高度集中,为后续剪枝奠定了坚实基础。

03 实验验证

在前文中,我们介绍了 DenoiseRotator 的核心思想——通过重要性浓缩提升剪枝鲁棒性。那么,这一方法在实际效果上表现如何?我们针对多个主流开源大模型进行了全面评测,涵盖语言建模和零样本推理任务,并与现有剪枝方法进行了对比。

3.1 实验设置:覆盖多模型、多任务、多剪枝方法

为全面评估 DenoiseRotator 的有效性,我们在多样化的实验设置下进行了系统性验证。实验覆盖了从 Mistral-7B、LLaMA3(8B/70B)到 Qwen2.5(7B/14B/32B/72B)等多个主流开源大模型,评测任务包括语言建模(使用 WikiText-2 验证集的困惑度 PPL 作为指标)和零样本推理(在 PIQA、WinoGrande、HellaSwag、ARC-e 和 ARC-c 五个基准任务上评估平均准确率)。在基线方法方面,我们将 DenoiseRotator 与三类剪枝方法结合:经典方法 Magnitude,以及先进方法 Wanda 和 SparseGPT,并在非结构化(50%稀疏)和半结构化(2:4 稀疏)两种稀疏模式下进行对比评测。

3.2 主要结果:语言建模与零样本推理全面提升

下表展示了不同模型在剪枝前后的困惑度(衡量语言建模能力)与零样本任务表现。DenoiseRotator 在所有模型和稀疏模式下均显著降低剪枝造成的性能下降,尤其在 2:4 稀疏下提升更为明显。

3.3 深入分析:熵减如何驱动剪枝鲁棒性?

我们通过消融实验验证了 重要性熵与剪枝效果的直接关联。以 LLaMA3-8B 为例,记录不同训练步数下的熵值变化与模型性能:

熵减少 13%(步数 100)即可带来零样本任务准确率提升 3.66%(66.88%➡70.54%),困惑度降低 19.5%(9.567➡7.701)。进一步优化可继续降低困惑度,验证了 重要性集中度与剪枝鲁棒性的正相关

3.4 部署效率:轻量开销,显著收益

  • 参数增量:每层新增一个(hidden_size, hidden_size)正交矩阵。以 LLaMA3-8B 为例,总参数量增加约 0.5B(占原模型 6.7%)。通过分块对角矩阵(见论文附录)可进一步降低开销,适合资源受限场景。

  • 推理耗时:单层 Transformer 的 2:4 稀疏计算耗时 4.37ms,加入正交矩阵后仅增加 0.32ms(1.24× 加速比 vs 稠密层)。

04 总结

DenoiseRotator 提出了一种创新的剪枝视角:将模型准备(重要性浓缩)与模型压缩(剪枝)两个阶段解耦。通过可学习的正交变换,主动实现参数重要性的浓缩,从而显著提升后续剪枝的鲁棒性。该方法具备 即插即用 的特性,为大规模语言模型的高效、高性能压缩提供了新的技术路径。

项目地址https://github.com/Axel-gu/DenoiseRotator

希望跟大家一起学习交流。如果大家对这项工作感兴趣,欢迎在 GitHub 上 Star、Fork 并参与讨论!

今年 8 月,美团开源的 InfiniteTalk 项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现,迅速成为语音驱动虚拟人领域的主流工具,吸引全球数万名开发者的使用。10月底,LongCat 团队开源了 LongCat-Video 视频生成模型,尤其在长视频生成领域具备显著优势。

在 InfiniteTalk 和 LongCat-Video 基座的良好基础上,LongCat 团队针对实际场景中的核心痛点持续优化,正式发布并开源 SOTA 级虚拟人视频生成模型 ——LongCat-Video-Avatar。该模型基于 LongCat-Video 基座打造,延续 “一个模型支持多任务” 的核心设计,原生支持 Audio-Text-to-Video(AT2V)、Audio-Text-Image-to-Video(ATI2V)及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破,为开发者提供更稳定、高效、实用的创作解决方案。

点击查看产品介绍视频

开源地址:

一、技术亮点

1.1 开源 SOTA 拟真度:让虚拟人“活”起来

告别“僵硬”,迎接“鲜活”。还记得以前那些虚拟人吗?只有嘴巴在动,头和身体却像没通电,看起来既尴尬又不自然。全新的 LongCat-Video-Avatar 彻底改变了这一点。它像一位全能导演,不仅指挥嘴型,还同步指挥眼神、表情和肢体动作,实现丰富饱满的情感表达,让虚拟人真正“演”了起来。

点击查看效果对比

连“不说话”的时候,都很像人: 真人说话是有停顿和呼吸的。我们通过一种独特的训练方法 Disentangled Unconditional Guidance(解耦无条件引导),让模型明白了“静音”不等于“死机”。现在,哪怕是在说话的间歇,虚拟人也会像你我一样,自然地眨眼、调整坐姿、放松肩膀。

这种技术让 LongCat-Video-Avatar 成为首个同时支持文字、图片、视频三种生成模式的全能选手。从口型精准到全身生动,虚拟人从此有了真正的生命力。

各类训练策略的对比分析

1.2 长时序高质量生成:让视频“稳”下来

上一代 InfiniteTalk 在长视频生成中会出现视觉质量退化的现象,而VAE 的反复编解码是正是视觉质量退化的主要原因。现有方法通常将上一段生成结果解码为像素,再将末尾帧重新编码为潜变量,作为下一段的条件——这一“解码→再编码”循环会持续引入累积误差,导致色彩偏移与细节模糊。

点击查看效果对比

LongCat-Video-Avatar提出了Cross-Chunk Latent Stitching(跨片段隐空间拼接) 训练策略以根本性解决此问题。在训练阶段,我们从同一视频中采样两个连续且部分重叠的片段,在隐空间内直接进行特征替换,让模型学会在潜空间中无缝衔接上下文。在推理时,系统直接将前一段生成的 latent 序列末尾部分作为下一段的 context latent,全程无需解码到像素域。该设计不仅消除 VAE 循环带来的画质损失,还显著提升推理效率,并有效弥合训练与推理之间的流程差异(train-test gap)。实验显示,LongCat-Video-Avatar 在生成5分钟约 5000 帧视频时仍保持稳定色彩与清晰细节

LongCat-Video-Avatar 的整体架构

1.3 商用级一致性:精准锚定角色,让演绎生动自如

点击查看效果对比

为维持长视频中的身份(ID)一致性, InfiniteTalk 采用注入参考帧的方式,但有时会导致色彩偏移(color shift)或动作僵化(“复制-粘贴”效应)。LongCat-Video-Avatar 从以下两方面进行系统升级:

  • 基座升级:视频基础模型迁移到 LongCat-Video,后者在大规模长视频预训练中具备了更强的身份保持与色彩一致性先验。
  • 参考机制创新:我们引入了带位置编码的参考帧注入模式。推理时,用户可通过指定RoPE中的索引位置,灵活控制参考帧在生成块中的插入位置。更重要的是,我们设计了Reference Skip Attention机制,在参考帧相邻的时间步,屏蔽参考帧对注意力计算的直接影响,仅允许其提供身份语义先验,而不主导具体动作生成。这套机制在确保ID一致性的同时,有效抑制了动作的重复与僵化,使长视频既稳定又富有变化。

Reference Skip Attention 机制的示意图

二、模型性能

2.1 客观基准评测

在 HDTF、CelebV-HQ 、EMTD 和 EvalTalker 等权威公开数据集上的定量评测表明,LongCat-Video-Avatar 在多项核心指标上达到SOTA领先水平。

在 HDTF、CelebV-HQ 与 EMTD 数据集上的定量对比

在衡量唇音同步精度的 Sync-c/Sync-D指标上,LongCat-Video-Avatar 在各个数据集上均取得 SOTA 成绩;在一致性指标方面(FID、FVD、CSIM)也表现优异。

2.2 综合主观评测

为贴近真实用户体验,我们基于 EvalTalker 基准组织了大规模人工评测,从“自然度与真实感”维度对生成视频进行盲测打分(5分制)。

在涵盖商业推广、影视娱乐、新闻时事、日常生活和知识教育五大场景的单人对话测试中,LongCat-Video-Avatar 的综合评分领先于包括 InfiniteTalk、HeyGen、Kling Avatar 2.0 在内的众多主流开源与商业模型。

通过基于EvalTalker基准的严谨人工评测(共492名参与者),LongCat-Video-Avatar在多个细分维度获得显著正向反馈:

  • 静音段表现:绝大多数评审者指出,LongCat-Video-Avatar 在静音段能保持如呼吸、眨眼等自然微动作;
  • 长视频稳定性:在长序列生成中,相较 InfiniteTalk,该模型展现出更优的身份一致性与视觉连续性,有效缓解了长期存在的漂移问题;
  • 动作多样性:得益于创新的参考帧机制,其生成的动作被普遍认为更为丰富、自然,避免了明显的重复或“复制-粘贴”效应;
  • 语言表现:LongCat-Video-Avatar 在中文和英文语言中均优于所有对比方法,体现出稳健的跨语言性能和精准的音画同步效果;
  • 应用场景表现:LongCat-Video-Avatar 在影视娱乐、日常生活和知识教育场景中表现最优,展现出在多样应用场景下的强泛化能力。

三、One More Thing,开源是为了更好的共创

LongCat-Video-Avatar 是我们继 InfiniteTalk 之后,在数字人生成方向上的持续迭代。我们关注开发者在长视频生成中遇到的实际问题——身份漂移、画面卡顿、静音段僵硬,并尝试从模型层面给出改进。

这次开源的不是一个“终极方案”,而是一个进化的、可用的技术基座。它们都基于真实反馈与长期实验,代码和模型均已开放。我们坚持开源,是因为相信工具的价值在迭代中产生,而迭代需要更多人的使用、验证与共建。如果你正在探索数字人相关应用,或对生成技术有想法,欢迎关注我们的项目,更欢迎留下你的反馈。

开源地址:

现在,轮到你来创造“千人千面”的数字世界了。