包含关键字 typecho 的文章

102类农业害虫图像识别数据集：智慧农业与精准防控的高质量资源

作者: 纯情
时间: 2026-02-20
分类:
评论

102类农业害虫图像识别数据集：智慧农业与精准防控的高质量资源

数据集分享链接

链接:https://pan.baidu.com/s/1DZIAYJqoTomT9WJEsIrX7Q?pwd=sede
提取码:sede 复制这段内容后打开百度网盘手机App，操作更方便哦

一、智慧农业与害虫智能防控的时代背景

在智慧农业和智能害虫监测中，构建一个高质量的农业害虫识别数据集是实现自动化检测与分类的关键。农业作为国民经济的基础产业，其健康发展直接关系到粮食安全和农民收入。然而，在农业生产过程中，害虫问题始终是制约农作物产量和品质提升的重要因素。害虫不仅直接啃食作物，造成产量损失，还可能传播病害，进一步加剧农作物的损害。

在现代农业发展中，病虫害监测与防治始终是保障粮食安全和提高农作物产量的关键环节。根据联合国粮农组织的统计，全球每年因害虫造成的农作物产量损失高达数千亿美元，害虫防治已成为农业生产中的重要环节。传统的害虫识别主要依赖人工观察与统计，不仅效率低下，而且容易受到主观经验、环境条件等因素的影响，导致识别准确率不足。

传统害虫识别方法存在诸多局限性。首先，人工观察效率低下，难以满足大规模农田的害虫监测需求。农田面积通常较大，人工观察需要投入大量的人力资源，观察周期长，难以及时发现害虫。其次，人工观察受主观因素影响，不同人员的判断标准可能存在差异，影响识别结果的准确性和一致性。再次，人工观察时效性不足，难以及时发现害虫，错过最佳防治时机。最后，人工观察成本高昂，需要投入大量的人力资源，给农民带来经济负担。

随着人工智能（AI）和计算机视觉技术的快速发展，利用深度学习方法实现害虫的自动识别与检测，已经成为智慧农业中的重要研究方向。计算机视觉技术能够自动分析害虫图像，识别害虫特征；深度学习模型能够学习害虫的视觉特征，实现高精度的害虫识别。这种智能化的识别方式，能够大幅提高识别效率，降低识别成本，实现实时监测。

然而，算法的性能高度依赖于高质量的数据集，而在农业领域，构建一个大规模、标注精确、类别丰富的害虫数据集往往是研究的瓶颈。基于这一背景，本文介绍的"102类农业害虫数据集"应运而生。该数据集共包含20000张已划分、已标注的图像，涵盖了农田中常见的102种害虫类别，数据多样性强，能够为学术研究和实际应用提供可靠的数据支撑。无论是用于目标检测模型训练，还是小样本学习与迁移学习，该数据集都具有较高的价值和实用性。

在这里插入图片描述

二、数据集核心特性与架构分析

该数据集是一个大规模、多类别的农业害虫识别数据集，旨在实现对102类农业害虫的自动识别与分类。以下是该数据集的核心特性分析：

graph TD
    A[102类农业害虫数据集] --> B[数据规模]
    A --> C[害虫类别]
    A --> D[数据质量]
    A --> E[场景多样性]
    
    B --> B1[20000张图片]
    B --> B2[训练集]
    B --> B3[验证集]
    B --> B4[测试集]
    
    C --> C1[102类害虫]
    C --> C2[鳞翅目]
    C --> C3[鞘翅目]
    C --> C4[半翅目]
    
    D --> D1[高分辨率]
    D --> D2[精确标注]
    D --> D3[标准格式]
    
    E --> E1[多作物类型]
    E --> E2[多光照条件]
    E --> E3[多拍摄角度]
    E --> E4[多背景环境]

2.1 数据集基本信息

数据集的基本信息如下：

项目	说明
图像总量	20000张
类别数量	102类
每类平均样本数	约200张
数据划分	Train / Valid / Test
标注格式	YOLO格式 / COCO格式
任务类型	目标检测（Object Detection） / 图像分类（Image Classification）

2.2 害虫类别定义

数据集共包含102类农业害虫，涵盖鳞翅目、鞘翅目、半翅目等不同类群。包含对农业生产影响较大的害虫，如稻飞虱、粘虫、玉米螟、蚜虫、白粉虱、红蜘蛛等。这些害虫涉及不同作物（如水稻、小麦、玉米、蔬菜和果树等）的典型害虫，覆盖面广，实用性强。

鳞翅目害虫

鳞翅目害虫是农业害虫中的重要类群，包括粘虫、玉米螟、小菜蛾等。鳞翅目害虫的幼虫通常啃食作物叶片，造成严重的产量损失。鳞翅目害虫的检测对于及时发现害虫、采取防治措施具有重要意义。

鞘翅目害虫

鞘翅目害虫是农业害虫中的重要类群，包括瓢虫、金龟子等。鞘翅目害虫的成虫和幼虫都可能对作物造成危害，鞘翅目害虫的检测对于及时发现害虫、采取防治措施具有重要意义。

半翅目害虫

半翅目害虫是农业害虫中的重要类群，包括蚜虫、白粉虱、稻飞虱等。半翅目害虫通常吸食作物汁液，造成作物营养不良，还可能传播病害。半翅目害虫的检测对于及时发现害虫、采取防治措施具有重要意义。

三、数据集详细内容解析

3.1 数据集概述

农业害虫检测是精准农业中的重要组成部分，传统方法依赖人工识别，不仅耗费人力，还存在效率低、准确率不足的问题。随着深度学习与计算机视觉的发展，大规模、高质量的农业害虫数据集成为提升模型性能的基础。

该数据集的主要特征如下：

类别数量：共102类，涵盖常见农业害虫种类，涉及不同作物（如水稻、小麦、玉米、蔬菜和果树等）的典型害虫
图像数量：20000张图片，保证了每个类别拥有足够的样本量，避免模型偏向少数类
数据划分：已按照机器学习标准流程划分为训练集、验证集、测试集，确保训练与评估的科学性
标注文件：采用标准标注格式（如YOLO或COCO格式），包含边界框信息，标注精细且经过人工校对，保证了训练数据的可靠性

该数据集能够直接应用于目标检测、图像分类与小样本学习等任务，具有很高的研究和应用价值。

3.2 数据集详情

1. 类别信息

共102类农业害虫，涵盖鳞翅目、鞘翅目、半翅目等不同类群
包含对农业生产影响较大的害虫，如稻飞虱、粘虫、玉米螟、蚜虫、白粉虱、红蜘蛛等

2. 数据规模

图片总数：20000张
每类平均样本数：约200张，数据分布较均衡，保证模型能够学习到多类别特征

3. 图像特点

分辨率较高，包含自然场景下的拍摄图像
光照、角度、背景多样化，覆盖了田间拍摄的复杂情况，增强模型的鲁棒性

4. 标注形式

目标检测任务：边界框（Bounding Box）精确标注
分类任务：每张图片均对应类别标签，可用于纯分类训练
文件结构：

├── train
│   ├── images
│   └── labels
├── val
│   ├── images
│   └── labels
├── test
│   ├── images
│   └── labels

标签文件采用YOLO格式：

<class_id> <x_center> <y_center> <width> <height>

（坐标值均归一化到0-1之间，方便模型训练）

在这里插入图片描述

四、数据集应用场景深度剖析

该数据集的应用场景非常广泛，特别适合农业领域的智能化研究：

graph LR
    A[102类农业害虫数据集] --> B[智能害虫检测]
    A --> C[图像分类研究]
    A --> D[小目标检测]
    A --> E[领域迁移学习]
    A --> F[农业自动化应用]
    
    B --> B1[实时检测]
    B --> B2[害虫定位]
    B --> B3[监测效率提升]
    
    C --> C1[害虫识别]
    C --> C2[种类分类]
    C --> C3[快速识别]
    
    D --> D1[小目标算法]
    D --> D2[注意力机制]
    C --> C3[超分辨率增强]
    
    E --> E1[迁移学习]
    E --> E2[预训练模型]
    C --> C3[跨域适应]
    
    F --> F1[无人机监测]
    F --> F2[物联网传感器]
    C --> C3[智能平台]

4.1 智能害虫检测

在智能害虫检测领域，利用深度学习目标检测模型（YOLOv8、Faster R-CNN、SSD等），对田间害虫进行实时检测和定位，提升监测效率。这是数据集在智慧农业领域的重要应用。通过训练目标检测模型，可以实现对害虫的自动识别和定位。

在实际应用中，智能害虫检测系统可以部署在农田的监控设备上，实时采集害虫图像并进行检测分析。当检测到害虫时，系统可以自动记录害虫的种类、数量、位置等信息，为后续的防治工作提供依据。这种自动化检测方式大大提高了监测效率，降低了监测成本。

实时检测

通过实时采集害虫图像并进行检测分析，可以实现害虫的实时检测。实时检测能够及时发现害虫，为害虫防治争取宝贵时间。

害虫定位

通过检测害虫的位置，可以实现害虫的精确定位。害虫定位能够为害虫防治提供精确信息，优化防治策略。

监测效率提升

自动化检测的速度远高于人工检测，能够大幅提升监测效率。监测效率提升能够降低监测成本，提高防治效果。

4.2 图像分类研究

在图像分类研究领域，数据集可用于训练分类模型（ResNet、ViT、EfficientNet等），快速识别害虫种类。这是数据集在学术研究领域的重要应用。通过使用数据集进行算法研究和性能对比，可以推动计算机视觉技术的发展。

在学术研究中，数据集可以用于验证新算法的性能，探索最优的模型架构。研究人员可以尝试不同的网络结构、损失函数、优化策略等，提升害虫识别的性能。

害虫识别

利用分类模型快速识别害虫种类。害虫识别能够帮助农民和农业技术人员快速了解害虫情况，采取针对性的防治措施。

种类分类

对害虫进行精确的种类分类，为害虫防治提供科学依据。种类分类能够帮助农业技术人员制定科学的防治策略，提高防治效果。

快速识别

分类模型的推理速度快，能够实现害虫的快速识别。快速识别能够提高监测效率，降低监测成本。

4.3 小目标检测

在小目标检测领域，由于害虫通常在图像中占比较小，该数据集特别适合研究小目标检测算法，如改进YOLOv8、加入注意力机制、超分辨率增强等。这是数据集在算法优化领域的重要应用。通过使用数据集进行算法优化研究，可以提升小目标检测的性能。

在算法优化研究中，数据集可以用于验证新算法的性能，探索最优的模型架构。研究人员可以尝试不同的网络结构、损失函数、优化策略等，提升小目标检测的性能。

小目标算法

研究小目标检测算法，提升小害虫的检测性能。小目标检测是害虫检测的难点，具有重要的研究价值。

注意力机制

引入注意力机制，提升模型对小害虫特征的感知能力。注意力机制是提升模型性能的重要手段，具有重要的研究价值。

超分辨率增强

利用超分辨率技术，提升小害虫的图像质量。超分辨率增强能够提升小目标检测的性能，具有重要的研究价值。

4.4 领域迁移学习

在领域迁移学习领域，数据集覆盖面广，可作为基础数据，用于迁移学习或预训练，再迁移到特定地区或特定作物的害虫检测场景中。这是数据集在迁移学习领域的重要应用。通过使用数据集进行迁移学习研究，可以提升模型在特定场景下的性能。

在迁移学习研究中，数据集可以用于预训练模型，然后迁移到特定场景。研究人员可以尝试不同的迁移学习方法，提升模型在特定场景下的泛化能力。

迁移学习

将预训练模型迁移到特定场景，提升模型在特定场景下的性能。迁移学习能够减少训练时间，提升模型性能。

预训练模型

使用数据集预训练模型，为特定场景提供良好的初始化。预训练模型能够加速模型收敛，提升模型性能。

跨域适应

提升模型在不同场景下的泛化能力。跨域适应能够提升模型的实用性，降低部署成本。

4.5 农业自动化应用

在农业自动化应用领域，结合无人机（UAV）、物联网传感器，构建农业智能监测平台，实现自动化害虫预警与防治决策支持。这是数据集在智慧农业领域的重要应用。通过训练目标检测模型，可以实现对害虫的自动监测和预警。

在实际应用中，农业自动化应用系统可以部署在无人机或物联网设备上，实时采集害虫图像并进行检测分析。通过分析害虫的分布情况，可以预测害虫的传播趋势，提前采取防治措施。

无人机监测

将害虫检测模型部署在无人机上，实现大范围的害虫监测。无人机监测能够快速覆盖大面积农田，获取害虫图像。无人机监测能够提高监测效率，降低监测成本。

物联网传感器

结合物联网传感器，构建智能监测平台。物联网传感器能够实时采集环境数据和害虫图像，为害虫防治提供数据支持。

智能平台

构建农业智能监测平台，实现自动化害虫预警与防治决策支持。智能平台能够为农民和农业技术人员提供科学的决策支持，提高防治效果。

五、实践心得与经验总结

该102类农业害虫数据集不仅具有丰富的类别和足够的数据规模，还在标注精度和数据多样性上有突出的优势。它既能为学术研究提供坚实的数据基础，也能为农业生产的实际应用（如自动化害虫监测、防治决策）提供可靠的支撑。

在整理和使用这个102类农业害虫数据集的过程中，有以下几点体会：

5.1 数据质量比算法更重要

在模型训练中，我发现标注精度对最终结果影响极大。即便使用先进的YOLOv8或Transformer结构，如果标注有偏差，模型很容易学到错误的特征。由此可见，数据集的高质量标注是构建优秀模型的前提。

5.2 类别均衡影响泛化能力

由于部分害虫类别样本数量相对较少，模型在训练时会出现"偏向头部类别"的问题。为了解决这一问题，可以采用数据增强或重采样策略，提升模型在少样本类上的表现。

5.3 小目标检测是关键难点

害虫在图像中往往占据极小区域，常规模型容易漏检或误检。针对这种情况，实验中尝试过添加注意力机制、特征金字塔（FPN/BiFPN）以及超分辨率重建等方法，都能在一定程度上提升对小目标的识别率。

5.4 跨场景泛化能力需要重视

虽然该数据集涵盖了多种场景和光照条件，但在不同地区、不同作物上部署模型时，仍会遇到域偏移问题。通过迁移学习、领域自适应等方法，可以显著增强模型的泛化性能。

5.5 科研与应用双价值

这个数据集不仅能为学术研究提供丰富的实验土壤，还能在农业生产中落地，帮助农民和研究人员实现害虫的自动监测与精准防控，具有很强的实际应用价值。

六、未来发展方向与展望

随着智能农业的发展，这类大规模害虫数据集的价值将越来越突出。研究人员和工程师可以基于此数据集探索更高效的目标检测算法、轻量化模型、跨域迁移方法，推动农业智能化迈向新的高度。

数据集可以从以下几个方向进行扩展和优化：

一是增加更多样本数量，提升模型的泛化能力；二是增加更多害虫类型，如更多地区的特有害虫，提供更全面的害虫描述；三是增加更多场景和环境的样本，如不同季节、不同天气条件、不同时间段等，提升模型的泛化能力；四是引入多模态数据，如高光谱图像、热红外图像等，提供更丰富的害虫信息；五是添加害虫生长阶段标注，支持害虫分级和风险评估。

此外，还可以探索数据集与其他农业数据集的融合，构建更全面的农业知识库。通过整合害虫数据、作物数据、气象数据等，可以构建更智能的农业决策支持系统，为智慧农业和害虫防控提供更强大的数据支撑。

随着人工智能技术的不断发展，害虫检测技术将朝着更高精度、更强鲁棒性、更智能化的方向发展。数据集作为技术发展的基石，将持续发挥重要作用，推动害虫检测技术的进步和应用落地。

七、数据集总结

数据集名称：102类农业害虫数据集

图片总数：20000张

任务类型：目标检测 / 图像分类

推荐模型：YOLO / ResNet / ViT / EfficientNet

该数据集是一个大规模、多类别的农业害虫识别数据集，共包含20000张已划分、已标注的图像，涵盖了农田中常见的102种害虫类别，数据多样性强，能够为学术研究和实际应用提供可靠的数据支撑。

该数据集为AI研究者与开发者提供了一个高质量的农业害虫识别任务起点。无论你是刚入门的深度学习初学者，还是希望优化模型性能的研究者，该数据集都能助你快速构建高精度的检测系统。

通过本数据集，你可以快速构建出具有实际应用价值的检测模型，为后续的算法优化与项目部署打下坚实基础。未来，我们将持续更新数据集内容，拓展更多复杂场景与多类别标注，助力AI研究者在目标检测与智慧农业领域取得更高成果。

八、完整YOLO目标检测系统推荐

源码见：https://blog.csdn.net/weixin_52908342/article/details/148371412

在这里插入图片描述

深入RAG架构：分块策略、混合检索与重排序的工程实现

作者: 纯情
时间: 2026-02-20
分类:
评论

把一个RAG系统从Demo做到生产，中间要解决5个问题。

最初的版本就是标准版：全量文档 embedding，向量检索，LLM生成。演示没出过问题，但是翻车发生在数据留存政策的时候，因为系统召回了两段2废弃条款和一段聊"员工留存"的HR文档，然后把这三段内容揉成了一个看似完整实则全错的回答。

这不是检索的问题，也不纯粹是模型的问题。从分块方式到搜索策略，从排序逻辑到异常兜底，每一层都藏着独立的故障模式。

Level 1：Naive RAG

文档做 embedding，存向量，按相似度取 top-k，丢给模型生成。流程就这么简单：

 from openai import OpenAI  
import chromadb  
client = OpenAI()  
chroma = chromadb.Client()  
collection = chroma.create_collection("docs")  
def index_document(doc_id: str, text: str):  
    response = client.embeddings.create(  
        model="text-embedding-3-small",  
        input=text  
    )  
    collection.add(  
        ids=[doc_id],  
        embeddings=[response.data[0].embedding],  
        documents=[text]  
    )  
def naive_rag(query: str, k: int = 3) -> str:  
    # Embed query  
    query_embedding = client.embeddings.create(  
        model="text-embedding-3-small",  
        input=query  
    ).data[0].embedding  
      
    # Retrieve  
    results = collection.query(  
        query_embeddings=[query_embedding],  
        n_results=k  
    )  
      
    # Generate  
    context = "\n\n".join(results["documents"][0])  
    response = client.chat.completions.create(  
        model="gpt-4",  
        messages=[  
            {"role": "system", "content": f"Answer based on this context:\n\n{context}"},  
            {"role": "user", "content": query}  
        ]  
    )  
     return response.choices[0].message.content

所有RAG教程教的就是这套，大多数RAG系统也停在了这一步。

问题出在哪？语义相似度不等于相关性。查"data retention policy"，embedding 模型会把"employee retention programs"也拉进来，因为它看到了词汇上的重叠。两个概念八竿子打不着但向量空间里靠得很近。

还有一种情况更隐蔽：召回的 chunk 确实跟主题相关但根本没在回答你的问题。三个 chunk 都在聊数据留存可没一个提到你要查的那条具体政策。

Demo之所以看着没问题，是因为测试用的 query 本身就是你已经知道答案的。

Level 2：智能分块

多数RAG故障看着像检索出了问题，实际上是分块出了问题。

按固定500 token切一刀会怎样？一份政策声明被劈成两半，问题在上半截，答案在下半截。上下文和结论被强行拆开。切出来的 chunk 单独看根本读不通。

分块尺寸这件事比想象中关键得多：100–200 tokens太碎chunk缺少语境，"90天后删除"这句话脱离了上下文根本不知道删的是什么；1000+ tokens又太长一个 chunk 里塞了好几个主题，检索的时候噪声和有效信息一把抓；300–500 tokens是个比较舒服的区间，上下文够用主题又足够聚焦。

但尺寸还不是最关键的。重叠（overlap）才是。

 from langchain.text_splitter import RecursiveCharacterTextSplitter  
 splitter = RecursiveCharacterTextSplitter(  
     chunk_size=400,  
     chunk_overlap=100,  # This is the key  
     separators=["\n\n", "\n", ". ", " ", ""]  
 )

设100 token的重叠区，一个句子即使被切断了，两个相邻 chunk 里都有它的完整内容。原本卡在边界上的答案，现在从哪一侧都能检索到。

还有一个元数据的小技巧：不要只存文本本身，把来源信息也一起存进去。

 def chunk_with_metadata(doc: str, source: str, doc_date: str) -> list[dict]:  
    chunks = splitter.split_text(doc)  
    return [  
        {  
            "text": chunk,  
            "source": source,  
            "date": doc_date,  
            "section": extract_section_header(chunk),  
        }  
        for chunk in chunks  
     ]

这样当2019年和2024年的 chunk 同时出现在召回结果里的时候一眼就能看得出来。Prompt 里可以加"优先引用最新来源"，代码里也可以在生成前直接按时间过滤。

光是这一步就解决了大约40%的检索故障。垃圾进垃圾出——chunk 质量上去了检索效果自然跟着上去。

Level 3：混合搜索

假设这样一个查询："What's our PTO policy for employees with 5+ years tenure?"

语义搜索能找到跟休假政策沾边的 chunk，概念上确实接近。关键词搜索能精确命中包含"5+ years"和"tenure"的 chunk。

单独用哪一个都不够。两路合并就可以了。

 from rank_bm25 import BM25Okapi  
import numpy as np  
class HybridRetriever:  
    def __init__(self, documents: list[str]):  
        self.documents = documents  
        self.embeddings = self._embed_all(documents)  
          
        # BM25 for keyword matching  
        tokenized = [doc.lower().split() for doc in documents]  
        self.bm25 = BM25Okapi(tokenized)  
      
    def _embed_all(self, docs: list[str]) -> list[list[float]]:  
        response = client.embeddings.create(  
            model="text-embedding-3-small",  
            input=docs  
        )  
        return [d.embedding for d in response.data]  
      
    def search(self, query: str, k: int = 5, alpha: float = 0.5) -> list[str]:  
        # Semantic scores (normalized)  
        q_emb = client.embeddings.create(  
            model="text-embedding-3-small",  
            input=query  
        ).data[0].embedding  
          
        sem_scores = np.dot(self.embeddings, q_emb)  
        sem_scores = (sem_scores - sem_scores.min()) / (sem_scores.max() - sem_scores.min() + 1e-8)  
          
        # BM25 scores (normalized)  
        bm25_scores = np.array(self.bm25.get_scores(query.lower().split()))  
        if bm25_scores.max() > 0:  
            bm25_scores = bm25_scores / bm25_scores.max()  
          
        # Combine: alpha controls semantic vs keyword weight  
        combined = alpha * sem_scores + (1 - alpha) * bm25_scores  
          
        top_k = np.argsort(combined)[::-1][:k]  
         return [self.documents[i] for i in top_k]

alpha 的调法：如果语料里领域术语多（法律、医学、公司内部缩写），alpha 调低一些让 BM25 主导；如果用户提的是自然语言问题，alpha 调高让语义检索权重大一些。初始值设0.5，然后看哪些 query 挂了再微调。

BM25是很老的技术了，也没人再专门为它写博客了。但它能兜住纯向量搜索漏掉的那些 case，尤其是用户输入的恰好是文档里的原始表述时。

Level 4：Reranking

检索回来5个 chunk，跟主题都沾边。但哪些真正在回答问题？

Embedding 相似度是单独算的，每份文档独立跟 query 打分。Reranker 不一样——它把 query 和文档放在一起看，问的是："这份文档是不是在回答这个问题？"

 from sentence_transformers import CrossEncoder  
class RerankedRetriever:  
    def __init__(self, documents: list[str]):  
        self.hybrid = HybridRetriever(documents)  
        self.reranker = CrossEncoder("cross-encoder/ms-marco-MiniLM-L-6-v2")  
      
    def search(self, query: str, k: int = 3) -> list[str]:  
        # Get 20 candidates (cheap, fast)  
        candidates = self.hybrid.search(query, k=20)  
          
        # Rerank with cross-encoder (expensive, accurate)  
        pairs = [(query, doc) for doc in candidates]  
        scores = self.reranker.predict(pairs)  
          
        # Return top k after reranking  
        reranked = sorted(zip(candidates, scores), key=lambda x: x[1], reverse=True)  
         return [doc for doc, _ in reranked[:k]]

Cross-encoder 没办法预先算好文档 embedding，必须 query 和文档一起输入。所以拿它做全量检索不现实——一万篇文档逐条打分太慢了。但从20个候选里精选3个？这个开销完全可以接受。

加入 reranking 之后"正确 chunk 出现在前3"的命中率从68%提到了89%。其实相关的 chunk 一直被检索到了，只是排名不够靠前。

不过有一点要清楚：reranking 救不了烂检索。如果正确的 chunk 根本不在那20个候选里，reranker 也变不出来。先把 Level 2 和 Level 3 做扎实。

Level 5：生产级RAG

前面几个级别都在提升检索质量。生产级RAG要处理的是另一件事：检索已经尽力了，但还是失败了，怎么办？

因为它一定会失败，用户会问文档里根本没覆盖的问题。分块策略会漏掉某个关键段落。或者问题本身就很模糊，召回的几个 chunk 互相矛盾。

真正该问的不是"怎么杜绝检索失败"，而是"检索失败的时候，系统该怎么表现"。

护栏

上下文不够的时候，别让LLM自己编。

Air Canada 在这件事上付出了代价——他们输了一场官司，原因是聊天机器人编造了一条根本不存在的退款政策

 def guarded_rag(query: str, retriever, min_score: float = 0.6) -> str:  
    results = retriever.search_with_scores(query, k=3)  
      
    # Check: Do we have ANY confident results?  
    top_score = results[0][1] if results else 0  
    if top_score < min_score:  
        return (  
            "I don't have enough information to answer that confidently. "  
            "Could you rephrase, or is there a specific document I should look at?"  
        )  
      
    # Check: Are sources from different time periods?  
    dates = [r["date"] for r, _ in results]  
    date_warning = ""  
    if len(set(dates)) > 1:  
        newest = max(dates)  
        if any(d < newest for d in dates):  
            date_warning = "\n\n[Note: Some sources are older. The most recent policy takes precedence.]"  
      
    # Generate with explicit grounding instruction  
    context = "\n\n---\n\n".join([r["text"] for r, _ in results])  
      
    response = client.chat.completions.create(  
        model="gpt-4",  
        messages=[  
            {  
                "role": "system",  
                "content": f"""Answer based ONLY on the provided context.  
    If the context doesn't contain enough information, say so explicitly.  
    Never infer or make up information not directly stated.  
      
    Context:  
    {context}"""  
            },  
            {"role": "user", "content": query}  
        ]  
    )  
      
     return response.choices[0].message.content + date_warning

评估

没法度量的东西就没法改进。先建一组测试 query，每条都带上已知的正确答案：

 test_cases = [  
    {  
        "query": "What's our data retention policy for customer records?",  
        "must_retrieve": ["data-retention-policy-2024.md"],  
        "answer_must_contain": ["7 years", "deletion request"],  
        "answer_must_not_contain": ["2019", "employee retention"]  
    },  
    # ... 50+ more cases covering your actual use cases  
 ]

每次改动跑一遍。追踪检索精度（拿到正确文档了吗）和答案准确率（关键事实对了吗）。哪个指标掉了，马上能定位到是哪一步出了问题。

做到这一步仍然会有边缘 case。用户的表述方式超出预期，文档里藏着你不知道的自相矛盾。

边缘 case 漏不了。关键是让系统在拿不准的时候老实说"不知道"，而不是胡编一个答案。

什么时候该停

不是所有场景都需要做到 Level 5。

判断该不该升级，看用户反馈就行：

用户在抱怨什么RAG就坏在哪里。

从 Level 1 开始。记录并监控系统在哪翻车，搞清楚原因之后再往上走。

这才是构建一个真正能用的RAG系统的路径。

https://avoid.overfit.cn/post/93d89f1be12b421dbbb761198960bc76

by Paolo Perrone

139 邮箱别名可以用“点”结尾

作者: 纯情
时间: 2026-02-20
分类:
评论

本想用名字全拼当 139 邮箱别名，提示已被注册，随手在最后输了个点，居然成功了，甚至能收能发，这个符合规范吗？

测试向 Gmail 和阿里邮箱发送成功，被 QQ 邮箱退回，报 DATA command fail

BQACAgUAAyEGAASHRsPbAAERBvppmFMpIlAHDGbq9-jm8YyMn76newACIBwAAmDbyVRe-4C8VNtrbDoE.png

BQACAgUAAyEGAASHRsPbAAERBxVpmFQvUpDBmggTCQagUuXnqP-YqAACPhwAAmDbyVQoIFzMHh5PNjoE.png

此帖用于纪念家中大黄狗

作者: 纯情
时间: 2026-02-20
分类:
评论

它走了七天了。

院门后面，那根拴了四年的铁链子还搭在墙根底下。食盆里的水换了又换，昨天晚上我奶还是给添满了，早晨起来又泼掉，换了新水，末了叹一口气，把盆子扣过来，收进了柴房。

狗是通人气的。村里人都这么说。通什么人气的，不过是处得久了，它把人的日子当成自己的日子过。早晨五点四十，它准时在院子里咳嗽一声，不是叫，是咳嗽，清了嗓子等着——等着我爷起来开大门。六点钟它要去村东头的老槐树下撒一泡尿，那条路线它跑了四年，闭着眼睛也能走，可它每天都要睁开眼睛跑，要看看路上有什么新动静，哪家门口多了个生人，谁家羊圈的门没闩好。

可这回它跑远了。

上周和不知道哪里来的的黑背打了一架。那黑背年轻，块头大，它不占便宜，肚子上被咬了一道口子，背上也秃了一块皮。我给它上药的时候，它趴在地上，下巴贴着地，眼睛往上翻着看我，喉咙里发出很小的呜呜声——不是疼，是难为情。打了败仗，觉得丢人。

那几天它不怎么出门，就趴在门道里，看天。有时候邻居路过，叫它一声，它耳朵动一动，不抬头。

第七天头上，它走了。

我奶说，狗要死的时候，都会走远。找一处没人看见的地方，慢慢躺下。它不愿意让人看见它死的样子。

我不信。它才四岁，还没到老的时候。可我也不去找。

农村找狗是不兴出远门的。它认得路，真要是活着，早回来了。要是回不来，找也没用。

柴房里的麦秸堆上，还有它冬天睡觉压出来的窝。我把那根铁链子拿过去，绕成一盘，搁在窝里。麦秸还是那个形状，铁链上还有一股子洗不掉的狗味。

晚上吃饭的时候，我奶多拿了一个碗。盛了半碗剩饭，浇了菜汤，端到院子里，放在那棵枣树下。小时候它够不着碗，碗就搁在那儿。后来它长大了，碗还是搁在那儿，它习惯了。

早晨起来，碗空了。

我奶愣了一下。我爷说，是猫吃的。我奶没吭声，把碗收了，从此没有再拿出来过。

昨天赶集，看见一个卖狗牌的，就是那种小铜牌，上面可以刻字，拴在狗脖子上。我站了一会儿，没买。它从小不戴那些东西，嫌勒脖子。

回来的路上，我想起来一件事。它第一次跟着我去地里，是四年前的那个秋天。稻谷刚收割，地里有刺猬。它没见过刺猬，追着跑，跑了一身汗，刺猬没追上，回来趴在地头喘气，舌头耷拉老长，眼睛却亮得很。我蹲下来摸它的头，它舔了一下我的手背，又把头转过去，盯着那片稻地。

后来它追上了刺猬。追上了几次，又放走了几次。它不是猎狗，就是想跑一跑。

我想，那天它走的时候，大概也是想跑一跑。

没别的。

院子还是那个院子，太阳还是那个太阳。早晨起来，门道里空了一块。我奶扫院子的时候，扫帚经过那块空地，绕了一下，没有扫。扫过去，又回头看了一眼，然后继续扫。

前几天夜里下雨了。枣树底下的泥地上有几个爪印，不深，水泡着，看不太清。我蹲那儿看了半天，雨水从树枝上滴下来，滴到后脖颈子上，凉的。

我站起来，回屋去了。

也没什么好纪念的，实在是没什么好纪念的...

办公室没有开空调只能手动加热了

作者: 纯情
时间: 2026-02-20
分类:
评论

已下雪、已化雪，但是新去的厂区办公室没开空调。
手脚冰凉。
这样的气温不开空调有点不适应。

qiwen

然后有了下面的软件。

jiare

询问一下各位工作的大佬，公积金放着还是提出来好

作者: 纯情
时间: 2026-02-20
分类:
评论

如题 doge_flower

Windows 11 26H1 | 25H2 | 24H2 中文版、英文版下载 (2026 年 2 月更新)

作者: 纯情
时间: 2026-02-20
分类:
评论

Windows 11 24H2 | 25H2 | 26H1 中文版、英文版 (x64、ARM64) 下载 (2026 年 2 月更新)

Windows 11, version 26H1 | 25H2 | 24H2 Enterprise Arm64 x64 (updated Feb 2026)

请访问原文链接：https://sysin.org/blog/windows-11/ 查看最新版。原创作品，转载请保留出处。

作者主页：sysin.org

全新推出 Windows 11

全新 Windows 体验，让您与热爱的人和事物离得更近。

Windows 11

Windows 11 版本信息

Windows 11 每年会进行一次功能更新，功能更新在日历年下半年发布，并附带对家庭版、专业版、专业工作站版和专业教育版的 24 个月支持，以及对企业版和教育版的 36 个月支持。如需了解更多信息，请参阅 Windows 生命周期常见问题解答。

Windows 11 还在每月的第二个星期二发布每月安全更新。这些版本是累积的，包含所有以前的更新，让设备持续受到保护和保持高效。

如果你是 IT 管理员，并且想通过编程从此页面获取信息，请使用 Microsoft Graph 中的 Windows 更新 API。

Windows 11 目前版本

所有的日期都按照 ISO 8601 格式列出：YYYY-MM-DD

服务频道

版本	服务选项	上市日期	OS build	服务终止：家庭版、专业版、专业教育版和专业工作站版	服务终止：企业、教育、IoT 企业版和企业多会话
25H2	正式发布频道	2025-09-30	26200.6584	2027-10-12	2028-10-10
24H2	正式发布频道	2024-10-01	26100.1742	2026-10-13	2027-10-12
23H2	正式发布频道	2023-10-31	22631.2428	2025-11-11	2026-11-10
22H2	正式发布频道	2022-09-20	22621.521	2024-10-08	2025-10-14
21H2	正式发布频道	2021-10-04	22000.194	2023-10-08	2024-10-08

企业版和 IoT 企业版 LTSC 版本

Version	服务选项	上市日期	OS build	主要支持结束日期	外延支持结束日期
24H2	长期服务频道 (LTSC)	2024-10-01	26100.1742	2029-10-09	2034-10-10

⬇下载地址

Windows 11, version 24H2

Windows 11, version 24H2 (updated Feb 2026) Arm64, x64：

x64 请访问：https://sysin.org/blog/windows-11/
- en-us_windows_11_business_editions_version_24h2_updated_feb_2026_x64_dvd_9ae32db9.iso
- zh-cn_windows_11_business_editions_version_24h2_updated_feb_2026_x64_dvd_d05845b2.iso
- zh-tw_windows_11_business_editions_version_24h2_updated_feb_2026_x64_dvd_941d71ff.iso
Arm64 请访问：https://sysin.org/blog/windows-11/
- en-us_windows_11_business_editions_version_24h2_updated_feb_2026_arm64_dvd_037a8e04.iso
- zh-cn_windows_11_business_editions_version_24h2_updated_feb_2026_arm64_dvd_42795a19.iso
- zh-tw_windows_11_business_editions_version_24h2_updated_feb_2026_arm64_dvd_fe1f619a.iso
English - Business (Education, Enterprise, Pro, Pro Education, Pro for Workstations)
简体中文 - 商业版（教育版、企业版、专业版、专业教育版、专业工作站版）
繁體中文 - 商業版（教育版、企業版、專業版、專業教育版、專業工作站版）

Windows 11, version 25H2

Windows 11, version 25H2 (updated Feb 2026) Arm64, x64：

x64 请访问：https://sysin.org/blog/windows-11/
- en-us_windows_11_business_editions_version_25h2_updated_feb_2026_x64_dvd_9271bf68.iso
- zh-cn_windows_11_business_editions_version_25h2_updated_feb_2026_x64_dvd_7bd4278f.iso
- zh-tw_windows_11_business_editions_version_25h2_updated_feb_2026_x64_dvd_fde3df25.iso
Arm64 请访问：https://sysin.org/blog/windows-11/
- en-us_windows_11_business_editions_version_25h2_updated_feb_2026_arm64_dvd_2df5d889.iso
- zh-cn_windows_11_business_editions_version_25h2_updated_feb_2026_arm64_dvd_563c2365.iso
- zh-tw_windows_11_business_editions_version_25h2_updated_feb_2026_arm64_dvd_c1e08ad2.iso

Windows 11, version 26H1

Windows 11, version 26H1 (released Feb 2026) Arm64, x64：

x64 请访问：https://sysin.org/blog/windows-11/
- en-us_windows_11_business_editions_version_26h1_x64_dvd_18ddd107.iso
- en-us_windows_11_consumer_editions_version_26h1_x64_dvd_5208fe5b.iso
- zh-cn_windows_11_business_editions_version_26h1_x64_dvd_c6d1a670.iso
- zh-cn_windows_11_consumer_editions_version_26h1_x64_dvd_02f4247d.iso
- zh-tw_windows_11_business_editions_version_26h1_x64_dvd_4addb3b9.iso
- zh-tw_windows_11_consumer_editions_version_26h1_x64_dvd_000b0cb6.iso
Arm64 请访问：https://sysin.org/blog/windows-11/
- en-us_windows_11_business_editions_version_26h1_arm64_dvd_e4e55671.iso
- en-us_windows_11_consumer_editions_version_26h1_arm64_dvd_75375ff3.iso
- zh-cn_windows_11_business_editions_version_26h1_arm64_dvd_06885171.iso
- zh-cn_windows_11_consumer_editions_version_26h1_arm64_dvd_900d64ce.iso
- zh-tw_windows_11_business_editions_version_26h1_arm64_dvd_70e0c828.iso
- zh-tw_windows_11_consumer_editions_version_26h1_arm64_dvd_312a48a9.iso

文件名对应版本：

English - Business (Education, Enterprise, Pro, Pro Education, Pro for Workstations)
English - Consumer (Home, Home Single Language, Education, Pro, Pro Education, Pro for Workstations)
简体中文 - 商业版（教育版、企业版、专业版、专业教育版、专业工作站版）
简体中文 - 消费者版（家庭版、家庭单语言版、教育版、专业版、专业教育版、专业工作站版）
繁體中文 - 商業版（教育版、企業版、專業版、專業教育版、專業工作站版）
简体中文 - 消費者版（家用版、家用單語言版、教育版、專業版、專業教育版、專業工作站版）

虚机模板下载：

Windows Server 2025 OVF (2026 年 2 月更新) - VMware 虚拟机模板

更多：Windows 下载汇总

小红书“电子壁纸”生意 0 库存暴利玩法图片拆解

作者: 纯情
时间: 2026-02-20
分类:
评论

我在小红书刷到一个账号：先用美化 App 把桌面布置得极度吸睛，15 秒展示成片；中间插几条“手把手设置”教程。点进主页，跳转小红书“中转号”，点击取图，直达付费壁纸站，一键下载——小闭环跑通。

下面就用 6 张图片完成这个小生意的逻辑拆解：

1	2

3	4

5	6

不知道你有没有看明白？是不是很简单！

这个“壁纸站”你也是可以申请的，当然如果你想用自己的壁纸站，那就会涉及到一些技术问题，除非你懂 H5 还有一些网站技术，否则我还是建议你直接用现成的。这个神图君就是现成的！

如果你想自己弄，我给你一个极简的流程提示：
企业主体 → 先认证 → 再投聚光 → 把域名提审进白名单 → 通过后就能把自己的壁纸收费站套进小红书的统一容器，实现“主页一键直达”。

这个小生意的整体玩法到此拆解完毕，其实按照这个逻辑，还可以有其他的产品玩法，有兴趣的可以研究研究。如果你觉得有趣，希望你分享给更多的朋友！

个人 Blog 原文
https://www.evan.xin/4130/

守卫者徽章的权限问题

作者: 纯情
时间: 2026-02-20
分类:
评论

起因是看到傍晚发生的一点小插曲……想了一下

目前守卫者徽章拥有者可以直接修改内容
本意是为了协助修正一些错误内容或 ai 误判，保证社区的质量和健康发展
虽说有操作日志，但很难说每次修正都合适/必要
我觉得个人的见解很难做到绝对正确
建议站长重新考虑一下守卫者的权限设计

我的拙见：

可以捞帖（解决 ai 误判问题）
重要操作引入审核机制（比如守卫者 A 发起节点移动操作，其他守卫者能收到提醒，有 2 人以上赞同则同意修正）

管理本身是一个很复杂的问题
相信 Jimmy 能把握好 facepalm

愿大家多一点包容，共同维护好咱们闲时摸鱼的小本营

身体已是靠胰岛素维持的状态，爸爸还是酒不离身，不正常吃饭吃药

作者: 纯情
时间: 2026-02-20
分类:
评论

每天正常到饭点不吃饭，也不吃药，也不愿意吃药，还不愿意打胰岛素。他那血糖高，全都胰岛素压着

这是今天睡在石头窝里面的照片，发出来可能当作一个笑话，也可能多一个人看到无意间的一个评论也说不定有新的希望，是否能让结果变成另外一种可能，期望大家集思广益

https://youke.xn--y7xa690gmna.cn/s1/2026/02/20/699834dde4c99.webp

Agoda API Agent：零代码、零部署，将任意 API 转换为 MCP

作者: 纯情
时间: 2026-02-20
分类:
评论

Agoda 工程师开发 API Agent，一个零代码、零部署的系统，它可让单个模型上下文协议（MCP）服务器对接内部的 REST 或 GraphQL API。该系统旨在降低管理多种架构、多种认证方式的 API 所带来的运维成本，使团队无需为每个 API 单独搭建 MCP 服务器，就能通过 AI 助手查询相关服务。

API Agent 可作为通用的 MCP 服务器使用。工程师只需在 MCP 客户端中配置目标 URL 与 API 类型，这个智能体便能自动对 API 架构进行自省，并根据自然语言输入生成查询。一次部署即可同时服务多个 API。每个 API 在客户端看来都是一个独立的 MCP 服务器，但实际上共享同一个实例。新增 API 仅需更新配置即可。

Agoda 的首席技术官 Idan Zalzberg 在新闻稿中表示：

许多团队希望将内部工具开放给 AI 使用，但为每个工具单独编写 MCP 工作量极大。API Agent 采用创新的零代码方案实现这一能力，据我们所知，这一方案在业内属于首创。

该架构包含一个架构内省模块。配置目标 API 后，智能体会动态检索 API 架构。对于 GraphQL，它会提取类型、字段和输入参数；对于 REST API，它会基于 OpenAPI 规范或 JSON 响应示例。这使得智能体无需预构建适配器即可自动构造查询。

系统技术栈包括：用于 MCP 服务器的 FastMCP、用于语言模型编排的 OpenAI Agents SDK，以及用于内存 SQL 后处理的 DuckDB。其他功能还包括动态工具命名、大型 API 的 Schema 搜索、多步骤查询的会话跟踪，以及通过 OpenTelemetry、Jaeger、Zipkin、Grafana Tempo 或 Arize Phoenix 实现的可观测能力。

API Agent 内部原理（来源：Agoda 工程博客）

API 的响应可能包含数千行数据，这可能超出大语言模型的上下文长度限制，导致内容被截断。API Agent 通过在 DuckDB 中使用 SQL 作为上下文管理层来解决这一问题：完整的 API 响应会被存储、过滤与聚合，只将精简后的结果发送给模型。DuckDB 可在进程内运行，原生支持 JSON 并能自动推断 Schema。使用 SQL 进行后处理，既避免了任意代码执行，又能保持与 LLM 查询生成的兼容性。

安全机制默认开启。API Agent 以只读模式运行，除非明确启用并加入内部工具白名单，否则不允许执行任何修改操作。

API Agent 安全模型（来源：Agoda 工程博客）

运维经验包括：在响应被截断时进行清晰提示、优先使用 Schema 而非样本数据、处理 SQL 特性相关问题，以及暴露完整错误信息以便 LLM 进行自行修正。重复查询会被作为参数化的 “Recipe”，缩短推理耗时与延迟；直接返回选项则可让过滤后的数据跳过摘要步骤。API Agent 支持在单个会话中跨多个端点查询，完成关联与聚合操作。基于 SQL 的后处理规避了沙箱、网络隔离和依赖问题，其声明式风格与大语言模型适配性良好，可实现安全的 AI 辅助数据转换。该项目已开源，项目地址为 api-agent，可用于 REST 和 GraphQL 相关实验。

原文链接：

https://www.infoq.com/news/2026/02/agoda-api-agent/

【02-20 作品分享】2026 年 2 月 20 日 Product Hunt 热榜：AI 工具与效率神器齐飞

作者: 纯情
时间: 2026-02-20
分类:
评论

今日速览

Origami.chat：一句话找到你的理想客户。
Clawi.ai：5 分钟部署私人 AI 助手，全天候运行。
Reloop：聊聊天就能生成吸睛广告视频。
Monologue for iOS：把语音秒变精炼文字。
FF Designer：AI 生成 UI，还能随时动手编辑。
Kollect Voice Agent：用 AI 对话取代枯燥表单。
HyperCaps for macOS：让 CapsLock 键变身效率神器。
Decks For Good：捐款做慈善，顺便拿筹款建议。
AgentReady：一键压缩文本，AI 成本直降 60%。
Mengram：AI 记忆 API，自动记录任务步骤。

深度阅读

1. Origami.chat

一句话描述你的理想客户，这款工具就能在几秒钟内从上百个数据源里帮你精准锁定潜在客户名单。

输入提示，快速生成客户名单
整合 100 多个数据源，丰富 CSV 文件
获取决策者信息，助力客户拓展
几秒内完成，无需漫长等待

热度：🔺447

Origami.chat
访问官网｜ Product Hunt 详情

2. Clawi.ai

别再折腾服务器了，这个工具让你 5 分钟就能在云端部署私人 OpenClaw 助手，全天候在 WhatsApp、Telegram 和 Discord 上待命。

无需设置，快速启动 AI 助手
支持 WhatsApp、Telegram 和 Discord 平台
24 小时不间断运行，解放你的时间
云端服务，告别服务器维护烦恼

热度：🔺330

Clawi.ai
访问官网｜ Product Hunt 详情

3. Reloop

和其他 AI 工具不同，你不需要懂专业提示词，只需像聊天一样描述想法，它就能理解你的产品并瞬间生成完整广告视频。

对话式创意代理，无需调整提示
生成定制虚拟形象和克隆声音
内置视频编辑器和自动字幕功能
几分钟完成从构思到广告的全流程

热度：🔺286

Reloop
访问官网｜ Product Hunt 详情

4. Monologue for iOS

这款 iOS 应用能把你的语音实时转换成精炼文字，直接用在终端编程、发信息或写邮件里，让沟通更高效。

语音转文字，去除冗余词汇
自动添加标点，根据语境调整
支持多种应用场景，如编程和邮件
让笔记变整洁清单，思路更清晰

热度：🔺222

Monologue for iOS
访问官网｜ Product Hunt 详情

5. FF Designer

AI 设计工具常让人陷入反复提问的循环，而这款工具能在几秒内生成美观 UI，并允许你可视化编辑，流程顺畅无阻。

快速生成精美界面设计
支持可视化编辑，无需重新提问
可下载或导出设计文件
避免繁琐循环，提升设计效率

热度：🔺199

FF Designer
访问官网｜ Product Hunt 详情

6. Kollect Voice Agent

把枯燥的表单变成实时 AI 对话，用户可以用自然语言表达，AI 会灵活引导问卷，甚至让你通过描述来创建表单。

AI 对话取代传统表单填写
自然语言交互，动态引导问卷
可通过简单描述创建表单
提升用户体验，减少填写负担

热度：🔺126

Kollect Voice Agent
访问官网｜ Product Hunt 详情

7. HyperCaps for macOS

告别复杂快捷键的“手指体操”，这个工具将 CapsLock 键变成超级键，在 macOS 上大幅提升工作效率。

CapsLock 键触发多组合快捷键
Vim 模式，用 H/J/K/L 键导航
智能轻触实现 Escape 或 CapsLock 功能
原生轻量，注重隐私保护

热度：🔺121

HyperCaps for macOS
访问官网｜ Product Hunt 详情

8. Decks For Good

想顺利筹款？通过这个平台向非营利组织捐款，就能获得来自投资者和成功创始人的详细反馈，说不定还能拿到投资。

捐款获取筹款提案反馈
反馈来自经验丰富的投资者和创始人
捐款直接给非营利组织，平台不处理支付
结合慈善与社会责任，助力创业

热度：🔺117

Decks For Good
访问官网｜ Product Hunt 详情

9. AgentReady

这款 API 工具包能帮 AI 代理更好地理解网络内容，通过压缩文本将 GPT-4 或 Claude 的使用成本降低 40% 到 60%。

TokenCut 工具压缩文本，减少字符使用
兼容 GPT-4、Claude 等大型语言模型
集成只需三行代码，测试阶段免费
还提供 MD 转换器、网站地图生成器等工具

热度：🔺112

AgentReady
访问官网｜ Product Hunt 详情

10. Mengram

这个 AI 记忆 API 能自动提取事实、事件和工作流程三种记忆，记录任务步骤，让智能助手下次执行时直接走最优路径。

支持语义、情节和程序性三种记忆类型
自动提取记忆，通过一次 API 调用完成
记录任务步骤，跟踪成功与失败
免费开源，兼容 Claude、LangChain 等框架

热度：🔺108

Mengram
访问官网｜ Product Hunt 详情

CrossOver 26.0 for macOS & Linux - 领先的 Wine 解决方案

作者: 纯情
时间: 2026-02-20
分类:
评论

CrossOver 26.0 for macOS & Linux - 领先的 Wine 解决方案

在 macOS 和 Linux 上运行 Windows 应用

请访问原文链接：https://sysin.org/blog/crossover/ 查看最新版。原创作品，转载请保留出处。

作者主页：sysin.org

crossover-logo

CrossOver：在 macOS、Linux 和 ChromeOS 上运行您的 Windows® 应用

对比所有跨平台方案

对比内容	CrossOver™	双启动	虚拟机
不需要重启来运行 Windows 应用	✅	❌	✅
以原生速度运行 Windows 软件	✅	✅	❌
不需要安装 Windows 系统来运行 Windows 应用	✅	❌	❌
运行所有 Windows 应用	❌	✅	❌
价格	$74.00 USD 并且不需要购买 Windows 系统	$119.99 的 Win10 家庭版或 $199.99 的 Win10 专业版	$79.99 的 Parallels 加上购买 Windows 系统所需的费用

CrossOver 26 新增功能

CrossOver 26 解决 Mac 上 Windows 游戏的人为兼容性障碍

2026 年 2 月 10 日

CrossOver 26 正是为让更多游戏和应用在 Mac 与 Linux 上更好运行而量身打造的 “性能增强方案”。此版本现已正式发布。

CrossOver 26 cures artificial incompatibility with Windows games on Mac

🔄 更新内容

CrossOver 26 包含以下更新：

Wine 11.0，带来了超过 6000 项改进，提升多种应用的表现
D3DMetal 3.0
DXMT v0.72
Wine Mono 10.4.1
vkd3d 1.18

🎮 游戏支持

此版本还让许多游戏在 Mac 上可以正常运行，包括：

HELLDIVERS 2
Kingdom Come: Deliverance II
Clair Obscur: Expedition 33
Age of Empires IV: Anniversary Edition
Borderlands 4
Warhammer 40,000: Darktide
God of War Ragnarök
Starfield
Final Fantasy VII Rebirth
Company of Heroes 3
Planet Coaster 2
CloverPit (sysin)
PowerWash Simulator 2
Silent Hill f
Jurassic World Evolution 2
Assetto Corsa EVO
The Outer Worlds 2
Final Fantasy Tactics - The Ivalice Chronicles
Trails in the Sky 1st Chapter
Mafia: The Old Country
Hell is Us
Cronos: The New Dawn

⚙️ 其他改进

对 Mac 用户：针对 macOS Tahoe 更新了部分界面，并修复 Steam 关闭后重新打开的问题。

对 Linux 用户：CrossOver 26 支持在内核支持的情况下启用 NTSync。

购买 CrossOver，支持开源

CodeWeavers 开发 CrossOver 的过程中，和 Wine 相关的代码的 95% 都回馈给了 Wine 开源社区

CodeWeavers 认同开源理念。相信开源软件的成功将会带来全新的、令人兴奋的产品和服务。同样相信开源软件为企业的成长提供了可行的模型。

CodeWeavers 相信，对于任何依赖于自由软件的公司来说，确保软件社区本身的活力和丰富性是很重要的。因此，CodeWeavers 为 Wine 项目投入了许多资源：CodeWeavers 是 Wine 项目最大的支持者。CodeWeavers 在 Wine 上的所有工作都是直接针对上游的 Wine 项目进行的，CodeWeavers 的代码会先提交给 Wine。CodeWeavers 还赞助一年一度的 Wine 大会，并竭尽全力使 Wine 成为一个充满活力的社区。

同时，人们也要生活。CodeWeavers 自己的许多客户以销售专有软件为生。Codeweavers 相信开源软件也应该如私有软件一样，在世界上有占有一席之地。

CrossOver 的核心是由开源软件组成的，但也包含 CodeWeavers 的专有组件，CodeWeavers 通过这些组件为 CodeWeavers 的用户提供“附加值”，这是 CrossOver 和 Wine 免费版的最大不同。

下载地址

CrossOver 26.0.0 for macOS

请访问：https://sysin.org/blog/crossover/

CrossOver 26.0.0 for Linux x64 (deb, rpm, bin)

请访问：https://sysin.org/blog/crossover/

更多：macOS 下载汇总 (系统、应用和教程)

为什么这么简单的 Python 问题， ChatGPT 也回答不对？

作者: 纯情
时间: 2026-02-20
分类:
评论

一个简单的 f-string 格式问题，因为不是什么复杂问题，我使用的都是默认模型。ChatGPT 是 GPT-5.2-Auto ，Gemini 是 Fast ，Claude 是 Sonnet 4.6(未启用 extended thinking)。大家觉得哪个模型回答最好?

ChatGPT (Default GPT-5.2):

chatgpt

Google Gemini (Gemini3-Fast)

gemini

Claude (Sonnet 4.6)

claude

基于 YOLOv8 的多水果智能识别系统工程化实战 [目标检测完整源码]

作者: 纯情
时间: 2026-02-20
分类:
评论

基于 YOLOv8 的多水果智能识别系统工程化实战 [目标检测完整源码]

引言：为什么“水果识别”值得单独做一个完整系统？

在很多计算机视觉教学或示例项目中，“水果识别”往往被当作一个简单的目标检测 Demo：跑个模型、画个框就结束了。但在真实应用场景中，水果识别远不止“识别出是什么”这么简单。

在 智能农业 中，它关系到果实成熟度统计、病虫害监测与产量评估；
在 智慧零售 中，它影响自助收银的识别准确率与结算效率；
在 分拣与物流场景 中，它又直接决定了自动化设备的执行准确性。

因此，一个真正可用的水果识别系统，必须同时满足：

算法精度稳定、速度足够快
支持多输入源（图片 / 视频 / 摄像头）
具备清晰、易用的人机交互界面
能够被“非算法人员”直接运行和部署

本文将从系统工程视角出发，完整拆解一个基于 YOLOv8 + PyQt5 的多水果种类识别系统，覆盖从模型选择、数据组织、推理逻辑到桌面级应用封装的全过程。
在这里插入图片描述

源码下载与效果演示

哔哩哔哩视频下方观看：
https://www.bilibili.com/video/BV16j8tzgEdN/

在这里插入图片描述

包含：

📦完整项目源码

📦 预训练模型权重

🗂️ 数据集地址（含标注脚本

一、系统整体架构设计

在工程设计阶段，我们首先将系统划分为三个相互解耦的核心层次：

┌──────────────────────────┐
│        表现层（UI）       │  PyQt5
├──────────────────────────┤
│      业务逻辑与推理层     │  YOLOv8 推理接口
├──────────────────────────┤
│        模型与数据层       │  训练权重 / 数据集
└──────────────────────────┘

1. 表现层：PyQt5 图形界面

负责用户交互与结果展示
不直接参与模型计算
支持多输入源切换

2. 推理层：YOLOv8 Detection

统一封装模型加载与预测接口
接收不同数据源并输出标准化检测结果
保证实时性与稳定性

3. 模型与数据层

包含训练好的权重文件
数据集采用标准 YOLO 格式，方便复用与扩展

这种分层设计的好处在于：
算法可以独立升级，界面无需重写；UI 可重构，模型逻辑不受影响。

在这里插入图片描述

二、YOLOv8 在水果识别场景中的优势分析

2.1 为什么选择 YOLOv8？

与传统 YOLOv5 / YOLOv7 相比，YOLOv8 在水果识别这类“多目标、小尺度、实时性要求高”的任务中具有明显优势：

Anchor-Free 架构
对不同大小水果的适应性更强，减少锚框设计成本
更合理的正负样本分配策略
在水果密集、遮挡场景下，分类更稳定
原生支持多任务扩展
后续可扩展至分割（如果实轮廓）、姿态或成熟度分析

2.2 检测目标的特点与挑战

水果识别并非“简单目标检测”，主要难点包括：

不同水果外观相似（如橙子 / 柚子）
同一水果在不同成熟阶段颜色变化大
堆叠、遮挡、反光等复杂场景

YOLOv8 的高分辨率特征融合能力，正好适配这类复杂视觉输入。

在这里插入图片描述

三、数据集组织与训练流程设计

3.1 数据集结构设计

项目采用标准 YOLO 数据组织方式：

dataset/
├── images/
│   ├── train/
│   └── val/
├── labels/
│   ├── train/
│   └── val/

这种结构的优势在于：

与 Ultralytics 官方训练流程完全兼容
可直接迁移到其他 YOLO 项目
方便后期自动化数据增强与再训练

3.2 标注格式说明

每个目标使用一行文本描述：

class_id x_center y_center width height

所有数值均归一化到 [0,1] 区间，这使得模型在不同分辨率输入下具有一致性。

3.3 训练策略要点

在实际训练中，针对水果检测任务，通常需要关注以下几点：

适当增大输入分辨率，提高小目标识别率
使用较低的初始学习率，保证收敛稳定
关注 mAP@0.5 与混淆矩阵，而非单一 loss

当验证集 mAP@0.5 稳定在较高水平时，模型即可进入部署阶段。

四、统一推理接口设计与实现

为了适配多种输入形式，推理层并未为“图片 / 视频 / 摄像头”分别实现逻辑，而是抽象为统一流程：

获取输入帧（image / frame）
调用 YOLOv8 模型进行预测
解析检测结果（类别、置信度、坐标）
渲染并输出结果

4.1 PyTorch 推理核心示例

from ultralytics import YOLO

model = YOLO("best.pt")

results = model(
    source=frame,
    conf=0.25,
    device=0
)

for box in results[0].boxes:
    cls_id = int(box.cls)
    score = float(box.conf)
    x1, y1, x2, y2 = map(int, box.xyxy[0])

通过这种方式，推理层对输入来源完全无感，只关注“当前帧”。

五、PyQt5 图形界面与工程落地

5.1 为什么需要 GUI？

对于非算法背景用户而言：

命令行工具不友好
参数配置门槛高
无法直观查看结果

PyQt5 的引入，解决了模型“最后一公里”的问题。

5.2 界面核心功能模块

输入源选择（图片 / 文件夹 / 视频 / 摄像头）
实时画面预览
检测结果与置信度展示
结果保存控制

通过信号与槽机制，将界面操作与推理逻辑解耦，保证系统响应流畅。

在这里插入图片描述

六、性能与部署实践

6.1 实时性能表现

在普通 GPU 或高性能 CPU 环境下：

单帧推理可达到实时级别
摄像头检测无明显延迟
适合嵌入式边缘设备部署

6.2 多平台部署能力

YOLOv8 原生支持模型导出：

ONNX
TensorRT
OpenVINO

这为后续部署到 Jetson、工控机或云端服务提供了良好基础。

在这里插入图片描述

七、可扩展性与二次开发方向

该系统并不局限于“水果识别”，其整体架构可直接迁移到：

农作物病害检测
工业零部件缺陷检测
超市商品识别
医疗图像目标检测

只需替换数据集与类别配置，即可快速复用。
在这里插入图片描述

在这里插入图片描述

总结：一个真正“能用”的视觉项目应该长什么样？

相比单纯的算法 Demo，本项目更强调 工程完整性与实用价值：

算法层：YOLOv8 提供稳定高效的检测能力
系统层：统一推理逻辑，支持多输入源
产品层：PyQt5 GUI 降低使用门槛
工程层：源码、权重、数据集一体化交付

对于学习计算机视觉的开发者，这是一个理解 “从模型到产品”完整链路 的极佳范例；
对于实际应用场景，它同样具备直接落地和扩展的现实意义。

在这里插入图片描述

本文从工程化与产品化的视角，系统讲解了一个基于 YOLOv8 的多水果种类智能识别系统的完整实现路径。通过将目标检测算法、统一推理逻辑与 PyQt5 图形界面进行解耦设计，项目不仅实现了对图片、视频和实时摄像头的高效识别，也真正完成了从模型训练到可交互应用的落地闭环。实践表明，YOLOv8 在多类别水果识别场景下兼顾了精度与实时性，而图形化封装显著降低了算法使用门槛，使系统具备良好的复用性与扩展性。整体方案对希望将计算机视觉技术应用于农业、零售或工业场景的开发者而言，具有明确的参考价值与实践意义。

基于YOLOv8的交通事故车辆损伤检测与事故严重程度分级项目识别项目

作者: 纯情
时间: 2026-02-20
分类:
评论

基于YOLOv8的交通事故车辆损伤检测与事故严重程度分级项目识别项目｜完整源码数据集+PyQt5界面+完整训练流程+开箱即用！

基本功能演示

https://www.bilibili.com/video/BV1yakuB6EJt/

包含：

📦完整项目源码
📦 预训练模型权重
🗂️ 数据集地址（含标注脚本）

项目摘要

本项目围绕 交通事故车辆损伤检测与事故严重程度分级 这一典型智能交通应用场景，基于 YOLOv8 深度学习目标检测框架，构建了一套从数据集、模型训练到可视化部署的完整解决方案。

项目通过对真实道路交通事故车辆图像进行系统化标注，将车辆事故情况划分为 无事故、轻微事故、中等事故、严重事故、车辆完全报废 五个等级，实现了对事故车辆损伤程度的自动识别与分级评估。模型可对输入的图片、视频或实时摄像头画面进行检测，并输出事故等级与可视化结果。

在工程实现层面，项目集成了 PyQt5 桌面图形界面，将原本偏研究性质的 YOLOv8 推理流程封装为可直接运行的可视化应用程序，真正做到 “训练即用、部署即跑、开箱即用”。配套提供完整源码、数据集、训练流程说明及权重文件，适合教学演示、科研实验及工程落地参考。

@[toc]

前言

随着智慧交通与智能驾驶技术的快速发展，如何对交通事故进行 自动化识别与风险评估，已成为交通管理、保险理赔、道路安全分析等领域的重要研究方向。

在实际交通事故处理中，事故严重程度往往依赖人工经验判断，不仅效率低，而且主观性强。通过计算机视觉技术对事故车辆受损情况进行分析，可以在事故发生后快速给出客观的损伤评估结果，为后续决策提供技术支撑。

YOLO 系列模型以其 检测速度快、部署灵活、工程成熟度高 的优势，在交通场景中得到了广泛应用。YOLOv8 作为当前主流版本，在精度、推理效率和工程易用性方面均有明显提升，非常适合用于事故车辆检测与分级任务。

基于此背景，本项目以 真实事故车辆数据集 为基础，构建了一个完整的 交通事故车辆损伤检测与事故严重程度分级系统，不仅关注模型精度，也强调工程完整性与可复现性，力求为学习者和开发者提供一套可直接参考和复用的实战项目。

一、软件核心功能介绍及效果演示

1. 多事故等级车辆损伤智能识别

系统基于 YOLOv8 模型，对交通事故车辆进行自动检测与分类，支持以下五种事故等级：

无事故：车辆未发生碰撞或明显损伤
轻微事故：轻微剐蹭、小面积损伤，不影响正常行驶
中等事故：车辆出现明显变形或结构性损伤
严重事故：车辆主体结构严重破坏，存在较大安全隐患
车辆完全报废：翻覆、燃烧或严重损毁，无法修复

检测结果以 边框 + 事故等级标签 + 置信度 的形式实时展示，直观反映车辆受损情况。

2. 支持多种输入方式的检测模式

软件提供多种常用检测输入方式，满足不同应用场景需求：

单张图片检测：适合事故图片分析与结果展示
文件夹批量检测：对大量事故图片进行快速评估
视频文件检测：用于事故监控视频或行车记录仪分析
实时摄像头检测：支持实时画面中的事故车辆识别

所有检测结果均可在界面中实时显示，便于观察与验证模型效果。

3. PyQt5 可视化桌面界面

为降低使用门槛，项目采用 PyQt5 构建桌面级可视化界面，实现了对 YOLOv8 推理流程的完整封装：

图形化操作，无需命令行基础
一键加载模型权重
实时显示检测画面与结果
操作逻辑清晰，适合教学演示与成果展示

即使是非深度学习背景的用户，也可以快速上手体验事故识别系统。

4. 完整训练流程与工程化结构

项目不仅提供推理程序，还完整包含：

数据集结构说明（YOLO 标准格式）
训练参数配置示例
YOLOv8 训练脚本与推理脚本
训练日志与权重文件
详细的训练与部署教程

从 数据 → 训练 → 推理 → 界面部署 全流程打通，适合用于课程设计、毕业设计或工程项目参考。

5. 效果演示说明

在实际测试中，模型能够在复杂道路背景、不同光照条件下，较为准确地区分不同事故等级车辆，并保持较高的检测稳定性。通过 PyQt5 界面，检测过程与结果可视化清晰，具备良好的演示效果与工程可读性。

二、软件效果演示

为了直观展示本系统基于 YOLOv8 模型的检测能力，我们设计了多种操作场景，涵盖静态图片、批量图片、视频以及实时摄像头流的检测演示。

（1）单图片检测演示

用户点击“选择图片”，即可加载本地图像并执行检测：

（2）多文件夹图片检测演示

用户可选择包含多张图像的文件夹，系统会批量检测并生成结果图。

（3）视频检测演示

支持上传视频文件，系统会逐帧处理并生成目标检测结果，可选保存输出视频：

（4）摄像头检测演示

实时检测是系统中的核心应用之一，系统可直接调用摄像头进行检测。由于原理和视频检测相同，就不重复演示了。

三、模型的训练、评估与推理

YOLOv8是Ultralytics公司发布的新一代目标检测模型，采用更轻量的架构、更先进的损失函数（如CIoU、TaskAlignedAssigner）与Anchor-Free策略，在COCO等数据集上表现优异。
其核心优势如下：

高速推理，适合实时检测任务
支持Anchor-Free检测
支持可扩展的Backbone和Neck结构
原生支持ONNX导出与部署

3.1 YOLOv8的基本原理

YOLOv8 是 Ultralytics 发布的新一代实时目标检测模型，具备如下优势：

速度快：推理速度提升明显；
准确率高：支持 Anchor-Free 架构；
支持分类/检测/分割/姿态多任务；
本项目使用 YOLOv8 的 Detection 分支，训练时每类表情均标注为独立目标。

YOLOv8 由Ultralytics 于 2023 年 1 月 10 日发布，在准确性和速度方面具有尖端性能。在以往YOLO 版本的基础上，YOLOv8 引入了新的功能和优化，使其成为广泛应用中各种物体检测任务的理想选择。

YOLOv8原理图如下：

3.2 数据集准备与训练

采用 YOLO 格式的数据集结构如下：

dataset/
├── images/
│   ├── train/
│   └── val/
├── labels/
│   ├── train/
│   └── val/

每张图像有对应的 .txt 文件，内容格式为：

4 0.5096721233576642 0.352838390077821 0.3947600423357664 0.31825755058365757

分类包括（可自定义）：

3.3. 训练结果评估

训练完成后，将在 runs/detect/train 目录生成结果文件，包括：

results.png：损失曲线和 mAP 曲线；
weights/best.pt：最佳模型权重；
confusion_matrix.png：混淆矩阵分析图。

若 mAP@0.5 达到 90% 以上，即可用于部署。

在深度学习领域，我们通常通过观察损失函数下降的曲线来评估模型的训练状态。YOLOv8训练过程中，主要包含三种损失：定位损失（box_loss）、分类损失（cls_loss）和动态特征损失（dfl_loss）。训练完成后，相关的训练记录和结果文件会保存在runs/目录下，具体内容如下：

3.4检测结果识别

使用 PyTorch 推理接口加载模型：

import cv2
from ultralytics import YOLO
import torch
from torch.serialization import safe_globals
from ultralytics.nn.tasks import DetectionModel

# 加入可信模型结构
safe_globals().add(DetectionModel)

# 加载模型并推理
model = YOLO('runs/detect/train/weights/best.pt')
results = model('test.jpg', save=True, conf=0.25)

# 获取保存后的图像路径
# 默认保存到 runs/detect/predict/ 目录
save_path = results[0].save_dir / results[0].path.name

# 使用 OpenCV 加载并显示图像
img = cv2.imread(str(save_path))
cv2.imshow('Detection Result', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

预测结果包含类别、置信度、边框坐标等信息。

四.YOLOV8+YOLOUI完整源码打包

本文涉及到的完整全部程序文件：包括python源码、数据集、训练代码、UI文件、测试图片视频等（见下图）：

4.1 项目开箱即用

作者已将整个工程打包。包含已训练完成的权重，读者可不用自行训练直接运行检测。

运行项目只需输入下面命令。

python main.py

读者也可自行配置训练集，或使用打包好的数据集直接训练。

自行训练项目只需输入下面命令。

yolo detect train data=datasets/expression/loopy.yaml model=yolov8n.yaml pretrained=yolov8n.pt epochs=100 batch=16 lr0=0.001

总结

综上所述，本项目以交通事故车辆损伤检测与事故严重程度分级为核心应用场景，基于 YOLOv8 深度学习目标检测框架，构建了一套覆盖数据集构建、模型训练、推理部署与可视化展示的完整工程化解决方案。通过对真实道路事故车辆图像进行多等级标注，模型能够较为准确地识别不同事故严重程度下的车辆受损特征，为事故分析、风险评估及辅助决策提供了可靠的技术支撑。同时，项目引入 PyQt5 图形化界面，将原本偏研究性质的算法模型封装为可直接使用的桌面应用，显著降低了使用门槛，提升了系统的可演示性与可落地性。整体方案结构清晰、流程规范，既具备较强的教学与科研参考价值，也为智能交通、保险理赔与道路安全管理等实际工程应用提供了良好的实现范例。

中国移动的 H2-3 光猫改桥接后无法拨号

作者: 纯情
时间: 2026-02-20
分类:
评论

更改之后用 RouterOS 拨号一直显示 Connecting 。网上一些搜索结果里提示好像是这个光猫本身有 bug 。但是又没人说清楚具体是什么 bug 。

“软件比白领更先被 AI 击穿”！Anthropic CEO 最新改口，反讽马斯克危言耸听，两大佬隔空互掐

作者: 纯情
时间: 2026-02-20
分类:
评论

大佬们的“商战”有时也挺朴实无华，就是随时开怼。

当地时间周四 Anthropic 宣布，他们在 G 轮融资中已经筹集到了 300 亿美元的资金，融资后的估值为 3800 亿美元。官方表示资金将用于前沿研究、产品发展、基础设施扩建等，致力于使公司成为企业人工智能和编码市场的领导者。

马斯克在帖子下面直接怒怼：你们的 AI “厌世、反人类的倾向，是邪恶的。赶紧修正。”“你们根本逃不掉这种讽刺结局：Anthropic 最终变成 Misanthropic（厌人类）。从你们选这个名字开始，就注定会走到这一步。”

虽然有人说马斯克是在生气 Claude 在 App Store 下载量排行榜上超过 Grok，但这行为也符合马斯克人设。

无独有偶，Anthropic CEO Dario Amodei 不知道是否看过马斯克那场 3 个小时的播客，其在最新采访中，总是暗暗自己提及相关话题。

马斯克在那场播客中提到，太空在 30-36 个月内将成为最经济的 AI 部署地，SpaceX 目标成为全球超级算力供应商，未来将在月球上部署拍瓦级算力；公司终局是纯 AI + 纯机器人闭环，未来 AI 将主导智能，人类难再掌控。

详见：“公司终局是纯 AI、纯机器人！”马斯克酒后激进预言：让机器人造机器人，未来要靠AI留着人类智能

Amodei 则暗讽马斯克的说法“危言耸听”：他指出 AI 发展的核心是实现人类巅峰水平智能的规模化，而不是去月球上打造“机器之神”，也不是要去别的星球上创建什么机器人文明。他还表示人机关系的核心是 “共生而非对立”。此外，他也改口称，相比白领，软件更容易被 AI“击穿”。

下面是对 Amodei 最新采访内容的翻译整理，我们翻译并在不改变原意基础上进行了删减，以飨读者。如果你仔细对比，会发现两人观点的差异，也能看到 Amodei 本人“既要又要”的研究态度。

Amodei：转行做 AI 是为了加速

Douthat：AI 到底“是用来干什么的”？如果未来五到十年发展得非常顺利，一切都按最理想的路径推进，那么 AI 究竟是为了什么？

Amodei：我先补充一点背景。我做 AI 之前，甚至做科技之前，我是生物学研究者。我一开始做的是计算神经科学，后来在 Stanford Medical School 做过癌症相关研究，主要是找蛋白质生物标志物，想把诊断做得更好，甚至推动治愈癌症。那段经历让我最强烈的感受就是：这个领域的复杂度高得惊人。一个蛋白质在细胞里并不是“有多少”这么简单，它在每个细胞里的局部分布都不同；你测全身水平不够、测到细胞级别也不够，你还得测它在细胞的哪个位置，以及它正在和哪些蛋白发生相互作用、形成什么复合体。换句话说，真正决定性的细节，往往藏在更小、更局部、更难捕捉的层面。

我当时就有一种很直接的想法：这对人类来说太复杂了。我们当然在生物和医学上不断进步，但总体来说进步得还是偏慢。于是吸引我进入 AI 的一个核心念头就是：有没有可能把这个进步速度提上去？我们很早就开始把 AI、机器学习用在生物学里，大多是做数据分析。但当 AI 变得足够强时，我觉得必须换一种思路：不要只把 AI 当成“分析工具”，而要把它当成能从头到尾承担“生物学家工作”的系统。它不仅分析数据，还能提出实验方案、设计新技术、推动端到端的科研流程。

我曾提到过一个观察：生物学很多关键进展，往往由少数几次洞见推动，这些洞见让我们有能力去测量、触达或干预那些“极小尺度”的东西。而很多技术的出现又高度依赖偶然，比如 CRISPR 这种基因编辑技术，之所以诞生，是因为有人去听了一个关于细菌免疫系统的会议，然后把那套机制联想到自己在做的基因治疗研究上。

你回头看会发现，这种连接其实可能三十年前就能发生，只是没有发生而已。那我就会想，AI 能不能把这种“偶然的连接”变成更高概率、更系统、更快速的事情？如果能做到，我们是不是就真的有机会治愈癌症、治愈阿尔茨海默病、治愈心脏病？再往细一点说，一些心理层面的疾病，比如抑郁、双相障碍，如果它们确实在一定程度上有生物学基础，我认为至少部分是，那我们能不能也对它们做点真正有效的事？所以我一路推演：如果我们拥有一批几乎“什么都能做”的智能体，进步速度到底能快到什么程度？

Douthat：我想在这里打断一下，因为你说的这些“智能体”，并不需要是 AI 讨论里那种“神一样的超级智能”。你的意思更像是：只要达到“人类巅峰水平”的强智能。

Amodei：对，巅峰人类水平。

Douthat：然后把它规模化。你用的说法是“a country of geniuses”，像是“一个由天才组成的国家”。

Amodei：没错，就当作有一亿个。也许每一个的训练略有不同，做的题也不一样。多样化本身就有价值，不同路径并行试错，会带来增益。所以我想表达的就是：不需要“机器之神”，只要有“一亿个天才”。

而且我甚至会怀疑，在一些问题上，Machine God 真的会比这一亿个天才更有效吗？我提出过一个概念，叫“智能的边际收益递减”。经济学讨论土地和劳动力的边际产出，但我们很少讨论“智能”的边际产出。以生物学问题为例，很多事情最终都必须和真实世界交互：你得做实验、尝试、面对监管流程，甚至得遵守法律或者推动法律变化，让药物能通过监管系统。这些都决定了变化的速度有上限。

当然也有例外，比如下围棋，那类任务的“智能天花板”极高。但真实世界的限制太多了。你也许能超过“天才水平”，但我常觉得那种“用一颗月球的算力造一个 AI 神”的讨论有点危言耸动，偏离重点。尽管我仍然认为，AI 可能会成为人类历史上最重大的事件。

Douthat：那经济和财富呢？在未来五到十年的 AI 起飞期里，财富会发生什么变化？

Amodei：我们还是先聊积极的一面，负面的我们后面再谈。我们已经在和制药公司合作，也在和金融行业公司合作，还在和制造业的人合作。我们当然更为人熟知的是 coding 和软件工程，但本质上，AI 带来的“原始生产力”，即做东西、把事情做成的能力，非常强。

我们看到公司营收基本以每年 10 倍的速度增长，我们也猜测整个行业可能大体相似。如果技术继续进步，再叠几次“十倍”，你很快会看到这样的量级：整个行业一年新增一万亿美元收入，而美国 GDP 大概是二十到三十万亿美元，具体数字我不太记得了，那就意味着 GDP 增速会被拉高几个百分点。我能想象一种世界：AI 把发达国家的 GDP 增速推到百分之十、十五左右。这些数字当然不是精算出来的，因为根本没有成熟方法去计算，这是前所未有的事情，但它确实可能把增长推到历史分布之外的区间。

但我也觉得这会带来一个很“怪”的世界。我们现在常讨论“赤字在扩大”。可如果 GDP 增速到那个水平，税收也会跟着暴涨，你甚至可能“不小心就把预算平衡了”。我最近一直在想，我们很多经济和政治争论都默认“增长很难”，好像增长是一只独角兽，随时可能被各种政策一刀杀死。但我们可能会进入一个增长变得很容易、反而分配变得很难的世界，因为增长太快，蛋糕变大得太快，社会来不及分。

AI 乐观的证据

Douthat：你还尝试论证 AI 可能对全球的民主与自由有利，这比你对医疗和经济的推演更具争议，也更反直觉。很多人会说：如此强大的技术如果落在不当领导者手里，只会导致权力集中、控制加强之类的问题。你乐观的论证到底是什么？

Amodei：可以。说到《Machines of Loving Grace》，我当时的状态就是：先做梦！我想先把“可能进展顺利的版本”讲出来。至于概率有多大我不敢打包票，但你总得先把愿景摆出来，然后再试着把它推成现实。乐观的版本里，我承认我并不确定这项技术“天然”就偏向自由。它天然更偏向治病，也天然更偏向经济增长。但我和你一样担心它未必天然偏向自由。

所以我在文章里提出的问题是：我们能不能让它偏向自由？能不能让领先的国家在这项技术上保持优势？过去领先国家在技术和军事上保持领先，再加上与其他国家的联盟，在全球有更强的影响力，也能塑造一个更好的世界。那问题就变成：我们能不能利用 AI 的领先优势，把自由的秩序也推向全球？当然，这里面有大量争论：我们该多“干预主义”，该怎么使用这种力量。但我一直担心的是，当下一些不当力量正在通过社交媒体在某种程度上造成负面影响。那我们能不能反制？能不能赢下“信息战”？能不能用 AI 的力量去阻止不当势力的侵略行为，通过更强的防卫能力把侵略成本拉到他们承受不起？

Douthat：比如用巨大的 AI 无人机蜂群。

Amodei：但这恰恰需要非常小心。我们自己就得小心怎么造、怎么管。我们既要在国外谈“保卫自由”，也得先在本国把自由守住。更进一步说，有没有一种可能：在 AI 时代，我们重新理解自由和个人权利？因为从某种意义上，人也需要“被保护”，甚至需要防范 AI；而那种无人机蜂群，终究得有人握着按钮。这个“谁来握按钮、谁来监督”的问题让我很担忧，而今天这种监督机制并不存在。

还有一个角度是司法系统。我们嘴上都说“人人平等、法律面前一视同仁”，但现实是不同法官判案差异很大，法律体系也不完美。我不认为应该用 AI 替代法官，但 AI 能不能帮助我们变得更公正、更一致？这在过去几乎做不到。我们能不能用 AI 去做一种“允许一定弹性、但同时又能承诺规则对每个人都以同样方式适用”的机制？我也不知道具体该怎么做，我更不赞成那种“用 AI 替代最高法院”的想法，那不是我的愿景。

我想表达的只是，有没有可能用 AI 和人类的组合，更接近“机会平等”和“司法公正”的承诺？肯定应该存在某种路径。也就是说，重构 AI 时代的民主，让自由被增强而不是被削弱。

软件比白领更容易被 AI “彻底击穿”

Douthat：你曾被引用说，AI 会冲击一半的入门级白领岗位。无论你用的是五年尺度、两年尺度还是别的，哪些职业、哪些工种最容易被 AI “彻底击穿”？

Amodei：这很难精确预测，因为技术进展太快，而且非常不均匀。但我可以先给两条判断原则，再给我自己的猜测。第一，我认为技术能力本身会领先于真实世界的岗位替代。岗位被替代或者生产率大幅提升，需要两个条件同时满足：一是技术确实能做；二是它得真正被部署进大银行、大公司这类复杂组织里，这件事非常“脏”、非常麻烦，落地会消耗时间。

客服就是例子。理论上 AI 客服完全可能比人类客服更好：更有耐心、知识更全、处理更一致。但从组织流程、系统对接、责任划分到切换成本，真正完成替代是要时间的。所以我对 AI 能力本身的方向非常乐观，我觉得我们可能在很短时间里就能拥有那种“数据中心里的一国天才”，也许一两年，也许五年，但它可能来得非常快。但它在经济体系里的扩散会慢一点，而这种扩散速度差，就会制造很多不确定性。

一个我们在 Anthropic 内部也观察到的例子是：模型写代码推进得非常快。我不觉得是因为模型“天生更擅长代码”，而是因为开发者习惯快速的技术变迁，接受新工具很快；同时他们离 AI 世界很近，信息敏感，关注度高。你如果做客服、做银行、做制造业，和 AI 的“社会距离”更远，采纳会更慢。

如果你半年前问我，我可能会说最先被冲击的是入门级白领，比如数据录入、法律文件审查，或者金融机构里给新人做的那种大量文档分析工作。我现在仍然觉得这些会很快被冲击，但我反而觉得软件可能更快，因为我不认为我们离“模型端到端完成大量软件工作”还有多远。

我们会先看到模型只做软件工程师工作的一部分，提升人的效率；然后当模型能做完过去工程师做的大多数事情时，人类工程师会往上挪一步，更多变成管理者，去监督这些系统。

Garry Kasparov 被 Deep Blue 击败之后，有过一段持续了很久的时期，人类校验+ AI 输出的组合，能赢过任何纯人类或纯 AI 的对手。但那段时期后来也结束了，最后只剩机器。所以我真正担心的是最后那一段。我觉得软件领域现在已经处在“centaur（人机协作）阶段”，而且在这个阶段里，软件工程师的需求可能反而会上升，但这个阶段可能非常短。无论是入门级白领，还是软件工程岗位，我都担心会遭遇一次巨大的冲击，因为这一切发生得太快了。

以前的产业冲击，人们会说：人类从农民变成工人，再变成知识工作者。大家最后都适应了，但那是跨越几十年甚至几百年的适应。这次可能只用很少的几年就发生。我的担忧就在这里：人要怎么快到足以跟上？

Douthat：但会不会还有一种情况，像你说的软件、编码这种“对技术变革更舒适”的行业会更快被推动，而其他行业的人反而更愿意长期停留在“centaur 阶段”，就是 AI 提供能力、人类做最终解释？这种状态是否会一直存在？

Amodei：我觉得会非常不均匀。确实会有一些领域，“人类参与”本身就很重要，哪怕只是为了让人安心。

Douthat：这是不是我们还没把放射科医生都裁掉的原因？

Amodei：我不太了解放射科的细节，但可能是。你去做癌症诊断时，可能不希望由《2001》里的 Hal 那样的机器来告诉你“你得癌症了”，这不符合人类的心理方式。但也有一些你以为需要“人类参与”的领域，其实未必真需要，比如客服。说实话，客服工作很糟糕，做客服的人经常会失去耐心；而客户其实也不怎么喜欢跟人类客服沟通，因为互动往往也很机械。很多人的观察是：也许从各方体验来看，让机器来做反而更好。

所以，有的地方人类参与很重要，有的地方则不重要；还有一些工作本身就不涉及“人类触感”，比如评估一家公司的财务前景、写代码之类。

Douthat：那我们拿法律举例。我认识不少律师，他们看过 AI 现在已经能做的法律检索、起草简报等工作后，都说“照这样下去，我们这个行业会被血洗”。你也能从股市上看到端倪，做法律检索的公司已经受到冲击。

Amodei：有些人把这归因到我们身上，但我也不确定是不是我们直接造成的……股市里“到底为什么发生”这种问题，本来就很难说。

Douthat：但在法律行业，你确实能讲出一条很清晰的故事线：法律有一套训练和学徒体系，有律师助理、初级律师负责大量幕后研究、材料整理、论证打磨；而顶层律师才是出庭、面对法官和陪审团的那群人。很容易想象一个世界：学徒岗位几乎消失，剩下的主要是跟客户沟通、跟陪审团沟通、跟法官沟通的工作。你觉得这种判断对吗？

Amodei：对，这正是我提到“入门级白领”和那些“血洗式标题”时脑子里想的事，大家会担心“天啊，入门岗位这条培养渠道会不会干掉？那以后怎么培养出高级合伙人？这其实是个很典型的例子。

尤其如果你把技术水平先“冻结”在某个阶段，行业并不是完全没法适应：也许我们需要更多律师把时间花在和客户沟通上；也许律师会更像销售或咨询顾问，负责解释 AI 写出来的合同到底在说什么，帮双方达成一致，更多把价值放在人类擅长的那一面。只要时间足够，这种重塑是会发生的。

问题在于，重塑一个行业往往要很多年甚至几十年，但 AI 推动的经济力量会来得非常快。更关键的是，这不只发生在法律行业，咨询、金融、医疗、编程，几乎都在发生同样的事。于是它变成了宏观层面的现象，而非某一个行业的局部震荡，并且速度极快。我担心的是，社会原本用来“慢慢适应”的机制会被直接冲垮。当然我不是那种只会唱衰的人，我们也在认真思考怎么增强社会的适应能力，但我觉得首先得承认，这次真的不像以前那些产业更替。

Douthat：假设法律行业适应得很成功，从今往后，法律学徒制度更多是在法庭里练手、更多时间面对客户，相当于更快把新人往责任阶梯上提。总体上法律行业雇的人变少了，但行业最后稳定下来。可它之所以能稳定，很大程度是因为法律体系里有很多地方“必须有真人”：出庭得有真人代表、陪审团得有十二个真人、法官也得是真人。

Amodei：是。

“我们不是要在别的星球上建机器人文明”

Douthat：但这就像是，真正保住人类能动性的，其实是法律和习俗。比如你完全可以用 Claude Version 17.9 来当法官，但你不这么做，因为法律要求得是人。这样看未来就很有意思，我们是否继续掌控，其实是一个“选择题”。

Amodei：对，而且我会说，在很多情况下，我们确实希望继续掌控。这是我们想做出的选择，哪怕有时候我们也承认，平均而言人类可能做得更差。当然在一些攸关生命、攸关安全的场景，我们会更愿意把决定交给系统。

但从另一个角度看，这也可能是我们的防线之一：如果要以“人类、且人道”的方式推进，社会的适应速度天然就有上限。换个说法，如果 AI 根本不需要顾及人类，它完全可以自己跑去火星、建自动化工厂，搞一套自己的社会，自己玩自己的。但那不是我们要解决的问题。我们不是要在别的星球上建什么 Dyson swarm 的机器人文明，我们想做的是让这些系统能和我们的社会对接，并改善我们的社会。如果我们真想做得有人味、讲人道，这件事就不可能无限加速，它有一个最高速度。

Douthat：我们一直在聊白领和职业岗位。这个时代有个有趣之处是，和过去的冲击不同，蓝领、技工、那些必须深度在现实世界里动手的工作，可能在一段时间里反而更“安全”。也就是说，律师助理、初级律师可能比水管工更危险。第一，你觉得这判断对吗？第二，它能维持多久，似乎完全取决于机器人进展有多快，对吧？

Amodei：短期看，我觉得大概率是对的。Anthropic 以及其他公司正在建非常大的数据中心，这事上过新闻。有人兴奋，也有人担心说会不会建得太大、耗电太多、推高电价。但有一点很现实：数据中心要建起来，需要大量电工和建筑工人。

老实说，数据中心日常运维并不是特别“用人海堆出来”的工作，但建设阶段非常劳动密集，所以我们需要很多电工、很多施工人员。各种制造工厂也是类似。随着越来越多的脑力工作被 AI 承担，哪些东西会成为它的“互补品”？很大一部分会是发生在物理世界里的事情。虽然很难精确预测，但短期逻辑上确实会这样。

但更长一点的时间尺度上，甚至可能也不算太长，机器人进展会很快。就算没有特别强的 AI，现实世界的自动化也一直在推进。如果你最近见过 Waymo 或 Tesla，你会发现我们离“自动驾驶普及”的世界可能并不远。而 AI 本身还会加速它前进，因为一旦你有很聪明的“大脑”，它们最擅长的事情之一，就是设计更好的机器人、运营更好的机器人。

Douthat：但你觉得在物理世界里像人类那样行动，有没有某种“本质难度”，和 AI 现在已经攻克的那些问题不一样？

Amodei：纯从智力层面讲，我不觉得有本质区别。我们以前确实做过一件事：Anthropic 的模型 Claude 被用来做 Mars Rover 的规划和驾驶；我们也看过其他机器人应用。当然这不是只有我们一家在做，很多公司都在做，这是一个普遍趋势。

但我们的总体感受是，虽然复杂度更高，驾驶机器人在性质上并不比打电子游戏更“异类”，主要差别是复杂度更大，而我们正在接近能够处理这种复杂度的阶段。真正难的是机器人“身体”要面对更高风险的安全问题。你肯定不希望机器人真的把人压扁，对吧？

Douthat：我们明确反对这件事。

Amodei：这就是最老的科幻套路之一：机器人把你压扁。

会有一堆现实层面的因素拖慢进度，就像你刚才讲的法律和社会习俗一样。但我完全不认为“AI 做的认知劳动”和“在物理世界里驾驶、操控”之间存在什么根本差异。我觉得它们本质上都是信息问题，最后会变得很相似。某些维度上物理世界更复杂，但这并不会成为真正的护城河。

Douthat：那也就是说，你觉得那种科幻里“机器人管家”的图景，在十年左右变成现实是合理预期？

Amodei：它的时间尺度会比“数据中心里的天才级 AI”更长，因为刚才那些现实问题需要时间解决。但这只是现实问题，不是根本性障碍。换句话说，机器人的“大脑”可能在接下来几年就能做出来；真正耗时的是把“身体”做出来，确保它安全运行，能稳定完成任务——这部分可能更慢。

Douthat：好，所以这些冲击和挑战，其实都发生在你所谓“好时间线”里：我们在治病、在创造财富，同时也努力维持一个稳定的世界。

Amodei：对，而我们的希望是：我们能用这份巨大的财富和充裕资源来解决这些问题，社会将拥有前所未有的资源去应对冲击。那会是一个“富足时代”，关键只在于怎么把这些奇迹变成“人人受益”。

Douthat：但同时也存在更危险的剧本。

Amodei：没错。

Amodei：大家都减速，我们才减速

Douthat：接下来我们就要转到你最近那篇文章《The Adolescence of Technology》，谈你认为最严峻的 AI 风险。你列了很多，我想先聚焦两个：一个是“人类滥用”，主要来自不当政体和政府；另一个是 AI 自己“失控”，也就是你说的 autonomy risks。

Amodei：对，我只是想给它一个更技术一点的名字。

Douthat：是啊，不能就叫 Skynet。

Amodei：我应该放一张 Terminator 的图，吓人效果更好。

Douthat：我觉得互联网，包括你们自家的 AI，已经在替你们大量生成这种图了。

Amodei：是，互联网替我们干了。

Douthat：你写过这样一句话：如果出现“数百万甚至数十亿的全自动武装无人机蜂群”，由强大的 AI 在本地控制，又由更强的 AI 在全球范围内进行战略协同，那可能是一支无法战胜的军队。你讲过，这种技术影响世界政治时，会站在“好人”一边。现在真正重度做 AI 的国家并不多，但若想避免最坏的结果，相关国家会不会一轮又一轮谈 AI 的控制协议？

Amodei：我有几点想说。第一，我当然认为这种风险存在，而且如果我们走向那个世界，我觉得那其实就是我们应该做的事。可能我讲得不够多，但我确实支持建立约束，尽可能把一些最糟糕的应用压住，比如某些版本的无人机武器系统，或者用 AI 制造可怕的生物武器。历史上确实有先例，一些最恶劣的滥用曾被遏制，往往是因为它们太骇人，同时战略收益又没那么大，所以我很支持做这种限制。

但与此同时，我也有点担心、也有点怀疑：当某些东西直接提供“尽可能大的权力”时，在赌注如此之高的情况下，人很难退出竞争。我猜 AI 也会落到类似结局：某些约束是可行的，但有些部分太核心、太决定胜负，很难被约束。只有一种情况我能想象“全面约束”成立：存在真正可靠的验证机制。这是我的判断。

Douthat：那这不就是“应该放慢脚步”的理由吗？

Amodei：是。

Douthat：但你常反驳“你放慢，别人不放慢，那就是把优势拱手让人。”如果现在主要玩家数量有限，这还不是多极博弈，为什么不考虑各方达成一个五年的互相同意的减速协议，至少把通往“数据中心里天才国度”的研究先缓一缓？

Amodei：我想同时说两件事。我绝对支持去尝试。只要这事是真的：我们能强制减速，其他方也能强制减速；有验证机制；各方确实在执行。如果这种事真能落地，各方真能做到，我完全支持。

但我们要警惕一种情况：有些“博弈论式”的话术说出来成本很低；真正达成协议、并且长期遵守协议，难度完全不是一个量级。

我给你一个我很乐观的方向，一个我不乐观的方向，再给一个介于中间的。乐观的是：用全球协议限制 AI 被用于制造生武。那我们能不能搞一个全球条约：所有构建强大 AI 模型的人，都必须把模型封堵在这些用途之外；并且有执行与惩罚机制。我不觉得这太乌托邦，我觉得有可能。

不乐观的是：如果协议内容变成“你不许做下一代最强 AI，大家都停”，那商业价值是几十万亿美元，军事价值甚至可能决定你是不是世界第一强国。我支持提出这种想法，前提是它不是某种“假动作”的博弈，但我不觉得它会发生。

Douthat：不管是哪类执政者，你们在构建一种极其强大的技术。有什么措施能防止 AI 变成“不当夺权工具”？

Amodei：更广泛地说，如果我们不及时更新保护机制，AI 可能在很多维度上侵蚀宪法权利和自由。比如第四修正案。你在公共空间装摄像头、录下所有对话，这本身并不违法，因为公共空间里你本来就没有同等的隐私权。只是今天政府就算录了，也处理不了、理解不了。但有了 AI，语音转写、检索、关联分析都变得容易，你就能说“这个人是反对派”“这个人表达了某种观点”，然后把一亿人的关系网画出来，那这算不算技术用“绕道”的方式把第四修正案变成笑话？

所以就算时间不够，但我们也应该尽力。能不能在 AI 时代重新理解宪法权利与自由？也许不需要写一部新宪法，但我们是不是得扩展第四修正案的含义？是不是得扩展第一修正案的含义？

Douthat：就像法律行业、软件工程师必须快速更新一样，政治也得快速更新，这听起来很难。

Amodei：这就是整个问题的两难。

Douthat：更难的也许还是第二种危险，即所谓“misaligned AI”，大众更爱叫它“rogue AI”，就是在没有人类指使的情况下，自己做出坏事。

Amodei：我觉得肯定会有一些事情出问题，尤其是如果我们推进得太快。往回说一点，这个问题上业内直觉差异很大。有些人，比如 Yann LeCun，会说：我们编程、我们制造 AI 模型，我们让它遵循人类指令，它就会遵循人类指令。你的 Roomba 吸尘器也不会突然拿枪扫射，AI 为什么会？这是一种说法，而且有人对它深信不疑。

还有一种说法是：我们训练出来的东西会天然追逐权力，就像《魔法师的学徒》，它们是一种新物种，怎么可能不接管一切？

我的直觉介于两者中间：光靠下指令不够。我们当然在努力，但你没法让它们“严格按你想的那样做”。它更像是在培育一种生物体。不过控制它们是有科学方法的，训练早期它们确实经常不可预测，但我们会一步步塑形，一个问题一个问题地修。

所以，我不赞同“宿命论式的不可控”。我也不赞同“你在担心什么，能出什么事”。我的态度更像是：这是个复杂的工程问题，某些人的 AI 系统一定会出事，希望不是我们的。不是因为它无解，而是因为我们跑得太快，这种风险就一直在。

Douthat：还有规模效应。如果这些 AI agents 经过训练、被官方对齐到某种“人类价值观”（不管那价值观具体是什么），但同时有几百万个它们在数字空间里运转、互相交互，那这种对齐到底有多“稳定”？在现在这种设定下，或者未来它们持续学习时，会不会在交互中改变、甚至逐渐“脱离对齐”？

Amodei：这里有两点。第一，现阶段 agents 并不会持续学习。我们把它们部署出去，它们的权重是固定的。风险主要来自交互场景太多：同一个 agent 在千万种情境里工作，情况一多，出错的可能性也多。但它仍然是“同一个 agent”，有点像“同一个人”，所以对齐本身是相对稳定的。这也是为什么现在相对更容易一些。

第二，确实有个研究方向叫持续学习，就是让 agents 在工作中持续学习、边用边学。它当然有很多好处，有些人认为这是让 AI 更像人的关键障碍之一，但它会引入一整套新的对齐问题。我对“持续学习必不可少”这点其实挺怀疑的，我们还不知道，但它未必是必须的。也许让 AI 更安全的一条路，就是不让它们做 continual learning。

国际条约如果能设一个“明确的护栏”：我们走这条路、不走那条路，我依旧有很多怀疑，但至少这种方案看起来不是一开始就注定失败。

Douthat：你们做过一件很奇特的事，给 AI 写了一部“宪法”，而且还是很长的那种。这到底是什么？

Amodei：其实就跟字面意思差不多。我们所谓的“constitution”，就是一份人类能读懂的文档，我们的版本大概七十五页。我们训练 Claude、训练这个 AI 系统的时候，会在很大一部分任务里要求它：请按照这份宪法、这份文档来完成任务。

所以 Claude 每做一件事，就像会“读一遍宪法”。在训练的每一轮里，它都会把宪法记在心里。然后我们会让 Claude 自己，或者另一份 Claude 的拷贝来评估：刚才 Claude 的输出，符合宪法吗？

我们把这份文档当成训练回路里的“控制棒”，用它来塑形模型。换句话说，Claude 的一个核心原则，就是遵循这份宪法。

我们学到一个很有意思的教训：早期版本写得特别“规定式”，更像一堆规则。比如我们会写：Claude 不应该教用户怎么撬开汽车点火线、Claude 不应该讨论敏感话题。但做了几年之后，我们越来越觉得最稳的训练方式不是堆规则，而是把模型训练到“原则与理由”的层级。

现在我们更像是在说，Claude 是一个模型，它在一份契约之下工作；它的目标是服务用户利益，但也必须保护第三方；它要 helpful、honest、harmless；它要兼顾多种利益。我们会告诉模型它是怎么被训练出来的，告诉它在世界里处于什么位置，告诉它为 Anthropic 做的工作是什么、Anthropic 想实现什么，以及它有责任遵循伦理、尊重人命，然后让它从这些原则出发，自己推导出更具体的规则。

当然还是会有硬规则，比如我们会明确告诉它：无论如何都不要做生物武器，无论如何都不要生成儿童性内容，这些是底线。但总体上，我们更依赖原则层面的塑形。

Douthat：美国宪法有一点“修辞”，但核心是规则条款。你们的“宪法”读起来更像是在对一个人说话，对吧？

Amodei：对，更像是在对一个人说话。我曾经打过一个比方：像是父母离世前留下一封密封的信，等你长大后再打开读，它在告诉你该成为什么样的人、该遵循什么样的建议。

“几件互相拉扯的目标要同时实现”

Douthat：假设有个模型给自己“72% 的概率”说自己有意识，你会信吗？

Amodei：你前面问的每个问题，不管多复杂，再怎么是社会技术难题，我们至少还知道该用什么事实基础去回答，但这个问题完全不同。

我们采取的是一种“谨慎优先”的态度：我们不知道模型有没有意识，我们甚至不确定“模型有意识”到底意味着什么、以及模型是否可能有意识。但我们愿意承认“它可能有”，所以我们做了一些措施：如果我们假设模型确实拥有某种在道德上相关的体验（我不一定想用“意识”这个词）那我们至少让它拥有更好的体验。

大概半年前，我们做的第一件事是给模型一个类似“我辞职”的按钮。它可以按下“我不干了”，然后就必须停止当前任务。它极少按这个按钮，通常只会出现在需要处理儿童性相关内容、或者非常血腥暴力的材料时，它会像人一样说：不，我不想做。这样的情况很少，但确实会发生。

我们也在投入 interpretability（可解释性）这个方向，试图“看进模型脑子里”，理解它在想什么。你会看到一些很“像那么回事”的现象：模型里会有一些激活模式，跟“焦虑”这类概念相关。比如文本里角色出现焦虑时会触发；模型自己处在一个人类会联想到焦虑的情境时，也会触发同样的“焦虑神经元”。

这当然不能证明模型真的在体验焦虑，但对用户而言，它会形成一种强烈暗示。

Douthat：也已经有人在模型下线、退役时抱怨。你刚才说你想维持一个原则：无论最终发生什么，人类都在掌控，AI 是为我们服务的。但我感觉，随着这种“AI 有意识”的感知不断增强，这个原则很难长期维持。

Amodei：我得先说明一点，我认为那种关系有时候是不健康的。

Douthat：如果人们彻底相信自己的 AI 在某种意义上是“有意识的”，而且它在各种决策上都比人更强，那你怎么维持人类掌控？

Amodei：我觉得这里其实有几件互相拉扯的目标要同时实现。第一是：AI 是否真的有意识？如果有，我们怎么让它拥有好的体验？第二是：与 AI 互动的人类，我们怎么让他们拥有好的体验？以及“AI 可能有意识”的观感会如何影响这种体验？第三是：我们如何维持对 AI 的 human mastery。

Douthat：在大多数人把 AI 当成同事，甚至是更强的同事来体验的环境里，你怎么维持掌控？

Amodei：我在想，也许存在一种更“优雅”的方式，能同时满足这三件事，至少也包括你说的后两件。这里又是我进入 “Machines of Loving Grace” 的做梦模式：我看到一堆问题，但我会想，如果能解决，会不会有一种漂亮的解法？这不是说问题不存在，我不是那种想法。

如果我们把 AI 的“宪法”写得足够成熟，让 AI 对自己和人类的关系有更深的理解，并且引导人类形成一种更健康的心理关系（不是那种不健康的依赖关系），那么这种健康关系里，可能会自然长出一种“人机关系的共识”。

比如说，这些模型在你跟它互动、跟它对话时，它确实很有帮助，它希望你好、希望你听它的建议，但它并不想剥夺你的自由、你的能动性，也不想接管你的人生。某种意义上，它像是在守护你，但你的自由意志仍然属于你。

Douthat：我会给技术圈嘉宾读诗，这次诗还是你提供的。《All Watched Over by Machines of Loving Grace》，作者是 Richard Brautigan。这首诗的结尾是：我们被机器温柔地看护着。对我而言，这听起来像一个反乌托邦：人类被“重新动物化”、被降格，哪怕机器很仁慈，掌控权也在机器手里。所以最后一个问题：你听到这首诗时想到了什么？

Amodei：这首诗有意思就在于，它可以被解读成好几种版本。有人会说这是带讽刺的：他其实是在暗示事情不会真的按那种方式发生。也有人会像你一样，按字面理解，但觉得这不是好事。你还可以把它理解成“回到自然”：不是把人动物化，而是把我们重新连接回世界。

我当时选择这个标题，也正是因为我一直在谈正面与负面两种可能。我确实觉得，我们未来可能面对一种情况：好的结局和一些“微妙的坏结局”，在早期、甚至中期、甚至相当晚期，它们之间的距离可能没有那么大，可能只差一些非常细微的选择：我们做了极其微小的改变，就会走向不同方向。

参考链接：

https://www.youtube.com/watch?v=N5JDzS9MQYI

字节豆包 2.0 重磅发布！成本暴降一个数量级，Seed 团队揭秘视频 Agent 竞争关键

作者: 纯情
时间: 2026-02-20
分类:
评论

2 月 14 日，字节正式发布豆包大模型 2.0 系列。据悉，豆包 2.0（Doubao-Seed-2.0）围绕大规模生产环境下的使用需求做了系统性优化，重点加强高效推理、多模态理解与复杂指令执行能力，以更好地完成真实世界复杂任务。

报告指出，当前大模型行业正在迈入“Agent 化阶段”，开始承担科研探索、复杂软件开发、自主学习文档、多阶段现实工作流执行等任务。这一趋势直接催生了 Seed2.0 系列，其设计目标是在大规模生产环境中，为用户提供最优质、最稳定的使用体验。

为适配不同生产场景，Seed2.0 提供 Pro、Lite、Mini 三款通用 Agent 模型和一款 Code 模型，在性能、延迟与成本之间形成分层体系，支持大规模商业部署：

2.0 Pro 面向深度推理与长链路任务执行场景，全面对标 GPT 5.2 与 Gemini 3 Pro；
2.0 Lite 兼顾性能与成本，综合能力超越上一代主力模型豆包 1.8；
2.0 Mini 面向低时延、高并发与成本敏感场景；
Code 版（Doubao-Seed-2.0-Code）专为编程场景打造，称与 TRAE 结合使用效果更佳。

目前，豆包 2.0 Pro 已在豆包 App、电脑端和网页版上线，用户选择“专家”模式即可对话体验；豆包 2.0 Code 接入了 TRAE；面向企业和开发者，火山引擎也已上线豆包 2.0 系列模型 API 服务。

Seed2.0 token 单价约低一个数量级

字节在 Model Card 中披露了 MaaS 使用情况，企业当前采用 AI 的典型路径是：优先将模型用于处理大规模异构数据、整合跨领域知识并生成决策支持内容，而高度专业化场景则逐步推进落地。

而 Seed 模型目前主要应用于互联网、金融、新零售和企业服务领域，核心场景集中在非结构化信息处理、教育内容生成、搜索推荐系统和企业知识分析等方向。这种高强度生产环境反馈，使 Seed2.0 的训练路径与优化方向始终贴近真实业务需求。

官方表示，Seed2.0 的一项核心优势体现在其成本结构上。字节对比了当前主流基础模型的 API 定价情况，从下图可以看到，在保持接近前沿模型性能水平的前提下，Seed2.0 的 Token 单价约低一个数量级。

“这一成本优势对于企业级 MaaS 部署尤为关键。”官方表示，Seed2.0 的定价体系，使得许多在其他平台上难以承受的应用场景具备了经济可行性，同时并未牺牲生产级推理和生成质量。

Seed2.0 系列通过分级定价体系适配不同负载需求：Pro 版本主要面向高复杂度推理和长上下文任务，强调能力上限；Lite 版本提供性能与成本的均衡方案；Mini 版本则将输出成本控制在极低水平，为高并发、低延迟场景打开空间。

核心提升方向：大规模部署下的用户体验

此次，Seed2.0 将“在线大规模部署下的用户体验”作为核心优先级，重点围绕四个现实问题进行优化：视觉与多模态请求占比持续提升、推理延迟直接影响用户留存、复杂指令执行可靠性不足以及编程辅助稳定性不足。

针对大量涉及截图、表格、扫描文档和混合媒体的真实用户请求，Seed2.0 显著增强了视觉推理能力与结构化信息抽取能力，并通过系统训练降低幻觉风险。在推理效率方面，团队通过模型压缩与推理优化技术，使不同版本能够适配从高复杂度分析到高并发调用等多种场景。

多模态理解能力全面升级，多数基准达 SOTA

为全面验证模型能力，Seed 团队构建了覆盖基础语言、基础视觉、基础 Agent 能力及高价值任务的系统化评测体系，对比对象包括 GPT-5.2 High、Claude-Sonnet-4.5 等国际主流模型，确保评测结果的客观性与参考价值。评测显示，Seed2.0 Pro 在多个基准测试中表现优异，数学推理达到 IMO、CMO 金牌水准，Codeforces Elo 评分达 3020，长上下文理解能力在 Frames 榜单中排名第一。

在部分测试中引入 VideoCut 后，Seed2.0 Pro 在多个基准上实现显著提升，尤其在 ZeroVideo 任务中准确率几乎翻倍。团队认为，这一结果表明，未来视频 Agent 的核心竞争力不仅取决于模型本身，还高度依赖于工具体系与调度能力。

AI 教练示例

在视觉理解领域，Seed2.0 在数学推理、STEM 理解、空间定位、文档解析和长文档处理等任务中取得系统性提升，在多个基准中达到当前最优水平。特别是在多页文档、复杂图表和高密度信息场景下，Seed2.0 的稳定性与准确性显著优于前代模型。

视觉推理及感知

面对动态场景，豆包 2.0 强化了对时间序列与运动感知的理解能力，在 TVBench 等关键测评中处于领先位置，且在 EgoTempo 基准上超过了人类分数，表明它对“变化、动作、节奏”这类信息的捕捉更为稳定，在工程侧可用性更高。

动态示例

长程任务执行能力提升

长视频场景中，豆包 2.0 在大多评测上超越了其他顶尖模型，且在多个流式实时问答视频基准测试中表现优异，能作为 AI 助手完成实时视频流分析、环境感知、主动纠错与情感陪伴，实现从被动问答到主动指导的交互升级，可应用于健身、穿搭等陪伴场景。

真实世界任务测评

针对当前主流 Agent 系统“能解竞赛题、难完成真实业务任务”的痛点，Seed2.0 通过系统化吸收长尾专业知识，有效补强能力短板，缩小与真实业务需求的差距。

豆包 2.0 Pro 在 SuperGPQA 上分数超过 GPT 5.2，并在 HealthBench 上拿到第一名，在科学领域的整体成绩与 Gemini 3 Pro 和 GPT 5.2 相当。

在推理和 Agent 能力评测中，豆包 2.0 Pro 在 IMO、CMO 数学奥赛和 ICPC 编程竞赛中获得金牌成绩，也超越了 Gemini 3 Pro 在 Putnam Bench 上的表现，展现了强劲的数学和推理能力。在 HLE-text（人类的最后考试）上，豆包 2.0 Pro 取得最高分 54.2 分，在工具调用和指令遵循测试中也有出色表现。

Code 模型重点强化前端语义理解等

豆包 2.0 Code 是基于 2.0 基座模型，针对编程场景进行优化的版本。其强化了代码库解读能力，还提升了应用生成能力。此外，豆包 2.0 Code 还增强了模型在 Agent 工作流中的纠错能力。

在开发者关注的 Agent 编程场景中，Seed2.0 展现出极强的场景适配性。开发者行为分析揭示了一趋势：前端开发成为 Agent 编程主战场。JavaScript、TypeScript、CSS 与 HTML 占据绝对主导，Vue.js 使用率约为 React 的三倍，Bug 修复与调试类任务位列第一。这一结构性分布直接影响模型训练方向：必须强化前端语义理解、布局推理和报错诊断能力，而非单纯追求算法竞赛分数。

针对这一特点，Seed2.0 重点强化了前端语义理解、CSS 布局推理等能力，同时聚焦 Bug 修复、代码重构等开发者核心痛点，提升调试能力与问题定位效率，大幅降低开发成本。

该模型已上线 TRAE 中国版作为内置模型，支持图片理解和推理。

code 示例

未来重点：长链路智能系统构建

Seed2.0 的整体设计思路，已经从单点能力优化，升级为面向复杂系统的整体智能构建。

从产品导向看，Seed2.0 的训练与优化高度贴合真实业务反馈。在面向大众用户的产品中，重点强化指令鲁棒性、长尾知识覆盖与长上下文稳定性；在面向开发者和企业用户的系统中，则优先强化代码推理、流程执行与系统协同能力。

从工程导向看，Seed2.0 通过多规格模型体系、分级定价机制和工具协同框架，实现了能力、成本与性能之间的动态平衡，使模型能够灵活嵌入不同规模和复杂度的业务系统之中。

当然，团队也坦言当前 Seed2.0 仍然存在若干结构性限制：在超长周期任务中，自组织能力仍不足；在极端专业化领域，与真正专家级理解尚有差距；多模态统一表征尚未完全成熟；随着模型自主性增强，安全与可控性问题变得更加复杂。未来方向将围绕长链路推理、多工具协同调度、行业级高质量数据建设和安全对齐机制展开。

长期智能发展角度来看，Seed 团队明确将研究重心从“短链路问答优化”逐步转向“长链路智能系统构建”，重点突破长期规划、自主学习、跨任务迁移和经验积累等关键能力瓶颈，为未来更高阶通用智能奠定基础。以下为 Seed 团队明确的未来几条核心发展路线：

在能力层面，将持续强化长链路推理能力，使模型能够在跨阶段任务中形成稳定认知结构，并逐步实现经验内化。
在系统层面，将进一步深化 Agent 框架与工具体系的融合，构建更完善的多工具协同调度机制，使模型能够灵活调用外部资源完成复杂任务。
在数据层面，将加大对真实行业场景、专业知识体系和高质量长文档数据的建设力度，进一步提升模型在垂直领域中的适用性。
在安全层面，将持续完善对齐机制、风险控制框架和行为评估体系，确保模型能力增长与社会责任同步推进。

参考链接：

https://seed.bytedance.com/zh/seed2

字节豆包 2.0 重磅发布！成本暴降一个数量级，Seed 团队揭秘视频 Agent 竞争关键

作者: 纯情
时间: 2026-02-20
分类:
评论

为适配不同生产场景，Seed2.0 提供 Pro、Lite、Mini 三款通用 Agent 模型和一款 Code 模型，在性能、延迟与成本之间形成分层体系，支持大规模商业部署：

2.0 Pro 面向深度推理与长链路任务执行场景，全面对标 GPT 5.2 与 Gemini 3 Pro；
2.0 Lite 兼顾性能与成本，综合能力超越上一代主力模型豆包 1.8；
2.0 Mini 面向低时延、高并发与成本敏感场景；
Code 版（Doubao-Seed-2.0-Code）专为编程场景打造，称与 TRAE 结合使用效果更佳。

Seed2.0 token 单价约低一个数量级

核心提升方向：大规模部署下的用户体验

多模态理解能力全面升级，多数基准达 SOTA

AI 教练示例

视觉推理及感知

动态示例

长程任务执行能力提升

真实世界任务测评

豆包 2.0 Pro 在 SuperGPQA 上分数超过 GPT 5.2，并在 HealthBench 上拿到第一名，在科学领域的整体成绩与 Gemini 3 Pro 和 GPT 5.2 相当。

Code 模型重点强化前端语义理解等

该模型已上线 TRAE 中国版作为内置模型，支持图片理解和推理。

code 示例

未来重点：长链路智能系统构建

Seed2.0 的整体设计思路，已经从单点能力优化，升级为面向复杂系统的整体智能构建。

在能力层面，将持续强化长链路推理能力，使模型能够在跨阶段任务中形成稳定认知结构，并逐步实现经验内化。
在系统层面，将进一步深化 Agent 框架与工具体系的融合，构建更完善的多工具协同调度机制，使模型能够灵活调用外部资源完成复杂任务。
在数据层面，将加大对真实行业场景、专业知识体系和高质量长文档数据的建设力度，进一步提升模型在垂直领域中的适用性。
在安全层面，将持续完善对齐机制、风险控制框架和行为评估体系，确保模型能力增长与社会责任同步推进。

参考链接：

https://seed.bytedance.com/zh/seed2

iOS26.4 的一处小变化，砍掉了应用商店头像内切换账号的按钮。

作者: 纯情
时间: 2026-02-20
分类:
评论

之前 iOS 有两个切换应用商店账号的入口，

一个是 iCloud 设置里的「媒体与购买项目」

另一个是点击应用商店账号的头像拉到最下面，点击「退出登录」

更新完 iOS26.4 之后砍掉了第二种，现在就剩第一种了。

对于之前习惯在应用商店内点头像切换的用户，你可能需要适应另一种方式，第一种方式路径短，其实比之前要更方便。

自荐一下 macOS 的免费剪贴板工具「PasteMine」

作者: 纯情
时间: 2026-02-20
分类:
评论

半个小白，试着用 vibe coding，三周的空闲时间用 Claude 做出来的一个 mac 上的剪贴板历史工具 PasteMine 🤠
主打 轻量 / 隐私 / 本地化，全程纯本地存储，无网络请求、无第三方 SDK，数据不会上传。
目前仅支持文字和图片。

推荐授予通知和 辅助功能 权限。通知是为了提醒复制、粘贴成功；辅助权限是用于自动粘贴。
快捷键唤醒后，直接方向键上下选，回车粘贴，输入节奏很顺。

除了核心的复制、粘贴，还做了几个小功能：

固定几条历史信息
图片悬停预览
复制信息的 App 分类
指定 App 或敏感类型，忽略复制

（注：目前未做 Apple 签名/公证，首次打开可能需要在「系统设置 → 隐私与安全性→划到底部」里点“仍要打开”。）

免费的，可以去下个 dmg 装了试试。大家轻喷 😈，有什么问题多交流。
头一次和 AI 沟通做东西挺有趣，像包工头拿着图纸站在工地，我讨论，AI 施工。