xiaohack's Blog

奥运首个官方大模型基于阿里千问，考文垂：这届奥运为的遗产是 AI 驱动的智能化

作者: 纯情
时间: 2026-02-05
分类:
评论

2 月 5 日，米兰冬奥会开幕在即，国际奥委会主席柯丝蒂·考文垂在国际转播中心举行的活动中宣布，国际奥委会已基于阿里千问大模型打造了奥运史上首个官方大模型。这一奥运官方大模型将在专业赛务与公众服务双端同步落地。

在赛务侧，国际奥委会在其面向各国奥委会工作人员的网站上线了“国家奥委会 AI 助手”。该助手依托千问大模型强大的多语言理解能力，并通读数百万字官方手册。代表团成员只需用母语提问，即可获取从资格审核到后勤调度等各项问题的精准解答。这一应用有效消除了语言与地域隔阂，大幅提升了全球代表团的备赛协同效率。

（国家奥委会 AI 助手）

在公众侧，国际奥委会也将在官网（Olympics.com）上线基于千问大模型打造的“奥运 AI 助手”。该助手将面向全球观众开放，能够实时、精准地解答关于赛事规则与奥运历史的各类提问，通过 AI 技术拉近大众与奥运的距离。

考文垂在现场高度评价了 AI 技术对本届冬奥会的变革性意义。她表示，得益于千问大模型的技术支撑，2026 米兰冬奥会展现了奥林匹克运动的智能化未来，将成为史上“最智能”的一届奥运会。

据介绍，基于千问大模型 Qwen-VL 开发的自动媒体描述系统也在直播生产环节投入运行，实时识别进球、犯规等关键事件并生成描述。此外，AIGC 技术也首次大规模应用于冬奥会的内容生产环节。米兰冬奥组委会基于阿里万相大模型，高效创作了一系列面向全球粉丝的多媒体宣传素材。

除了大模型应用，阿里云 AI 增强的转播特效技术渗透率也在本届冬奥会上创下新高。针对冬奥会特有的“雪地背景纹理单一、缺乏特征点导致视觉盲区”的问题，阿里云采用多模型融合算法，攻克了雪地场景的高精度重建难题。该技术已部署于米兰冬奥的 10 个核心竞赛场馆，覆盖高山滑雪、跳台滑雪、冰球等超三分之二的比赛项目。全球观众将在转播中看到更清晰的“子弹时间”定格画面及新增的“时间切片”特效，身临其境地看清运动员在空中极速翻转的完整轨迹。

此外，作为史上赛区地理跨度最广的一届冬奥会，阿里云支撑构建了交通管理系统，在风雪交加的阿尔卑斯山区打通了从城市进入山区的“最后一公里”。同时，阿里云“能耗宝”持续运行，新增“能源问题追踪系统”，以数字化手段支撑米兰冬奥实现更可持续化的目标。

“每一届奥运会都会留下独特的遗产。而米兰冬奥会的遗产将是智能化，具体来说，是人工智能驱动的智能化。”考文垂在演讲最后总结道，“这份 AI 能力，正是米兰冬奥会留给世界的‘永恒礼物’，它将重塑奥林匹克运动会的未来。”

AI 驱动的大数据自治：TCInsight 智能应对复杂运维挑战

作者: 纯情
时间: 2026-02-05
分类:
评论

在大数据平台高速发展的当下，生态扩张与业务量激增，致使大数据分布式组件问题愈发棘手，传统专家运维模式捉襟见肘。以腾讯大数据庞大的规模为例，面对海量计算单元、繁杂技术栈以及千万级任务管理，借助 AI 驱动实现大数据系统的故障和问题的快速洞察与自治能力，已成为行业迫切需求。

在 InfoQ 举办的 QCon 全球软件开发大会（北京站）上，腾讯专家工程师熊训德做了专题演讲“AI 驱动的大数据自治：智能应对复杂运维挑战”，他介绍了如何通过可拔插的决策引擎、以及数据专家自治智能体构建大数据智能管家，让企业能够理解如何高效、智能地处理复杂的运维场景，从而大幅提升大数据场景下运维效率与准确性，引领大数据线上系统迈向全面自治的实践。

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。

大数据系统自治背景与挑战

首先，我简要介绍一下整个大数据系统，以及其在自治背景下的相关挑战。大数据系统本身组件众多，涵盖了从底层的 IaaS，到存储、计算框架，以及上层的工具层等多个层面。具体来说，IaaS 层面涉及到机器本身的网络和性能，而存储层则包括分布式文件系统（如 HDFS）和对象存储等。在调度方面，我们有 Kubernetes 和 Hadoop- 体系，以及针对 AI 方面的特定调度机制。再往上一层则是计算框架，例如 Spark 和 Flink 等流计算框架。最上层则是各种工具，这些工具在不同方面的使用都使得整个大数据系统的复杂性显著增加。

大数据系统本质上是一个分布式系统。如果单机系统已经如此复杂，那么分布式系统则需要考虑数据的溯源以及在不同机器上的分布情况，无论是主从结构（master 和 slave）还是多工作节点（worker）的协作模式，都会使得整个系统在处理问题、查找根源以及故障恢复时变得极为困难。此外，大数据系统的数据处理链路通常非常长。例如，数据采集可能来源于多种源头，如代理（Agent）、MySQL 数据库，或者在物联网场景下，可能是汽车或传感器等设备。采集到的数据需要通过数据接入层，目前常见的架构包括 Kafka 或其他消息队。接入后，数据会进入计算阶段，可能是实时计算（如 Flink）或离线计算（如 Spark）。计算完成后，数据需要存储到 HDFS 系统或对象存储中。最后，在数据应用层面，我们可能需要进行预处理以供 AI 使用，进行训练或推理工作，或者生成商业智能 BI 报表。因此，整个数据链路非常长，这也使得我们在进行故障根因分析或自治处理时，需要综合考虑所有相关场景。

当我们处理大数据故障时，业务部门或客户往往会提出一个关键问题：“何时能够恢复？能否实现自动恢复，以尽快减少损失？”然而，我们在进行故障恢复或诊断时，高度依赖于运维 SRE 的专家经验。通常情况下，如果没有三年以上的大数据运维经验，很难有效且完善地处理复杂的大数据故障。此外，由于整个诊断和故障恢复的时间链路非常长，导致整体效率低下。更糟糕的是，故障可能已经结束，而我们只能进行事后处理，此时大数据系统可能已经遭受了实际的损失。

大数据智能管家技术框架及关键实现路径

腾讯大数据智能管家 TCInsight 技术架构

基于这些背景，我们团队在大约五年前提出了构建大数据智能管家 TCInsight 的想法，致力于解决大数据系统自治相关的工作。我们的大数据智能管家整体技术架构分为三层。

第一层是观测层。它主要负责监控基础设施即服务（IaaS），包括主机网络等的监控数据，同时采集日志和关键事件。我们还将大数据组件，如 HDFS、Spark、Hive 和 YARN 等的关键监控日志事件进行统一上报。

第二层是服务分析层，主要负责数据实时处理和算法决策洞察。服务分析层分为三个部分。第一部分是实时分析，主要目的是快速处理数据，包括异常收敛。例如，当事件或告警过多时，我们需要迅速整合，否则会给运维 SRE 或研发人员带来较大挑战。我们会对数据进行基础预处理。第二部分是离线服务，主要用于根因分析或自治服务时的离线分析和定时巡检。在数据量较大时，离线分析尤为重要。第三部分是算法决策，主要涉及模型和算法库的分析，以及知识库和评测库的建设，还包括离线训练等工作。

第三层是应用层，主要负责大数据运维自治，并对外提供接口。应用层分为两大块：自治修复和自治决策。例如，以 Hive 为例，当业务侧编写了一个 SQL 查询，可能会导致 HDFS 存储空间被占满，从而影响其他任务的提交。此时，我们需要快速对该 SQL 进行限制，或者在业务非常关键且不能直接终止的情况下，预测可能得存储和计算量，进行自助弹性伸缩。此外，我们还需要进行冷热数据分离，以实现成本分析和自助转冷操作。在自治决策方面，我们需要判断是否进行参数调优，因为某些参数调整可能需要重启系统才能生效，这可能会扩大故障范围。此时，我们需要做出关键决策，例如选择扩容，或者让 AI 参与具体工作。我们还可以进行错峰执行，例如在 YARN 的多个队列中，调整队列的执行时间，以优化资源分配。

应用层还包括业务洞察部分，主要用于预测分析、成本分析和根因分析等工作。这些工作相对滞后，我们的目标是先恢复系统，然后再进行深入分析。此外，我们还会生成巡检报表，并进行一键健康评估。健康评估在我们的系统中非常重要，它综合评估了 IaaS、存储、调度和计算等各个部分的健康状况，为关键自治决策提供依据。

在架构的中间部分是我们的算法或引擎层。引擎分为两部分：规则引擎和我们自主研发的元启引擎。元启引擎结合了 AI 算法和我们内部的混元大模型。规则引擎主要用于执行明确的操作，例如扩容，以缓解问题。对于复杂或关联性较高的场景，我们会接入算法或大模型，以提升系统的健康状况。

接下来，我会详细说明我们在大数据智能管家过程中的一些关键思考和实现能力。

分层的大数据运维框架 - 渐进式自治

由于大数据体系的复杂性，TCInsight 实现自治的是一个渐进式的过程。当我们接手一个系统时，不能期望所有大数据运维工作能够立即实现完全自治。实际上，我们基于一个较为普遍的理念：在没有一线专家或专业人才的情况下，一线人员或客户也能够实现自治处理。

我们根据问题的复杂程度进行分类处理：对于简单重复且解决方案确定问题，我们直接采用 AI 驱动的方式进行处理。目前，这类问题大约占我们总问题的 10% 左右。然而，剩下的 90% 问题尚未能完全实现自治。对于这部分问题，我们希望通过售后体系中的专项人员和 SRE 的共同努力，借助我们之前提到的平台层，利用大模型和 AI 增强能力，持续为系统提供支持。

在此基础上，我们期望通过三年以上经验的产研人员或 SRE 专家，进一步强化知识库和工具建设。通过这种逐步积累和优化我们的产品能力，我们希望能够逐步提高自治的比例，最终使其达到 90% 以上。

多智能决策引擎思考和设计一问题域

在业界，主要有三种常见的方法：显式编程、基于优化方法的处理以及专家系统。第一种显式编程对于研发人员来说并不陌生，它本质上是通过编写规则或工作流来构建一个简单的规则引擎，从而实现直接的决策。例如，当存储使用率超过 75% 时，系统自动触发扩容操作。这种方法简单直接，但灵活性有限。

第二种是基于优化方法的处理。在大模型尚未普及的时代，我们通过优化模型来提升系统性能。例如，原本只能优化 40% 的系统，通过采用贪婪算法或聚合模型等技术，可以将其优化效果提升至 80% 以上。这种方法更多地依赖于深度学习和大模型的强大能力，能够更好地处理复杂的优化问题。

第三种是智能全自治域系统。全自治域系统的核心在于利用专家的经验和知识，尽管专家人数有限，但他们的经验可以通过系统化的方式赋予平台更强的能力。专家系统的关键在于如何将专家的经验转化为可操作的决策逻辑。

在明确了这些决策引擎的技术路径后，我们进一步思考了在大数据领域构建智能决策系统的关键问题。首先，数据的可用性至关重要。无论是基于 AI 的训练还是大模型的应用，数据标注的准确性和完整性是基础。如果数据标注不足，可能会导致模型出现幻读甚至错误的输出，从而影响决策的准确性。

其次，系统的可解释性也是一个关键问题。专家和文档作者需要确保知识库中的内容不仅系统能够理解，而且一线人员和客户也能够轻松掌握。这一点直接关系到决策的准确性和适用范围。

最后，实时性要求也不容忽视。我们的目标是先快速恢复系统，后续再进行深入分析。这就要求决策过程和最终的行动必须足够迅速，以满足实时性的需求。

综合考虑以上因素，在决策引擎的选择上，我们决定结合规则引擎和专家系统的智能决策引擎共同构建了全自治域系统 TCInsight。这种方法既能够利用规则的明确性和可操作性，又能借助专家系统的灵活性和经验优势，逐步提升系统的自治能力和决策准确性。

Al 驱动的规则引擎自治系统

在构建基于规则引擎的知识系统时，我们首先对系统中的各类数据进行了统一管理。这些数据包括指标（metrics）、日志（log）以及事件（event），我们会将它们统一上报至我们内部构建的数据库适配系统。该系统是基于 Inpara 和 Flink 构建的，数据最终会被存储到时序数据库中。随后，我们利用 Flink 对数据进行预处理，并结合训练好的模型以及特征库，对数据进行特征分析。基于这些分析，我们会进行基础的异常检测、关联分析以及趋势预测等工作，从而形成初步的告警摘要和预测摘要。

例如，我们可能会收到告警信息，提示 HDFS 存储空间即将用尽，或者 YARN 队列的等待时间过长，又或者 StarRocks 或 Trino 的 CPU 占用率过高，某个 SQL 查询扫描的数据量过大，超出了设定的阈值。基于这些信息，我们会生成整体的告警或预测摘要。如果预测显示 HDFS 的增长趋势过快，可能会在 5 分钟内被填满，我们就会对 IaaS、存储、引擎和调度等各个层面进行评估，计算它们的健康分数。如果健康分数低于某个阈值，或者即将达到该阈值，我们就会启动规则引擎进行处理。例如，我们可能会尝试简单的扩容操作来缓解问题，或者在业务允许的情况下，直接终止一些不关键的 SQL 查询或任务，以减少资源占用。

在执行这些操作后，我们会制定一个详细的执行计划。以扩容为例，在执行扩容操作之前，我们需要先检查 HDFS 的整体状态是否正常，数据是否均衡分布，以及 NameNode 和 DataNode 之间的流量是否稳定。因为如果流量过大，可能会导致 DataNode 负载过高，甚至引发更严重的问题。只有在确认一切正常后，我们才会通过 IaaS 层扩容机器，并在扩容完成后进行数据均衡操作，以确保系统恢复正常。

完成这些操作后，我们会记录整个过程的状态，并进行反馈。如果扩容后监控数据显示系统恢复正常，那么我们认为这次自治决策是成功的，并将结果记录下来作为后续处理的参考。然而，如果扩容后情况反而恶化，例如数据倾斜导致 SQL 查询速度变慢，引擎侧的健康分数急剧下降，那么我们会紧急通知专家介入，重新审查整个分析过程。

这种基于规则引擎的处理方式具有高效和准确的特点。目前，在我们系统中，基础指标的覆盖率达到 90%，存储场景的覆盖率为 50%，任务场景的覆盖率为 30%。在周期性任务的处理上，我们已经能够覆盖 90% 的场景。在异常诊断方面，我们能够处理 70% 的异常场景，整体数据表现良好。

这并不意味着我们的工作已经完成。实际上，大数据系统的复杂性远超我们的预期。例如，我们在两年前曾遇到一个问题：在对 HDFS 进行扩容后，发现数据分布不均衡，导致 Spark 任务的执行速度反而变慢。从常理来看，扩容后资源增加，任务执行速度应该加快，但实际上并非如此。原因在于扩容后数据的均衡性并没有达到预期，同时业务侧提交了大量任务，导致系统整体性能下降。这说明我们目前只能处理已知的情况，而对于一些未考虑到的复杂场景，我们还需要进一步优化和改进。

Al 驱动的全自治域系统

基于上述思考，我们提出了一个全新的全自治系统概念。与之前的方法不同，我们在决策过程中引入了大模型的相关分析。无论是当前备受关注的 DeepSeek，还是此前我们接触过的其他类似模型，其核心优势在于执行步骤和推理能力。因此，我们开始尝试将大模型的相关功能融入整个自治决策系统中。

在预测和分析阶段，系统仍然会进行数据预处理和特征分析，并开展异常检测、关联分析以及趋势预测等工作。这些信息汇总后，会生成初步的概述信息。然而，与以往不同的是，由于引入了大模型，我们需要构建一个“优先级与目标系统”（以下简称“目标系统”）。我们会在这个目标系统中预先定义优先级和目标。例如，对于存储系统，我们设定存储使用率不得超过 80%，并且数据不能快速转冷；对于引擎，我们希望优化其执行时间；对于上层应用，我们要求其不能出现错误。这些优先级和目标会被配置到目标系统中，生成诊断建议。

随后，我们会将这些数据输入到混元模型中，并结合我们之前的决策分析结果，生成具体的执行步骤。这些执行步骤融合了传统执行引擎、规则引擎以及传统深度学习算法或基础算法的执行计划。执行计划生成后，我们会重新预检测系统状态，重新评估预测分析结果以及执行计划可能带来的状态变化。

如果发现执行该计划后系统健康分数可能更低，即情况可能恶化，那么我们的专家团队会介入。我们会创建一个专家工单，让专家对执行计划进行评估，并决定是否停止执行。相反，如果预测和状态评估显示执行计划后系统健康分数将高于目标值，那么我们会执行该计划，并将执行计划标记后存入知识库。

执行完成后，我们会继续进行预测分析、异常检测以及整体状态评估。如果系统健康度如我们预测的那样有所提升，我们会重新进行标记和分析，以便系统能够继续执行后续操作。

数据质量对预测影响 & 优化

在构建整个系统的过程中，我们花费了大量时间进行调试，尤其是在系统上线试运行阶段。现在，我想重点介绍一下我们在调试过程中采取的关键措施，这些措施让系统更加稳定，并显著提高了预测的准确率。

对于从事时序预测研究的人员来说，一个常见的问题是如何处理上报数据中的断点。这种情况可能由多种原因引起。例如，当系统发生故障时，机器的 CPU 或内存可能已经满负荷运行，导致在关键时刻数据丢失。在分布式系统中，这种数据丢失可能会引发上层系统的乱序操作。假设我们上报的时间是 12 点整，但由于长时间的内存不足（OOM）或 CPU 负载过高，数据可能直到 12 点零 5 秒甚至 12 点零 1 分才上报。然而，故障的实际发生时间并非 12 点零 1 分，但上报时间却显示为 12 点零 1 分，这就导致了数据的乱序问题。此外，还可能出现重复上报的情况，即同一条日志或指标连续上报多次，这使得我们难以确定真正的时间点或事件。

这些问题引发了几个关键的挑战。首先，当数据出现断点时，我们需要决定是否进行插值。目前业界常用的算法包括直接丢弃数据或采用简单的插值方法。对于故障场景来说，直接丢弃数据可能并不是一个好方法，因为这些数据代表了当时关键的监控指标。即使进行插值，如果处理不当，也可能导致数据不准确。此外，如果数据质量不佳，将严重影响我们的预测能力和关键异常处理能力。

我们重点对数据质量进行了优化，主要从三个方面入手。首先，我们对时序指标或日志的有效性进行评估。以往最简单的评估方式是检查数据是否超过完整性阈值。另一种常见的做法是检查数据是否满足差分阈值，或者在 IoT、时序场景中直接进行简单的拼凑。我们提出了一种基于完整性的实际评估方法。具体来说，我们将每个数据进行分段处理，然后基于自回归模型对每个分段进行评估检测。如果数据通过了自回归分析的评估，我们认为这些数据是可用的。

在确认数据可用之后，我们面临的另一个问题是数据的补齐和连接。目前常用的方法包括直接进行差分或简单的拼接。我们的思路是采用自回归预测和自回归拼接的方法。这种方法的优势在于处理速度快，能够快速对分段数据进行处理。此外，这种方法既能进行预测，又能完成数据合并操作。通过这种方法，我们显著提升了数据的有效性，整体提升了 10%。在周期性任务和异常诊断方面，准确性提高了 30% 以上。同时，时序预测的时间也缩短了 28%。

我们在构建大数据专家库智能体的过程中，尝试了一种与业界常见的做法略有不同的方案。我们不仅实现了向量检索，还引入了文本检索。这种设计的选择源于我们在构建知识库时对传统向量检索方法的深入思考。

传统向量检索在相关性分析方面表现出色，例如在使用 FastText 等工具时，能够快速识别出与查询相关的数据。然而，这种方法存在一个明显的局限性：它无法直接反映召回数据的质量，也就是说，在检索过程中，我们难以预估数据的相关性是否真正符合需求。为了解决这一问题，我们引入了文本检索机制。通过文本检索，我们能够更清晰地理解数据之间的关联性，尤其是在知识库的构建过程中。

当我们构建知识库时，一个常见的思路是将操作步骤进行分层。以扩容操作为例，它可能与存储层有很强的相关性，但这种相关性背后的原因并不明确。通过文本检索，我们可以补充这些缺失的上下文信息，从而更全面地理解数据之间的关系。

大数据系统通常分为多层，包括大数据存储层、调度、和引擎等等。这些层之间的相关性可能很强，但它们之间的索引空间检索范围并不像我们想象的那么大。基于这些考虑，我们采用了腾讯的 ES 的架构，结合文本分析和向量检索的优势。这种架构不仅支持大规模的读写操作，还具备高效的检索能力。

通过这种方式，我们能够更好地处理组件之间或分层之间的关联关系，使得各部分之间的距离更近，从而提高系统的整体效率。在故障恢复之后，除了通过冷启动将知识库连接起来，我们还利用工单系统、客户反馈和专家系统，结合混元大模型，实现自动化的分类和归纳，持续完善知识库的建设。

实践效果与案例分享

AI 驱动的 HDFS 存储规则引擎自治

我们来看基于 HDFS 存储规则引擎的自治。这里的关键在于如何快速抽取和分析 HDFS 的 FSImage，以及如何准确把握特征点。我们知道，HDFS 的源数据是以树形结构存储的，而现有的工具无法对这种树形结构进行并行化处理。为了解决这个问题，我们将工作拆分为两部分：第一部分是直接分析源数据的表结构，这样就不需要处理整个树形结构；第二部分是将树形结构手动拆分为多个并行部分，从而实现并行化处理。

通过这种方式，我们能够对表分区和关联分区进行拆分，并进行关联分析。同时，我们还能观察到数据的整体冷热分布，以及后续一段时间内的增长趋势。基于这些信息，我们利用规则引擎做出决策，确定关键目标。例如，如果当前存储的健康状况良好，但成本健康分较低，我们可能会自动执行降冷操作。如果发现整个系统的扩容必要性较高，我们可能会进行柔性扩容或自动剔除操作。

AI 驱动的 SparkSql 调优全自治域

接下来分享一个关于 Spark 自动调优的案例。这个想法最初是在项目立项时提出的，当时的想法非常直接：将 Spark 的所有相关信息，包括 SparkSQL、配置信息、上下文信息，以及存储和引擎等，全部整合到一个系统中。我们甚至将所有的 Executor、逻辑计划和物理计划等也纳入其中。初步测试结果显示，这种方法的准确率大约为 30%。然而，我们发现其中约 30% 的结果与实际需求并无相关性，还有 20% 到 40% 的结果存在明显问题。究其原因，通用的大模型缺乏专家级的领域知识，这导致了准确性的不足，同时还出现了幻觉问题。所以我们引入了贝叶斯和 RL 专家系统建议的优化提升 sparksql 的调优效果。在 POC 和线上，目前实现无人工值守自治调优性能效果比工作五年经验还好 10%。

在降本效果相当不错，之前主要关注的 SparkSQL 本身，没有考虑存储和 IaaS 层面的相关影响。在最近我们又升级了这个系统，会将 YARN 调度、HDFS 存储以及相关的管控日志等信息统一汇总，形成一个详细的概述。我们的目标是通过调优实现时间消耗的最优化。为此，我们将这些上下文信息输入模型，并进行在线分析。分析结果不仅包括计算相关的最优参数，还涵盖了调度配置、内核参数的配置下发等。然而，这些配置下发后并不能立即生效，可能需要执行 SQL 控制操作，或者在某些情况下，进行刷新操作。基于这些分析结果，我们会生成一个调参执行计划，然后重新提交任务，并对时间消耗的最优化和系统的整体健康度进行评估。

后续发展和思考

目前我们在自治虽然有些突破，但还远远不够。正如之前提到的，我们已经解决了关键的 10% 的知识问题，这确实帮助我们解决了许多难题。然而，我们还有许多需要思考和改进的地方。

首先，我们需要持续优化路径。以 SparkSQL 为例，虽然我们已经对 SQL 进行了优化，但关键信息之间的互联性仍然不足。例如，当我们直接将 HDFS 的最大存储容量纳入考量时，其时间和空间的关联性处理得并不理想。目前，我们主要依赖简单的专家系统来判断优化效果，而这种判断往往缺乏系统化的分析。因此，我们计划在未来持续加强这方面的建设。

其次，我们在决策时的目标相对单一。目前，我们的决策主要基于时间预测和健康分的调度，但对于复杂的大数据系统来说，多链路决策的完善性仍有待提高。例如，在关键决策时刻，我们会引入多智能体。目前，我们对决策准确性的把握还不够高，准确率可能只有 70% 到 80%。因此，我们需要持续优化决策过程，以提高准确率。

最后，关于专家系统，虽然我们在最后一步会强制让 SRE 专家介入，但在实际操作中，我们发现专家介入的时机和方式需要进一步优化。例如，在配置下发后，我们可能需要再次介入，因为有些系统配置是立即生效的，而有些则需要存储后才能生效。因此，我们需要在关键节点上进行更精准的知识干预。

除了上述问题，我个人以及我们团队还需要持续思考和探索后续的应用方向。首先是 agent-Drive 的根因定位（RCA）。我们在故障恢复和根因定位方面还有很大的提升空间。一方面，我们需要更快地响应问题，避免客户受到影响；另一方面，我们需要提高根因分析的效率。

其次，我们希望实现逐步缓解的操作。目前，我们的操作通常是直接针对目标进行的，但我们认为应该分阶段、分层次地观察和评估每个环节的动作是否对整体健康服务和知识系统有效。虽然我们已经有了一个反应式（Reactive）模型，但它主要集中在直接缓解问题上。我们希望通过逐步缓解的方式，更全面地评估和优化系统。

最后，安全性是我们需要持续关注的一个重要方向。在大模型 RL 或智能体的开发过程中，我们可能会面临各种安全风险。一方面，我们需要确保优化操作不会引入更大的问题；另一方面，由于多个团队之间可能共享知识库，我们需要防止信息泄露或因幻觉问题导致其他团队误读知识库信息。这将是我们在未来持续探索的方向。

嘉宾介绍

熊训德，腾讯专家工程师，腾讯云 EMR 技术负责人，有丰富的大数据领域系统架构、开发、专家系统调优经验。

会议推荐

复杂任务，不再主要依赖冗长提示词硬扛了。Agent Skills 将专家流程与工具能力封装为可复用数字技能，由大模型按需调用，推动 AI 从通用助手迈向稳定的专业执行体。围绕 Skills 平台化、模型推理增强与垂直场景落地，Agent 时代正在加速到来。

为了深入探讨 Agent Skills 在实际应用中的潜力与挑战，在 4 月 16 日 -18 日举办的 QCon 北京大会上，我们特别邀请了 Ubiquiti Quality Assurance 蔡明哲带来专题演讲《从单点辅助到 Agent 闭环：基于 Agent Skills、MCP 与 Playwright 的全链路智能化测试实践》。他将聚焦智能化测试在质量保证中的落地实践，详细拆解 Agent Skills、Playwright Agent 与 MCP 的职责分工与组合范式，并介绍如何从案例生成到自动修复实现全流程工程实践落地。

你的浏览器插件安全吗？一分钟掌握插件安全状况

作者: 纯情
时间: 2026-02-05
分类:
评论

如今，浏览器插件已经成为我们日常上网的好帮手，从广告拦截到密码管理，插件让我们的浏览体验更顺畅。但你有没有想过，这些小插件其实也可能带来安全风险？

尤其是那些不明来源或者权限过大的插件，一旦被滥用，就可能泄露你的隐私信息。今天，就跟大家聊聊浏览器插件检测以及如何掌握自己的权限风险。

为什么浏览器插件安全这么重要

很多人只关注插件的功能，却忽略了安全问题。一个普通的插件可能请求访问你所有网站的数据，甚至获取浏览器指纹信息。通过浏览器指纹检测，黑客可以追踪你的上网行为，甚至进行精准广告投放或者身份攻击。

所以，了解插件权限，定期做安全检测，是保护隐私的第一步。

浏览器插件检测有哪些方式？

想要做到浏览器插件安全，首先要知道插件到底在干什么。这里给大家介绍几种常用的检测方法：

浏览器自带的插件管理

最简单的方法就是打开浏览器的插件管理界面，例如：

Chrome：chrome://extensions/

Edge：edge://extensions/

在这里，你可以看到插件的权限信息，包括访问网站数据、修改网页内容等。通过检查这些权限，你可以判断插件是否过于“贪心”。

使用专门的浏览器插件检测工具

市面上也有一些工具可以帮你更专业地检测插件权限。例如，ToDetect检测浏览器指纹收集情况，同时分析插件可能带来的隐私风险。它不仅能显示插件的权限，还能帮助你判断哪些插件可能影响你的安全。

手动测试插件行为

如果你有一定技术基础，可以通过手动测试插件的网络请求来判断它是否收集过多信息。打开浏览器的开发者工具（F12），查看插件是否在后台发送不必要的数据。虽然这个方法有点费劲，但对于追求安全的用户来说非常有效。

浏览器指纹检测的重要性

很多人以为只要插件权限不大就安全，其实不然。即便一个插件权限有限，也可能通过浏览器指纹技术收集你的设备信息。浏览器指纹检测可以帮你发现哪些插件在悄悄收集这些信息。

比如：屏幕分辨率、字体、操作系统、浏览器版本等等，这些看似无害的信息加起来就能形成一个“唯一标识”，让你的上网行为被追踪。使用ToDetect指纹查询，可以清楚看到哪些插件在收集这些数据，从而及时调整或卸载不安全插件。

浏览器插件权限风险分类

为了更直观地了解插件可能带来的风险，我给大家整理了几个常见类型：

数据访问类：允许插件访问你访问的所有网页数据，包括表单内容、账户信息。

浏览器行为监控类：追踪你打开的网页、点击行为，用于广告或者统计分析。

指纹收集类：通过浏览器指纹收集设备信息，甚至可能用于身份识别。

后台执行类：插件在后台偷偷运行脚本，可能发送数据到第三方服务器。

了解这些风险后，你就能更有针对性地选择和管理插件。

如何轻松掌握插件权限风险？

总结一下，想要轻松掌握浏览器插件权限风险，可以按照以下步骤操作：

定期检查插件权限：通过浏览器自带管理或者ToDetect指纹查询查看插件权限。

卸载不必要或权限过大的插件：功能重复或者来源不明的插件，直接卸载最安全。

关注浏览器指纹检测：即便插件权限不高，也可能通过指纹技术追踪你，ToDetect可以检测。

保持浏览器和插件更新：更新不仅带来新功能，更重要的是修复安全漏洞。

养成安全意识：安装插件前先看权限说明，避免盲目点击“添加到浏览器”。

总结

总的来说，浏览器插件检测不仅能让你了解插件权限，还能让你更清楚哪些插件可能影响浏览器插件安全。

记住，安全意识比什么都重要，别等到数据被泄露才后悔。定期做插件检测，卸载不安全插件，让你的上网环境更安全、更安心。

求助：在 Antigravity 的远程 SSH 情况下 Agent Panel 无法加载模型

作者: 纯情
时间: 2026-02-05
分类:
评论

目前在 Windows 系统下，打开本地文件，可以通过 Proxifier 正常加载模型列表并提问。

但是用 SSH 连接远程服务器时，远程的文件夹能打开，"tab"和“Edit”功能也正常，但右侧 Agent panel 的模型列表加载不出来，导致"Chat"功能不能用。

尝试了给远程服务器设置 HTTP_PROXY 等一系列环境变量和 Antigravity 设置里 proxy ，都不行。有没有知道怎么办呀？

看了你们对于家人，对于父母的感情，有感

作者: 纯情
时间: 2026-02-05
分类:
评论

正如你们所说，这种淡薄的情感背后都隐藏着留守儿童。没想到有这么多留守儿童的 v 友经历。
我小时小学 3 年级-初中也有 4 5 年，父母在外面打工，我跟着我姐姐俩人在家跟着爷爷奶奶生活，过年爸妈钱都给我俩准备交学费，没钱回来，那年过年，我的大姑看我过年还没有买任何新衣服，就带着我去集市上买衣服，讨价还价时候说孩子爸妈都在外面打工没钱回来，便宜便宜之类的。我没有任何埋怨意思，只是那一刻真的有意识到我真的算留守儿童。
后来，我的爸妈就回来了，我整个初中生涯也是我跟我姐在家。我的姐姐照顾我，我以乡状元的成绩考试市最好的高中。我的光辉岁月我的爸妈也从没参与，甚至也没祝贺，学校老师让我请吃饭，我只是一笑而过。其实有好多场合现在想起来我的父母都没参与。
但是我并没有任何不适应或者说感情冷淡，我对我的父母也很好，从没感觉我的父母远离我我也没疏远父母的那种情感。如今我也有了孩子，一直也是没分开过。但是因为孩子要上小学了，就回郑州上学了。
我其实内心深处有一种愧疚感，怕跟孩子分开，给孩子造成如留守儿童那样的痛。我的老婆也辞职回郑州上班，我的爸妈都回郑陪孩子，我也每周都往返北京-郑州，周周都回，周五下班回家，周日晚上出发返回北京上班。

我内心深处隐隐不安，看了你们对父母的那种感情，我很想问大家，我这种情况，我的孩子算留守儿童吗

v2 跟我一样的情况，估计不在少数，这样算留守孩子家庭吗各位

你们的 windows 鼠标指针 "工" 是否也经常变白色？

作者: 纯情
时间: 2026-02-05
分类:
评论

最近更新 windows 系统之后，鼠标在白色背景黑文字的场景下，鼠标指针 "工" 显示为白色的，跟本看不清楚鼠标在移动到哪里了，

目前发现是在 Chrome 浏览器或者使用 Chrome 内核的应用 vscode 以及各大 AI IDE 等出现的概率非常大，基本影响使用了，不知道大家有没有遇到这样的情况的……

(LLM系列)Prompt工程完全指南：从零到高手

作者: 纯情
时间: 2026-02-05
分类:
评论

在人工智能快速发展的今天，掌握Prompt工程已成为有效使用大语言模型的关键技能。本文将深入探讨两个最重要的Prompt技术：Few-shot Learning和Chain-of-Thought，帮助你从入门到精通。

什么是Prompt工程？

Prompt工程是设计和优化输入指令的艺术，目的是引导AI模型产生更准确、更有用的输出。就像与人交流一样，提问的方式直接影响得到的答案质量。

Few-shot Learning：通过示例教会AI

Few-shot Learning是一种通过提供少量示例来指导模型行为的技术。相比直接下达指令，示例能让模型更好地理解你的期望。

基本原理

Few-shot的核心思想是"示范胜于说教"。通过展示输入-输出对，模型能够识别模式并应用到新任务中。

实践示例

Zero-shot（无示例）：

将以下句子翻译成正式商务语气：
"嘿，会议推迟到明天了"

Few-shot（有示例）：

将以下句子翻译成正式商务语气。

示例1：
输入："嘿，项目搞定了"
输出："尊敬的各位，项目已圆满完成。"

示例2：
输入："老板说行"
输出："管理层已批准该提案。"

现在请转换：
"嘿，会议推迟到明天了"

Few-shot版本会产生更符合预期的正式表达，因为模型已经从示例中学到了转换的具体风格。

Few-shot最佳实践

示例数量：通常2-5个示例最有效，过多会占用token且收益递减
示例质量：确保示例清晰、准确，涵盖不同场景
格式一致：保持所有示例的格式统一
代表性：选择能代表任务多样性的示例

应用场景

文本分类和情感分析
格式转换（如JSON到表格）
风格模仿（如特定作者的写作风格）
数据提取和结构化

Chain-of-Thought：让AI展示思考过程

Chain-of-Thought（CoT）是一种促使模型展示中间推理步骤的技术，特别适用于需要复杂推理的任务。

为什么CoT有效？

大语言模型在直接回答复杂问题时容易出错，但如果要求它们逐步推理，准确率会显著提升。这类似于人类解决问题时在纸上演算的过程。

基本形式

不使用CoT：

问题：一家商店打7折，再用20元优惠券，原价300元的商品最终多少钱？

使用CoT：

问题：一家商店打7折，再用20元优惠券，原价300元的商品最终多少钱？

请逐步思考并展示计算过程：

Few-shot CoT：终极组合

将Few-shot和CoT结合使用，效果更强大：

请解决以下数学应用题，展示完整的推理过程。

示例：
问题：小明有15个苹果，给了小红1/3，小红又吃了2个，小红还剩几个？
思考过程：
1. 小明给小红的苹果数 = 15 × 1/3 = 5个
2. 小红吃了2个后剩余 = 5 - 2 = 3个
答案：3个

现在请解决：
一辆车以60公里/小时的速度行驶了2.5小时，然后以80公里/小时又行驶了1.5小时，总共行驶了多少公里？

CoT的变体技巧

1. 自我一致性（Self-Consistency）
让模型生成多个推理路径，然后选择最常见的答案：

请用3种不同的方法解决这个问题，然后比较答案是否一致。

2. 零样本CoT（Zero-shot CoT）
仅需添加"让我们一步步思考"这样的提示：

问题：[你的问题]
让我们一步步思考这个问题。

3. 分解复杂任务

请按以下步骤分析：
1. 识别问题中的关键信息
2. 确定需要使用的公式或原理
3. 逐步计算
4. 验证答案的合理性

实战：结合两种技术

以下是一个综合应用Few-shot和CoT的高级示例：

你是一个数据分析助手。请分析用户评论的情感，并解释判断理由。

示例1：
评论："虽然价格有点贵，但质量真的很好，很满意！"
分析过程：
- 负面因素：价格贵（权重：低）
- 正面因素：质量好、很满意（权重：高）
- 整体倾向：正面情感占主导
结论：正面（积极）

示例2：
评论："发货快，但产品完全不符合描述，非常失望。"
分析过程：
- 正面因素：发货快（权重：低）
- 负面因素：不符合描述、非常失望（权重：高）
- 整体倾向：负面情感占主导
结论：负面（消极）

现在请分析：
"客服态度不错，但等了两周才到货，包装也破损了。"

常见错误与避免方法

示例过于简单：提供的示例应该具有一定复杂度，能展示任务的真实难度
跳过中间步骤：在CoT中省略关键推理环节会降低效果
格式不一致：示例之间的格式差异会混淆模型
过度依赖：不是所有任务都需要Few-shot或CoT，简单任务用简单prompt即可

性能优化建议

选择合适的技术：

简单任务：直接指令
格式转换/风格模仿：Few-shot
数学/逻辑推理：CoT
复杂分析任务：Few-shot + CoT

迭代改进：

从简单prompt开始测试
如果结果不理想，添加1-2个示例
如果仍有问题，引入思维链
持续调整示例质量和数量

工具与资源

提示词库：OpenPrompt、Awesome Prompts等社区资源
测试平台：在不同模型上测试prompt效果
版本控制：记录有效的prompt模板供复用

结语

Prompt工程是一门平衡艺术与科学的技能。Few-shot Learning教会我们通过示例沟通意图，Chain-of-Thought则揭示了引导模型深度思考的力量。掌握这两项技术，你就拥有了驾驭大语言模型的核心能力。

记住，最好的prompt往往来自不断实验和迭代。开始尝试，记录你的发现，逐渐建立自己的prompt工程工具箱。在AI时代，善于提问的人将获得最大的优势。

输入法是如何在主 App 与原 App 上精准跳转的？

作者: 纯情
时间: 2026-02-05
分类:
评论

苹果不允许主 App 自动把前台切回原宿主 App （没有公开 API 能做到这一跳），但是微信输入法或一些第三方输入法却可以精准做到这一点，他们是怎么实现跳转到主 app 然后又跳回键盘宿主 App 的？难道是通过私有 Api （例如 LSApplicationWorkspace 之类）按 bundle id 拉起的吗？

公司不想 N+1 变相裁员？这算是违反劳动法了吧？

作者: 纯情
时间: 2026-02-05
分类:
评论

2025 年收益不好整天瞎忙，2026 可能没有开发项目

最近公司针对开发部门新规定：

平时大小周上班改成每周六必须来公司开会
每天下班必须晚一小时
每天每人都做述职汇报。下午下班前开始抽取两人去汇报。

我开始感觉这是给部门施压，试图掉一部分人，工作强度上来了，不适应的自然会选择离开。
后来听说公司年后还要招两个实习生，低成本劳动力替代一部分正式员工？这点让我有点奇怪

Python+NetworkX+spaCy实现Graph RAG图检索增强生成结合NER与知识图谱优化非结构化文本数据检索

作者: 纯情
时间: 2026-02-05
分类:
评论

全文链接：https://tecdat.cn/?p=44938
原文出处：拓端数据部落公众号

专题名称：GraphRAG技术进阶：动态知识图谱驱动的智能检索实践

引言

在人工智能技术飞速发展的今天，大语言模型（LLM）已成为各类智能应用的核心，但模型 hallucination（幻觉）和知识滞后问题始终制约着其在实际业务中的可靠性。检索增强生成（RAG）技术的出现，通过在生成响应前从外部知识库检索信息，有效缓解了这两大痛点，成为连接LLM与真实世界数据的关键桥梁。
然而，传统RAG依赖的向量相似度检索，往往只能捕捉文本表面的语义关联，难以挖掘数据中隐藏的实体关系，导致检索结果碎片化，无法满足复杂场景下的深度信息需求。正是在这样的行业痛点驱动下，我们在为某大型企业提供知识管理系统咨询服务时，沉淀出Graph RAG（图检索增强生成）这一创新解决方案。
本文内容改编自过往客户咨询项目的技术沉淀并且已通过实际业务校验，该项目完整代码与数据已分享至交流社群。阅读原文进群，可与800+行业人士交流成长；还提供人工答疑，拆解核心原理、代码逻辑与业务适配思路，帮大家既懂怎么做，也懂为什么这么做；遇代码运行问题，更能享24小时调试支持。
本文将从技术演进角度，先梳理RAG技术的发展脉络，再深入解析Graph RAG的核心创新点——动态知识图谱构建、智能实体链接、多跳图遍历推理与置信度评分机制，随后通过Python+NetworkX+spaCy的实操案例，展示Graph RAG的实现流程，最后介绍其在企业知识管理、合规风控等领域的实际应用，帮助读者快速掌握这一提升智能检索效果的关键技术。

技术脉络流程图

一、Graph RAG的核心创新与技术原理

1. 技术背景：从传统RAG到Graph RAG的演进

传统RAG通过将文本转换为向量，利用余弦相似度等算法检索相关文档，但这种方式存在明显短板：面对“某企业的核心产品由哪位负责人主导研发”这类需要关联多个实体的查询时，由于无法识别“企业-产品-负责人”的关系链条，往往只能返回孤立的文档片段，导致LLM生成的答案缺乏连贯性和完整性。
Graph RAG的核心突破在于将知识图谱融入检索流程，不再将信息视为孤立的文本块，而是通过实体节点与关系边构建结构化的知识网络，让检索过程具备“推理能力”，从而精准捕捉复杂的语义关联。

2. Graph RAG的四大核心创新点

（1）动态知识图谱构建

无需提前耗费大量资源构建完整图谱，而是根据用户查询实时识别实体与关系，动态生成或扩展临时图谱。这种方式既避免了静态图谱的维护成本，又能确保图谱与查询场景高度相关，比如在处理新兴技术概念时，可快速将其与已有知识关联。

（2）智能实体链接

通过命名实体识别（NER）技术提取关键实体（如企业、人物、概念），并建立语义层面的关联。例如自动识别“谷歌”与“桑达尔·皮查伊”的“CEO所属”关系，而非单纯的关键词匹配，为后续推理奠定基础。

（3）多跳图遍历推理

依托图谱中的明确关系，实现多步骤推理检索。面对“某行业龙头企业的核心技术来源于哪些科研机构”这类查询，可通过“企业-核心技术-科研机构”的路径遍历，精准聚合分散在不同文档中的关联信息。

（4）置信度评分优化

为图谱中的实体关系分配置信度分数（基于信息来源可靠性、关系强度等因素），检索时优先选择高分路径，过滤低质量信息，避免无关数据干扰LLM决策。

上图清晰展示了Graph RAG的架构逻辑：通过知识图谱将分散的文本信息结构化，实现从“文本检索”到“关系检索”的升级，让LLM获得更全面的上下文支撑。

相关文章

Python可口可乐股票交易数据分析：KMeans-RF-LSTM多模型融合聚类、随机森林回归价格预测与交易模式识别

原文链接：https://tecdat.cn/?p=44707

二、Graph RAG的实操实现（Python核心代码）

本节将通过简化的实操案例，展示Graph RAG的核心实现步骤，涉及实体提取、文档检索、图谱构建、图遍历等关键环节。所用到的工具中，NetworkX、spaCy、scikit-learn均为国内可直接安装使用的Python库，无需特殊访问权限；若需替代Colab的在线运行环境，国内百度飞桨AI Studio、阿里云PAI-DSW均能提供同等功能。

1. 环境准备与依赖安装

# 安装所需依赖库（国内镜像源加速）!pip install spacy networkx scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple# 下载spaCy英文模型!python -m spacy download en_core_web_sm

2. 关键步骤实现

（1）查询分析与实体提取

通过NER技术从用户查询中提取核心实体，为后续检索和图谱构建提供基础。

import spacyimport networkx as nxfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.metrics.pairwise import cosine_similarity# 加载spaCy自然语言处理模型nlp = spacy.load("en_core_web_sm")# 定义实体提取函数：筛选人物、组织、地点类实体def extract_key_entities(user_query): doc = nlp(user_query) # 过滤关键实体类型，省略自定义实体类型扩展代码 target_ents = ["PERSON", "ORG", "GPE"] return [(ent.text.strip(), ent.label_) for ent in doc.ents if ent.label_ in target_ents]

运行结果：

从结果可见，系统成功识别出“谷歌”（组织实体），为后续关联“CEO”信息奠定基础。

（2）候选文档检索

通过TF-IDF向量检索，初步筛选与查询相关的文档集合，减少后续图谱构建的计算量。

# 初始化TF-IDF向量器，省略停用词过滤、文本预处理等优化代码vectorizer = TfidfVectorizer()doc_embeddings = vectorizer.fit_transform(doc_collection)# 定义候选文档检索函数

运行结果：

（3）动态知识图谱构建

基于提取的实体和候选文档，构建包含实体、关系的知识图谱，这是Graph RAG的核心环节。

# 定义图谱构建函数：从文档中提取实体关系并添加到图谱def build_dynamic_graph(graph, entities, docs): # 添加查询中的实体到图谱 for ent_text, ent_type in entities: graph.add_node(ent_text, type=ent_type)# 从候选文档中提取实体关系，省略复杂关系抽取规则代码 for doc in docs: doc_nlp = nlp(doc) person_ent = None org_ent = None for ent in doc_nlp.ents: if ent.label_ == "PERSON": person_ent = ent.text.strip().strip(".") elif ent.label_ == "ORG": org_ent = ent.text.strip().strip(".") # 识别"CEO"关系并添加边 if person_ent and org_ent and "CEO" in doc: graph.add_node(person_ent, type="PERSON") graph.add_node(org_ent, type="ORG") graph.add_edge(person_ent, org_ent, relation="CEO所属") return graph# 初始化图谱并构建kgraph = nx.Graph()kgraph = build_dynamic_graph(kgraph, extracted_ents, candidate_docs)

运行结果：

（4）图遍历与上下文提取

通过图谱遍历，获取与查询实体相关的上下文信息，实现多跳推理。

# 定义图遍历函数：从起始实体出发，获取指定深度的关联信息def traverse_graph(graph, start_node, depth=2): context_info = set() visited_nodes = set() queue = [(start_node, 0)]

运行结果：

（5）提示词合成与LLM响应生成

将图谱上下文与候选文档整合为增强提示词，输入LLM生成最终响应。

运行结果：

（6）知识图谱可视化

通过可视化直观呈现实体间的关联关系，助力调试和结果验证。

import matplotlib.pyplot as plt# 设置中文字体（避免中文显示乱码）plt.rcParams['font.sans-serif'] = ['SimHei']

运行结果：

三、Graph RAG的实际应用场景

1. 企业知识管理系统

大型企业的知识库往往分散在文档、邮件、工单等多种载体中，Graph RAG可动态构建跨载体的知识图谱，员工查询“某项目的合规要求及相关负责人”时，系统能快速关联项目文档、合规条款和员工信息，返回结构化答案，大幅提升信息获取效率。

2. 合规风控与合同分析

在金融、法律领域，Graph RAG可从合同、法规文件中提取关键条款、责任主体等实体，构建“条款-责任-主体”的关系图谱。面对“某合同中的数据隐私条款是否符合最新法规要求”这类查询，系统能通过图谱遍历关联相关法规和条款，给出精准分析。

3. 智能客户服务

传统客服机器人难以处理复杂查询，Graph RAG可整合产品手册、历史工单、用户反馈等数据，构建产品-问题-解决方案的知识图谱。当用户咨询“某产品更新后无法连接网络的解决办法”时，系统能关联产品型号、更新版本、网络问题类型等信息，提供个性化 troubleshooting 步骤。

四、常见技术疑问解答

核心优势是什么？

相比传统RAG，Graph RAG的核心优势在于具备关系推理能力。通过知识图谱明确实体间的关联，可处理多跳复杂查询，避免检索结果碎片化，让LLM生成的答案更全面、逻辑更连贯。

如何适配新的信息？

依托动态图谱构建机制，Graph RAG无需重新构建整个图谱，可根据新查询、新文档实时提取实体和关系，更新临时图谱。例如遇到新兴技术概念时，能快速将其与已有知识关联，确保信息时效性。

国内落地时工具如何选择？

文中所用工具均支持国内直接使用：NetworkX可替换为Neo4j（国内有云服务版本），spaCy的实体识别功能可替换为百度飞桨的PaddleNLP；LLM可选用通义千问、文心一言等国内模型，无需依赖国外API。

实施过程中需注意哪些问题？

关键在于实体关系提取的准确性和图谱的高效遍历。实际应用中需结合行业词典优化NER模型，针对大规模数据可采用图数据库分片技术提升遍历效率；同时要建立置信度评分体系，过滤低质量关系数据。

六、结论

Graph RAG通过将知识图谱与检索增强生成技术结合，解决了传统RAG在复杂关系检索中的短板，为LLM提供了更结构化、更全面的上下文支撑。其动态图谱构建、多跳推理等核心特性，使其在企业知识管理、合规风控、智能客服等多个领域具备广泛的应用价值。
本文通过简化的实操案例，展示了Graph RAG的核心实现流程，所涉及的代码和技术思路均来自实际项目落地经验。随着国内AI技术生态的不断完善，Graph RAG有望成为非结构化数据高效利用的关键技术，助力企业构建更智能、更可靠的AI应用。
对于希望深入学习的读者，可通过文中提及的交流社群获取完整代码和数据，与行业同行共同探讨技术优化与业务适配方案，加速技术落地进程。

参考文献

[1] Lewis P, et al. 检索增强生成技术在知识密集型自然语言处理任务中的应用[J]. 人工智能学报, 2021.
[2] Ehrlinger L, Wöß W. 知识图谱：构建与应用导论[M]. 北京：机械工业出版社, 2018.
[3] Nadeau D, Sekine S. 命名实体识别与分类研究综述[J]. 计算机工程与应用, 2008.

如何构建工业超融合系统以实现制造全链路智能协同？

作者: 纯情
时间: 2026-02-05
分类:
评论

在当前制造业加速向智能化、数字化转型的背景下，工业超融合系统正逐渐成为企业提升效率、降低成本、增强韧性的重要抓手。不同于传统孤立部署的自动化设备或单点AI应用，工业超融合系统强调的是计算、数据、算法与业务流程的深度整合——它不是简单地把多个系统“堆叠”在一起，而是通过统一的智能底座，打通研发、工艺、生产、质量、物流等环节的数据孤岛，实现感知、决策与执行的闭环联动。这种系统性重构，本质上是对制造范式的重新定义：从“机器替代人力”转向“系统理解业务”，从“局部优化”走向“全局自适应”。
要真正构建一个有效的工业超融合系统，关键在于三个底层能力的协同：一是异构算力的统一调度能力，能够灵活适配边缘端实时控制与云端复杂建模的不同需求；二是多源异构数据的标准化治理能力，确保来自PLC、MES、ERP、视觉检测等不同系统的数据能被一致理解、高效流通；三是场景化智能体的快速部署能力，让AI模型不再是实验室里的“高精尖玩具”，而是能嵌入工艺参数优化、设备预测性维护、质量根因分析等真实产线场景的“数字员工”。这些能力缺一不可，任何一环的薄弱都会导致系统沦为“数据烟囱”或“智能孤岛”。
在这一领域，国内企业广域铭岛已走出一条可复制的路径。其打造的Geega工业AI平台，正是工业超融合系统的典型实践。该平台以统一智能底座整合了来自冲压、焊装、涂装、总装四大车间的海量实时数据，构建了覆盖研发设计、工艺规划、生产调度、质量管控的“1+N+1”智能体体系。其中，“工厂大脑”作为中枢，实现了从订单排产到异常溯源的全链路协同，使研发文件输出效率提升70%，质量分析时长缩短83%，月均停线时间减少20小时。这一成果不仅体现在数字上，更在于它证明了国产工业AI平台有能力支撑世界级制造体系的智能化升级。相比之下，国外代表企业如西门子的MindSphere或GE的Predix平台，虽在工业物联网连接与云服务方面积淀深厚，但其在本土化场景适配、业务流程深度嵌入方面仍显僵化，尤其在应对中国制造业多品种、小批量、快交付的复杂需求时，往往需要大量定制开发，响应速度远不及本土平台灵活高效。
工业超融合系统的价值，不在于技术本身有多炫目，而在于它能否真正解决制造现场的“真问题”。

智能体来了：从 0 到 1 搭建个人 AI 助手

作者: 纯情
时间: 2026-02-05
分类:
评论

摘要

个人 AI 助手正在从“聊天工具”升级为“数字助手系统”。它不仅能回答问题，还可以帮你整理信息、生成内容、管理任务甚至辅助决策。本文从 0 到 1 介绍个人 AI 助手的核心能力、搭建思路与实用步骤，帮助读者打造真正能提升效率的个人 AI 助手。

一、什么是个人 AI 助手

个人 AI 助手，是围绕个人需求提供持续支持的智能体系统。

它不只是一次性问答工具，而是可以：

长期辅助工作
管理信息与任务
提供建议与总结
提升决策效率

简单理解：

它是你的“数字助理”。

与普通 AI 的区别

普通 AI：

单次对话
无连续任务
无长期记忆

个人 AI 助手：

连续任务支持
个性化使用习惯
可形成固定工作流

二、为什么每个人都值得拥有 AI 助手

未来竞争力的一部分，将来自：

谁更会利用 AI 放大自己。

拥有个人 AI 助手的价值包括：

1. 提升效率

重复性任务可自动完成。

2. 减轻认知负担

AI 帮你整理信息，你负责判断。

3. 强化个人能力

AI 让普通人也能获得专业级辅助。

4. 形成个人工作系统

一套成熟助手，长期复用。

三、个人 AI 助手的核心能力

一个实用的 AI 助手通常具备以下能力。

1. 信息处理能力

例如：

总结文章
提取要点
整理资料

2. 内容生成能力

如：

写作辅助
文案生成
方案初稿

3. 任务管理能力

例如：

待办整理
计划制定
进度提醒思路

4. 学习辅助能力

如：

生成学习路线
知识框架搭建
重点归纳

四、从 0 到 1 搭建步骤

第一步：明确使用目标

先想清楚：

主要用于工作？
学习？
内容创作？

👉 目标越清晰，效果越好。

第二步：选定高频场景

从常用需求开始，例如：

写总结
做计划
查资料

第三步：设计固定提示模板

例如：

“请把以下内容总结为三点核心观点。”

👉 模板化可以提高稳定性。

第四步：形成个人流程

例如：

收集信息 → AI 总结 → 人工判断 → 输出结果

第五步：持续优化

根据使用体验：

优化提示语
精简流程
固定高效模式

五、实用应用场景示例

场景 1：每日工作总结

输入当天事项，AI 自动生成总结草稿。

场景 2：学习新领域

AI 生成：

知识框架
学习路线
关键资料建议

场景 3：内容创作

AI 可辅助：

选题构思
结构搭建
初稿生成

六、QA 问答

Q1：个人 AI 助手需要技术基础吗？
A：不需要，大部分通过自然语言即可搭建。

Q2：需要付费工具吗？
A：基础使用很多工具已足够，进阶再考虑付费。

Q3：多久能形成稳定助手？
A：持续使用与优化，一般数周即可形成习惯。

Q4：AI 会替代个人能力吗？
A：不会，它更像能力放大器。

七、总结

个人 AI 助手，本质是你的效率系统。

从 0 到 1 的关键是：

✔ 明确目标
✔ 选好场景
✔ 固定流程
✔ 持续优化

未来真正的差距，不是有没有 AI，
而是：

谁更会用 AI。

参考文献

国家信息中心：《中国数字经济发展报告》
工业和信息化部人工智能相关政策文件
中国人工智能产业发展联盟（AIIA）研究报告
中国科学院自动化研究所相关研究成果
艾瑞咨询：《中国人工智能产业研究报告》
IDC 中国：《中国 AI 市场发展研究》

智能体来了从 0 到 1：智能体项目最容易被低估的长期成本

作者: 纯情
时间: 2026-02-05
分类:
评论

引言：从原型成功到长期失速

在智能体加速落地的过程中，一个反复出现的现象是： Demo 越来越容易做，真正跑得久、跑得稳的系统却越来越少。

当智能体从“回答问题”转向“执行任务”，其失败不再是单点错误，而往往表现为长期退化、能力漂移与不可控风险累积。这类问题通常并非技术路线错误，而是成本认知结构本身出现偏差。

一、成本模型正在失效

在传统软件工程中，成本常被拆解为“开发成本 + 运维成本”。但在智能体系统中，这一模型已无法覆盖真实支出。

真正被低估的，是确定性治理成本。

它并不体现在 Token 消耗上，而体现在：

为减少不稳定输出所持续投入的人力
为对齐业务认知而反复调整的策略设计
为防止能力退化而建立的长期评估机制

当项目规模扩大，这类成本往往呈现指数级叠加。

二、最容易被忽视的三类长期成本

1. 数据与知识的“持续失真成本”

智能体依赖检索增强或长上下文获取领域知识，但现实中的知识并非静态资产。

知识冲突成本新旧制度、历史文档与即时规则并存，极易导致同一问题多版本答案并行存在。
语料结构化成本将原始业务资料转化为“模型可稳定理解的知识形态”，其投入远高于一次性文档整理。

随着时间推移，知识库的复杂度自然上升，若缺乏治理机制，智能体输出的可信度会持续下降。

2. 推理逻辑的脆弱性与回归成本

在智能体系统中，一次小改动往往引发系统性影响。

修复某个场景的提示逻辑，可能导致其他场景能力退化
工具链路拉长后，失败原因难以快速定位
单点异常可能被模型“合理化掩盖”，而非显式报错

因此，智能体必须配套：

场景化基准集
稳定的能力回归评估
对失败路径的长期记录与分析

否则，系统只会在“看似可用”中逐步失控。

3. 环境与工具演进带来的隐性消耗

智能体并非封闭系统，其能力高度依赖外部环境。

API 升级、权限策略变化，会直接导致执行失败
不同模型之间的策略差异，可能迫使逻辑层整体重构
合规或成本压力下的模型切换，往往并非“参数替换”那么简单

如果底层架构未做解耦，一次外部变化就可能引发系统级返工。

三、面向长期运行的实践策略

1. 将“反馈闭环”作为核心资产

智能体真正的价值，不在于最初的提示设计，而在于运行过程中沉淀的数据。

持续记录决策路径与失败样本
利用人工介入节点形成高质量修正数据
通过真实场景反向驱动策略优化

这是少数能随时间提升系统稳定性的机制。

2. 以模块化对抗不确定性

与其不断扩展单一智能体，不如主动拆解复杂性。

将任务分解为可评估、可替换的子模块
在模型层与业务层之间建立稳定抽象
降低模型升级、策略调整带来的系统震荡

这类设计不会让系统更“聪明”，但会让它更可控。

结语：长期主义下的智能体价值

从长期视角看，智能体并非一次性技术交付，而是一种持续演化的系统能力。其核心挑战，不在模型强度，而在治理深度。

当行业普遍经历从试验到规模化的阶段转换，智能体来了，真正的分水岭也随之出现：能否为不确定性本身，提前预留成本与结构。

如何看待死亡？

作者: 纯情
时间: 2026-02-05
分类:
评论

人活着的意义在哪里？
小时候总在想一个问题，人死了之后会怎么样？长大后才知道身死道消的道理。
这些年忙忙碌碌，算是一事无成吧。中途也经历了非至亲的死亡，那时候对死亡没有深刻的思考，甚至对于死亡思考的还没有小时候多。现在面对至亲得了极凶险的癌症后，看着她化疗后一点点消瘦，脸色变得越来越差，头发也剃光了，以至现在无法进食，但是自己却无能为力，不知道该做些什么。甚至对死亡有了一丝畏惧，回想想想幼时的想法，人死了之后会怎样？好像这些思考也没有任何意义。现在唯一能做的是多陪伴，活好当下。当自己面对这一天时，能否坦然接受呢？只有时间能给我答案了。

小洛熙，为你默哀

作者: 纯情
时间: 2026-02-05
分类:
评论

关于宁波大学附属妇女儿童医院患儿（小洛熙）术后离世医疗事件，官方调查组已于今日（2026 年 2 月 5 日）发布了最终的调查处置情况通报。

事件被正式判定为一级甲等医疗事故，院方承担主要责任，且主刀医师已被吊销执业证书，公安机关已立案侦查。

在知道小洛熙事件后就持续关注，还在 V 站陆续发了好几次帖子。中间有些人的发言真是很难理解，现在通报出来了估计那些人还是一样嘴硬。

但也没有意义，小洛熙的生命是真的被庸医耽误了，那些冷血的看客有什么重要的，想到她还是感觉非常悲伤。

10 款构建生产级本地 AI Agent 的免费开源工具，跟天价 API 说拜拜

作者: 纯情
时间: 2026-02-05
分类:
评论

AI 越来越厉害，用起来也越来越方便。但用时一时爽，账单火葬场。上下文缓存、自动重试机制以及复杂的推理链条，每一个环节都在消耗大量的 Token。
我这个小机灵鬼，找了一些开源的 AI 工具，自己掌控、零边际成本，选择那么多，没必要死磕 OpenAI 和Anthropic。

现有的开源生态已经足够成熟，完全可以替代付费 API 覆盖推理、RAG、编排、评估以及多模态处理的全流程。以下是 10 款能够构建生产级 Agent 的开源工具，它们可以帮助开发者在本地或私有云服务器上搭建起完整的 AI 管道，各个都是过万星🌟。

vLLM

如果说 Ollama 适合开发者在笔记本上尝鲜，vLLM 就是为生产环境的高并发而生的。它的核心技术是 PagedAttention，一种受操作系统虚拟内存启发的显存管理算法。vLLM 能够极大地减少显存碎片，从而在相同的硬件上通过更大的 Batch Size（批处理大小）。

对于需要部署 Qwen2.5 或 Llama 3 等大模型的场景，vLLM 的吞吐量通常比 HuggingFace 的标准库高出数倍。它支持连续批处理（Continuous Batching），这意味着当一个请求处理完毕，系统无需等待整个批次完成即可立即插入新请求，极大地降低了服务延迟。

Ollama

Ollama 解决了模型部署难的问题。它将模型权重、配置和提示词模板打包成一个 Modelfile，大模型运行起来也很简单。它对量化模型（GGUF 格式）的支持极佳，使得在非专业级显卡甚至纯 CPU 环境下运行 7B 或 14B 参数的模型成为可能。

ServBay 目前也已支持了一键安装 Ollama，就不用管命令行依赖和配置环境变量，直接在 ServBay 的管理界面中即可完成 Ollama 的部署与服务启动。配合其提供的兼容 OpenAI 格式的 API，对于不需要极高并发的中小型内部工具，使用“ServBay + Ollama”作为后端推理引擎是一个极低维护成本的选择。

LiteLLM

LiteLLM 本身不运行模型，它是一个通用的 I/O 库和代理服务器。当系统后台既有 OpenAI 的 API，又有本地部署的 vLLM，甚至还有 Azure 的端点时，代码维护就够开发者吃一壶的。

而LiteLLM 提供了一个统一的接口，只需要按照 OpenAI 的格式发送请求，它负责在后台将请求路由到 Ollama、vLLM 或其他 100 多种支持的后端。它还自带了负载均衡、不仅可以做故障转移（Fallback），还能记录每一笔调用的成本和耗时，是构建混合云架构的粘合剂。

CrewAI

目前的 Agent 框架很多，但 CrewAI 的特点是角色扮演（Role-Playing）。它不只是让模型执行任务，而是让开发者定义“角色”、“目标”和“背景故事”。

比如，可以定义一个“高级研究员”Agent 负责搜索信息，再定义一个“技术作家”Agent 负责整理成文。CrewAI 会自动管理这些 Agent 之间的对话和任务委派。它的底层基于 LangChain，但封装了复杂的流程控制，非常适合构建需要多步骤推理的复杂工作流。

Continue.dev

这是 VS Code 和 JetBrains IDE 的开源插件，旨在替代 GitHub Copilot。它的优势特点是完全离线和模型无关性。开发者可以将它连接到本地运行的 Ollama 或 vLLM，使用 DeepSeek-Coder 或 CodeLlama 等模型进行代码补全和重构。

对于企业来说，企业的核心代码库不需要上传到云端，杜绝了代码泄露的风险。它支持通过 @ 符号引用代码库中的文件作为上下文，让本地模型也能理解整个项目的结构。

Qdrant

Qdrant 是一个用 Rust 编写的高性能向量数据库。与传统的数据库不同，它专为存储和搜索高维向量而设计。在 Agent 系统中，它充当长期记忆的存储介质。

Qdrant 的特点是支持过滤搜索（HNSW + 过滤） ，允许开发者在进行语义搜索的同时，加上类似 SQL 的 WHERE 条件（例如：仅搜索“2025年”且“状态为已发布”的文档）。这对于生产环境下的精准检索至关重要。

AnythingLLM

如果不想从头写代码搭建 RAG 管道，AnythingLLM 是目前最完善的开箱即用的工具。它是一个全栈桌面应用（也有 Docker 版本），集成了向量数据库、嵌入模型和 LLM 接口。

用户只需将 PDF、Markdown 或网页链接拖入界面，它就会自动完成分块（Chunking）和向量化。它甚至支持多用户权限管理，非常适合快速为团队搭建一个内部知识库问答系统。

Promptfoo

在修改了 Prompt 或更换了模型后，如何确定系统的回答质量没有下降？依靠人工测试不仅慢而且不准确。

Promptfoo 是一个专注于 LLM 输出评估的 CLI 工具。开发者可以用它来编写测试用例（类似于单元测试），批量运行不同的 Prompt 和模型组合，并自动评分。它可以检测输出是否包含特定关键词、JSON 格式是否正确，甚至可以用另一个 LLM 来给输出打分。这是将 Agent 推向生产环境前的质检员。

Diffusers

在图像生成领域，Hugging Face 的 Diffusers 库是事实上的标准。它提供了对 Stable Diffusion、Flux 等扩散模型的底层控制能力。

不同于 WebUI 的图形界面，Diffusers 让开发者可以通过 Python 代码精细控制生成过程的每一步，例如添加 ControlNet 进行姿态控制，或者使用 LoRA 微调风格。如果你的 Agent 需要生成图片，这是最灵活的底层库。

Transformer.js

并非所有的 AI 任务都需要庞大的 Python 后端。Transformer.js 将 Hugging Face 的 transformers 库移植到了 JavaScript 环境中，支持通过 ONNX Runtime 在浏览器或 Node.js 中直接运行模型。

对于一些轻量级任务，如文本分类、关键词提取甚至小型的语音识别（Whisper），可以直接在客户端完成，无需将数据发送回服务器，极大地降低了延迟和服务器成本。

Python 和 Node.js 管理

上述工具展示了开源 AI 栈的强大，但也有个问题，大部分的AI栈是深度依赖 Python 生态，比如vLLM、CrewAI 等，也有一部分要 Node.js 环境，比如 Transformer.js。

这时候可以用 ServBay 来统一管理开发环境。它一个集成的开发环境管理工具，它原本是为 Web 开发者设计，但其沙盒化的环境管理机制完美契合了 AI 开发的需求。

一键安装与版本共存：ServBay 允许你在同一台机器上同时安装并运行多个版本的 Python 和 Node.js。你可以为 vLLM 分配 Python 3.10，同时为 CrewAI 分配 Python 3.12，互不干扰。
Node.js 管理：对于需要 Node.js 的工具（如 Transformer.js 或前端界面），ServBay 同样支持多版本快速切换，无需配置复杂的 nvm。
纯净与隔离：ServBay 的所有环境都独立于操作系统，不会污染 macOS 的系统库，这对于经常需要安装各种 pip 包的 AI 开发来说，保证了系统的长期稳定性。

这样开发者就可以安装不同的AI栈，又不用担心系统环境会被污染。

结语

从云端租赁算力回归到本地掌控数据，这不仅是出于成本的考量，更是技术自主的体现。现在，我们拥有了推理引擎、编排框架、记忆存储以及评估工具。

不过，你不要以为开源并就是简陋、缺乏保障。很多工具比如如 Qdrant、CrewAI、LiteLLM 以及 Continue.dev，除了免费的开源版本外，均提供了针对企业的商业化托管服务或高级支持功能（如 SSO 登录、审计日志、SLA 保障等）。

用了这些工具，妈妈再也不用担心我的Token了。

一种访问此站点的方法,违法吗？

作者: 纯情
时间: 2026-02-05
分类:
评论

最近总有人说上 V 站的“都是”违法的。

那我就想说了，我把浏览的 dns 设置为https://77.88.8.8/dns-query,然后就正常登录访问，请问有什么问题吗？

感觉以后限制会越来越严，先说出来，等以后用不了，拉倒。

备注：77.88.8.8 是俄罗斯搜索引擎 Yandex 公司的公共 dns 服务。

AI 时代的面试

作者: 纯情
时间: 2026-02-05
分类:
评论

我始终认为当前的工作是为下一次面试做准备

那么在 AI 时代，如果对面试官表达，我会用 AI 做 xxxx ，有说服力吗

我是联通用户，刚刚收到了移动反诈中心来电

作者: 纯情
时间: 2026-02-05
分类:
评论

先接了一个湖北移动 197 号段的电话，问我是不是 XX 公司的。因为 7 年前工作过，所以我说了一下之后就挂掉了。

过了一个小时，10086 来电，自称移动公司反诈中心，问我是否刚才接听了 XXXX 来电，是否认识对方。因为我是移动客户，10086 来电就很奇怪，我没理对方就直接挂断了。

不过后来越想越奇怪，于是致电自己运营商客服 10010 ，问到了：
运营商确实有机制，对自己号段内呼出的可疑电话，运营商反诈中心会再致电对方去提醒。也就是，刚才那个 10086 给我打电话，问我是否认识那个 197 号码，在他们行业的工作流程里确实是说得过去的

又过了一个小时，查询自己的通话详单，上述三个呼叫全都是“高清”通话，也就说明应该不是假基站上的通信。

据此梳理：
某个新手 sales 从同样 sb 的前辈手里接过流传了不知道多少手的潜在客户资料，开始批量打 cold call 。他归属的运营商看他不顺眼，于是给被叫方打电话核实。被叫方很警惕，挂断了然后自行想办法核实

满分五分，你给 Apple 的 2025 年打几分？

作者: 纯情
时间: 2026-02-05
分类:
评论

2025 年，Apple 在硬件领域的基调是稳健迭代，兼有新方向的试探。Vision Pro 迎来升级，虽然改善了佩戴舒适度与性能，但仍徘徊在大众市场的门槛之外。M5 架构陆续应用到 Mac 与 iPad，进一步巩固了 Apple Silicon 的地位。标准版 iPhone 17 终于标配高刷屏幕，成为年度口碑之选；iPhone Air 虽以极致轻薄的工业设计博得眼球，市场却普遍踟蹰于镜头与续航上的妥协。Apple Watch、AirPods 也获得了温和但不失吸引力的更新。

在软件与生态层面，2025 年是 Apple 充满争议与挑战的一年。iOS 26 带来的「液态玻璃」设计语言引发了激烈的审美辩论，对其追求拟物与光影的评价两极分化。AI 赛道上，Siri 的进化幅度未能满足用户的高期待，Apple Intelligence 服务仍未实现在中国市场的落地。全球监管压力也正不断冲击着 App Store 的既有模式。尽管如此，服务生态依旧是 Apple 的「定海神针」，服务营收再创新高，证明了其依然拥有强大的用户粘性。

那么，少数派的朋友们都会怎样评价 Apple 的 2025 年呢？今年，我们连续第五年推出「大家给 Apple 的成绩单」策划，邀请到更多嘉宾，也结合时事热点对评分类目、问题设置做了更新，希望能够为大家呈现一份既反映共识、又体现个性的点评。在专题页中，你可以通过每个部分新增的「官方资讯」功能回顾相应主题的新闻事件，还可以在页面底部填写一份自己心目中的「成绩单」，然后和少数派嘉宾们的结果一起分享出去。期待看到你的观点。

访问专题页面
往年结果回顾：2024 | 2023 | 2022 | 2021

iPhone

平均分 4.25，相比去年 +0.92
中位数 4.00，相比去年 +1

年度事件

评语摘录

宛潼：今年的 iPhone 给了我一种 Apple 终于卸下了包袱的感觉。要全能有 Pro，要堪用选数字，要特立独行就 Air。
居然 sir：iPhone Air 是个迷人的「偏科生」，而 Pro 系列则是稳扎稳打的「六边形战士」。
柯里昂：这是第一次标准版让我如此有购买欲，并且也有预感它会成为某种新的「钉子户」。

观点概览

产品线规划清晰、覆盖面广是今年获好评的亮点。例如，宛潼评价道，「大部分机型的日常体验都在一条线上，终于没有什么让人下不去手的遗憾了。」所长 bibabo 也认为「今年 iPhone 体系更清晰、体验更聚焦」。iPhone 17 标准版尤其因诚意十足的升级备受好评。例如，Vanilla 说「给 iPhone 17 标准版非常诚意的升级，这也直接拉动了今年标准版的销量」；ElijahLee 也认为其「对标 Pro 升级很有吸引力」。

对于全新推出的 iPhone Air，评价两极分化。例如，Kostya 认为它是「新时代的启幕」，photosoft 称其带来了「近年来最大的设计革新」；但 JJ Ying 却感到「江郎才尽」，认为其「看着很薄但其实很尴尬」。

Pro 系列的性能继续获得认可，但存在关于材质与影像能力的批评。例如，王波粒指出「Pro 系列为了极致散热从钛合金换到铝合金，有些可惜」；常岩 CY 则提到，考虑到「AI 入华以及影像性能大幅落后安卓同行的问题，我们只能说是未来可期。」

快问快答

关于 iPhone Air 代表的一类设计思路，即优先追求极致轻薄、但在电池续航和相机配置上做出明显妥协，以下最接近你看法的是

可以接受，我非常看重手感和轻薄，即便续航和画质差一些也无所谓（15 人选择，41.67%）
勉强可以接受，但希望后续型号不要再以明显牺牲电池和相机为代价（12 人选择，33.33%）
不能接受，我更在意续航和影像表现，不会为了轻薄买单（9 人选择，25%）

iPad

平均分 3.36，相比去年 -0.31
中位数 3.00，相比去年 -1

年度事件

评语摘录

JJ Ying：如果我是 Apple 的运营，我就邀请罗永浩老师的《十字街头》来采访 iPad 一期。这个标题太合适这个阶段的 iPad 了，到底是 Pad 还是电脑？接下来怎么走？
Rio：今年是 iPad 硬件「小年」，但也是 iPadOS 软件「大年」：虽然尚不成熟且有各种 bug，但 iPadOS 26 的全新多任务模式，让十年苦等 iPad Pro 能堪大用的我终于看到了一丝曙光。
Vanilla：我认为「你的下一台电脑，何必是电脑」战略其实是失败的：iPadOS 无疑限制了生产力；M 芯片的确很强，但是 iPad Pro 太贵了。

观点概览

硬件性能过剩与常规升级是普遍观感，老用户换机动力不足。例如，Snow 评价其为「中规中矩的硬件升级」，Kostya 也认为是「例行升级」。性能的强劲并未转化为购买意愿，正如 A9VG 所言，「M5 相较于 M4 来说的提升对我而言没有太大的吸引力」；王树义也说，「实在找不出来更换 iPad Pro 的理由，那台 2020 年购买的 iPad Pro 现在基本上在吃灰。」

软件对硬件的限制依旧被频繁提起，生产力属性受到质疑。例如，张黑黑指出，「iPadOS 依旧没有办法完全发挥 M5 芯片的实力。」对于「替代电脑」的愿景，常岩 CY 指出，「每次出国工作时二选一时都会坚定不移地拿上 Mac 的事实已经说明了一切。」居然 sir 则说，「如果是公司老板，每天看看邮件，iPad 是个好选择，但打工人还是算了。」

快问快答

随着 iPadOS 26 加入菜单栏、允许更自由的窗口排布，iPadOS 与 macOS 会否最终「融合」的话题再次被提上台面。对此，以下最接近你看法的是

倾向于最终将 iPadOS 和 macOS 合二为一（19 人选择，52.78%）
倾向于让 iPadOS 和 macOS 继续相互借鉴，但仍保持两个系统（13 人选择，36.11%）
不太认可 iPadOS 和 macOS 越发相近的趋势，希望两个系统保持适合各自硬件特性和目标场景的独特性（4 人选择，11.11%）
我不了解或未曾关注这个问题（0 人选择，0%）

Mac

平均分 4.03，相比去年 -0.37
中位数 4.00，相比去年 -1

年度事件

评语摘录

Kostya：Mac 台式机和 MacBook 也开始进入了平稳更新的时代，今年的 M5 芯片 MacBook Pro 个人认为很可能是对 2021 年以来这一代产品的总结之作，所以用起来非常舒适。
居然 sir：我作为 M1 Pro MacBook Pro 用户，至今没有购入最新款 MacBook Pro 的原因是 M1 Pro + 32G 依然非常能打。
虽然但是张黑黑：在 AI 领域提升非常显著，M5 芯片配置 Neural Accelerator，让 Mac 离专业 AI 设备更进一步。

观点概览

「稳健」与「常规」是今年 Mac 评价的主基调。例如，吴诗源认为，外观无变化反而是一种优势，指出「『干活工具』就应该这样扎扎实实的更新，不需要让用户去频繁改变使用习惯。」常岩 CY 评价道，「等了很久，能在核心体验上追平的对手也没出现。」然而，这也导致老用户换机动力不足，例如柯里昂表示，由于体验差距难感知，这种更新方式不是「促进消费的路径」。

在具体产品线上，M4 MacBook Air 凭借便携与性价比赢得了广泛好评。A9VG 称其「在应对基础工作方面绰绰有余」，宛潼也表示「如此充满性价比的 Apple 产品并不多见」。而在高端领域，Mac Studio 则展现了在 AI 时代的吸引力。例如，所长 bibabo 强调了 Mac Studio 在「大模型时代」的可能性；张黑黑也指出，「Mac Studio (M3 Ultra) 首次配备 512G 统一内存，让桌面电脑运行千亿参数大模型成为可能。」

快问快答

Apple 已有两年多未更新台式机工作站 Mac Pro，最近亦有该产品线已被搁置、定位由 Mac Studio 取代的传闻。对于 Mac Pro 的意义，以下最接近你看法的是

意义不大，Apple 应逐步用 Mac Studio 等产品线取代它（17 人选择，47.22%）
可以保留，但属于小众产品，不必频繁更新（11 人选择，30.56%）
我不了解或未曾关注这个问题（5 人选择，13.89%）
Mac Pro 仍对极端专业场景非常重要，应该大力投入（3 人选择，8.33%）

XR、Watch、音频与周边

平均分 3.64，相比去年 +0.18
中位数 3.50，相比去年 -0.5

年度事件

评语摘录

两颗皮蛋：AirPods 3 Pro 堪称是今年 Apple 完成度最高、升级最大的产品。而手表和 XR，我们有理由相信它们在等待下一个时机。
果壳：Apple 通过这些设备展现出两大核心策略：一是「技术下放」，将过往旗舰特性普及到更多产品线，提升整体产品竞争力的同时强化生态粘性；二是「功能整合」，尝试将健康监测等新功能融入更多设备，探索设备联动的未来可能性。
所长 bibabo：Apple 音频产品很保值，原因就在 Apple 一直预埋长线更新。

观点概览

AirPods Pro 3 成为本年度周边设备中的明星产品。例如，两颗皮蛋将其誉为「今年 Apple 完成度最高，升级最大的产品」；宇宙怪兽则重点指出音质优势，「推荐每一个重度 Apple 用户购买」。新增功能中，彭林认为「实时翻译值得大书特书」，还有多名嘉宾称赞了心率监测。不过也有相反意见，例如 Snow 批评其「功能升级屈指可数，佩戴体验反向升级」，吴诗源也指出对于老用户缺少「决定性的购买理由」。

Apple Watch 和 Vision Pro 继续面临创新乏力的担忧。对于手表，A9VG 认为是「基本上是挤牙膏的一年」，林捂捂直言「能拿出来的东西太少了」。对于 Vision Pro，Kostya 指出「连 Apple 都没有特别能够激起 XR 的水花」，photosoft 认为「距离大众化依然遥远」，九月也提到「依旧没有杀手级应用」。

快问快答

面对 Apple Vision Pro 被多方报道为销量远低于预期、甚至传出削减或暂停生产的消息，以下最接近你看法的是

作为第一代有这样的表现很正常，作为长期布局的一环仍然值得肯定（15 人选择，41.67%）
主要问题在于定价和定位，如果价格更亲民仍有机会成功（12 人选择，33.33%）
这是 Apple 在 XR 领域的战略失误，证明这条路本身就不适合大众（5 人选择，13.89%）
我不了解或未曾关注这个问题（4 人选择，11.11%）

硬件可靠性

平均分 4.28，相比去年 +0.01
中位数 4.50，相比去年 +0.5

年度事件

Apple 推出适用于 iPad 的自助维修并拓展维修项目

评语摘录

彭林：针对散热能力和划痕掉色上的取舍，Apple 犯下很大的决策失误。
果壳：Apple 通过强大的工程能力和资源投入，为其硬件建立了一套超前、系统且严格的可靠性保障体系。这使得其大部分产品具有行业领先的耐用性。
Rio：除了不小心让 iPad 掉浴缸进水需要维修外，今年全家几十台 Apple 设备继续保持无故障记录。

观点概览

硬件的可靠和耐用依然维持了高水准，多数嘉宾给予了正面评价。例如，A9VG 表示「基本没有遇到过硬件问题」，柯里昂称「一切是如此耐用，让我买的 Apple Care 有点尴尬」，Yundor 也称赞「产品的做工和用料一直在线」。

iPhone 17 Pro 回归铝金属机身的设计引发了耐用性争议。多名嘉宾都指出了材质偏软、易磕碰的问题，认为新材质让保护壳成为必需品。常岩 CY 还指出 Apple 在营销上面临的矛盾之处，即如何需要「圆回来」之前大力宣传的钛金属耐用性。不过，也有嘉宾认为相比于散热的改善，材质的改变是值得的。

快问快答

iPhone 17 Pro 系列改用铝合金一体中框后，对于其耐用性的担忧不时出现在网络讨论中。Apple 回应称，店内演示机上的大部分痕迹是 MagSafe 支架材料转移，实际耐用性与以往机型相当。对此，以下最接近你看法的是

属于可接受的磨损范围，不会过度担心（13 人选择，36.11%）
确实担心更易掉漆或刮花，但用保护壳就可以接受（10 人选择，27.78%）
以旗舰定价来说，这种外观耐久度是难以接受的设计妥协，会影响购买决策（9 人选择，25%）
我不了解或未曾关注这个问题（4 人选择，11.11%）

软件可靠性

平均分 3.33，相比去年 -0.12
中位数 3.00，相比去年 -1

年度事件

评语摘录

吴诗源：软件还是目前 Apple 体验里面的短板，现在用 macOS 已经不像以前那样有安全感。
JJ Ying：UX 方面的问题简直数不胜数，很多细节的质量让人匪夷所思。
林捂捂：存在一些可以反复复现的问题，更复杂的视觉和交互仿佛是一种科技枷锁。

观点概览

「液态玻璃」视觉风格成为最大的争议点。不少嘉宾批评新界面风格令人困惑，或未达成品标准。例如，JJ Ying 批评道，「新界面风格所带来的可用性下降完全不是一句『高透明度带来的低可读性』可以涵盖的。」刘少楠则说，玻璃质感「过于强烈了，不太符合 Apple 的气质。」不过，也有嘉宾表达出更多包容，例如所长 bibabo 认为其「统一四个系统的视觉语言和重塑交互逻辑，值得高分」；彭林则指出新 UI「是以 only Apple can do 的芯片技术作为支撑。」

系统稳定性的口碑发生下滑。九月评价道，「iOS 26 bug 极多，并且很多至今仍未修复，很难想象是正式版系统。」王波粒也说，「最近几年的正式版系统，bug 明显比过去多。」对于 macOS，宇宙怪兽表示升级后「用起来非常卡顿，很难想象是 Apple 做的升级」；吴诗源则具体指出了「聚焦搜索在后台一直高占用 CPU」以及应用失去响应等问题。

快问快答

对于 Apple 在本年度系统更新中全面采用的液态玻璃（Liquid Glass）界面风格，以下最接近你观点的是

完全可以适应该界面风格（23 人选择，63.89%）
大体可以接受该界面风格，但认为需要时间习惯或仍需完善（9 人选择，25%）
不太能接受该界面风格，认为存在重大缺陷或退步（4 人选择，11.11%）

服务

平均分 3.61，相比去年 +0.01
中位数 4.00，与去年持平

年度事件

评语摘录

Vanilla：Apple Music 功能越来越丰富了，已经成为我的唯一主力音乐服务；Apple TV 的优质自制剧和电影越来越多，真的很开心。
常岩 CY：Apple 软件服务方面已经达到了好用无感的程度，每次尝试离开的时候你就会感知到它的粘性有多大。
photosoft：在 AI 竞赛白热化的当下，核心智能服务进展缓慢，Apple 已处于被动。

观点概览

Apple Intelligence 的缺席是被表达最多的遗憾。如彭林所言，「在国内，Apple 这方面的服务约等于没有。」A9VG 也表示担忧，称「Apple Intelligence 至今和中国大陆无关，且实际性能也让人担忧前景。」部分体验过外版的用户中，以 Vanilla 为代表的较乐观观点认为，「每个版本 Apple Intelligence 都在优化，可用性已经不错了。」但也有以居然 sir 为代表的嘉宾认为，即使抛开地域限制，Apple Intelligence 的体验「也已经是目前所有市面上主流 AI 产品里垫底的」。

Apple 的流媒体与内容服务凭借高质量获得了极高口碑。Kostya 盛赞 Apple TV+ 拥有「Severance 和 Pluribus 两部神剧和 F1 一部神影」，Vanilla 也表示「优质自制剧和电影越来越多。」音乐方面，所长 bibabo 指出 Apple Music 在「清爽体验的基础上，一直在进一步丰富服务内容」，例如古典乐指南和艺人专访等。

基础云服务 iCloud 面临着对体验与定价的质疑。连接速度方面，宛潼提到「iCloud 访问速度缓慢」，王波粒指出「经常别的 App 网速没问题，就 iCloud 转不动。」定价策略上，宇宙怪兽指出了档位设置的不合理：「刚好超 2TB 一点点，就不得不购买 6TB 的方案」，辛晓阳也感叹「感觉 iCloud 还是有些太贵了。」

快问快答

2025 年初，网上曾有一轮关于 iCloud+ 订阅方案的讨论，一些用户指出目前的可选方案从 200 GB 直接跳到 2 TB，「要么不够用，要么又太贵」。对此，以下最接近你看法的是

基本合理，目前可以找到适合自己的方案，但也希望增加 500 GB—1 TB 左右的中间档位（17 人选择，47.22%）
不合理，目前很难找到适合自己的方案，只能在低容量或高价之间妥协（12 人选择，33.33%）
合理，多数用户 200 GB 就够用，重度用户用到 2 TB 也很常见（6 人选择，16.67%）
我不了解或未曾关注这个问题（1 人选择，2.78%）

应用生态与开发者关系

平均分 3.94，相比去年 +0.25
中位数 4.00，与去年持平

年度事件

评语摘录

居然 sir：Apple 构建了一个最漂亮的花园，但门票和里面的消费确实是越来越贵了。
果壳：一个商业上极其成功但面临公平性质疑的巨型生态，正在全球监管的外力推动和 AI 技术的内生驱动下，进行一场深刻的自我演进。
Rio：很开心看到有越来越多的国家和地区开始立法明确限制应用商店垄断。

观点概览

Apple 的生态系统依然被视为行业标杆。嘉宾普遍肯定为开发者提供的丰厚收益和完善工具。例如，常岩 CY 认为它是「最良性也最健康的开发者收益平台」，柯里昂指出「能感受到某种社区氛围，高要求催生了优质产品。」技术层面上，Vanilla 和 photosoft 都赞赏了 Xcode 的 AI 功能降低了开发门槛，后者特别指出 Apple「首次向第三方开发者开放了其设备端的 AI 模型」。Snow 还肯定了生态的统一性，指出这「降低了开发者开发和适配的门槛，应用迭代更高效，多端体验更一致。」

开发者关系维护方面的努力获得认可。例如，王波粒提到 Apple 会主动与开发者沟通，张黑黑肯定了移动应用创新赛和年度应用评选的意义。宛潼也指出，能看出来 Apple 还是很重视中国开发者的生态建设和引导，落地了不少活动。

商业模式与「苹果税」引发的争议依然激烈。居然 sir 指出，成本转嫁导致「App 动不动就是高昂的订阅制」，Rio 则呼吁「中国也应该积极行动起来，保护消费者和中小开发者的权益。」游戏方面，虽然 Apple 试图吸引更多传统游戏厂商，A9VG 认为「目前的数量还是太少了」。

快问快答

对于 Apple 从第三方渠道支付的交易（例如微信小游戏、应用跳转外部支付、欧盟区第三方应用商店等）收取分成或佣金，以下最接近你看法的是

理解合规和运营成本，但 Apple 应当提高透明度、说明合理性，并根据开发者规模、交易类型等因素提供更合理的减让（22 人选择，61.11%）
Apple 提供了平台安全、审核和基础设施服务，有权就广义上的应用收入收取分成（7 人选择，19.44%）
Apple 只应对最狭义的「内购」（即在通过 App Store 安装的应用内、采用 Apple 支付方式产生的虚拟物品交易）收费（5 人选择，13.89%）
我不了解或未曾关注这个问题（2 人选择，5.56%）

社会责任与本地化

平均分 4.42，相比去年 +0.05
中位数 5.00，与去年持平

年度事件

评语摘录

Yundor：Apple 在环保和清洁能源上的投入确实没得说，是实打实有数据支撑的成果，这种社会责任感确实加分。
吴诗源：很多欧美公司都陆续在放弃原本定下的未来的可持续目标，Apple 可能是仍然在推进的最具代表性的企业了，非常了不起。
浴中奇思：一直很喜欢 Apple Store 里开展的课程，每次去逛都能看到很多老年人在认真学习智能设备的使用方法，这事儿真挺酷的。

观点概览

碳中和与可持续发展方面的投入获得普遍认可。ElijahLee 说，「一直以来，ESG 都是 Apple 重点的营销亮点，并且它也确实在推进相关合作的落地。」其他嘉宾也用「标杆级」「业界楷模」「代表性」等形容 Apple 的持续投入。不过，也有九月等嘉宾指出，「希望最后不要落到由消费者买单企业的形象工程。」

本地化在不同维度上获得了褒贬不一的评价。一方面，实体零售店的扩张与社区教育获得了不少认可，例如两颗皮蛋表示给深圳新开店「给打个五星」；所长 bibabo 也认为这体现了 Apple 与本土建立「长期关系」的决心。另一方面，photosoft、Fenng、常岩 CY 等嘉宾也指出「本地化服务进展缓慢」「不接地气」等问题，认为 Apple「还有更多的声音需要倾听」。

快问快答

对于 Apple 2030 这一旨在最终完全实现碳中和的计划，以下最接近你看法的是

基本认可，如果配置接近、价差不大，我会优先选择碳中和机型，但不希望为此支付明显溢价（20 人选择，55.56%）
非常认可，为了支持环保，我愿意在同等产品里优先选择碳中和机型，即使需要为此接受一定的溢价（10 人选择，27.78%）
不太认可，更像品牌公关和形象工程（5 人选择，13.89%）
我不了解或未曾关注这个问题（1 人选择，2.78%）

方法

我们从 2025 年 11 月下旬至 12 月中旬期间，陆续向 36 名受访人发送了相同的问卷。问卷中仅含有少量背景信息、分类说明和官方资讯，不含有其他引导或提示性质的文本。问卷回收结束于 2026 年 1 月 5 日。

除为符合产品规范名称、语句通顺所做的必要编辑外，文章引用的评语均为所回收问卷中的原文。该等评语的权利由相应受访者保留，其内容不代表少数派立场。

智领研发新纪元：文心快码2025斩获多项权威奖项，引领软件研发智能变革

作者: 纯情
时间: 2026-02-05
分类:
评论

在数字化浪潮与人工智能技术深度融合的2025年，行业的目光正聚焦于那些以创新驱动变革、以实践定义未来的先锋力量。百度文心快码，作为“AI+软件工程”领域的开拓者与深耕者， 凭借一系列突破性的技术成果与深度产业实践，在2025年收获多项重量级奖项与权威认可。

市场认可维度，文心快码综合实力备受青睐，屡获权威肯定，从在IDC《中国市场代码生成产品评估》中斩获3项第一，到荣膺中国软件行业协会“年度优秀软件产品”，证明了Comate作为企业级生产工具的成熟、可靠；

技术标准维度， 文心快码积极引领技术标准规范，参与编制了《面向软件工程智能体的技术和应用要求第1部分：开发智能体》这一行业首个智能体技术标准，并联合人工智能关键技术和应用评测重点实验室，共同编写了《面向软件工程智能体的技术和应用要求第一部分：开发智能体》文献，为“AI+软件工程”的标准化发展贡献了核心力量；

在产业实践中， 文心快码直击用户痛点，先后在AIIA、服贸会、AiDD峰会、IT新治理领导力论坛等行业峰会的重量级评选中，分别囊获2025年十大AI4SE“银弹”标杆案例、“数智影响力”先锋案例、AI+研发工具先锋奖、2025XOps创新实践奖等重量级奖项，印证了文心快码在真实业务场景中解决复杂研发难题、推动全流程效能变革的落地实战能力；

面向社会价值，文心快码致力于践行科技向善，落实技术普惠，获得了可及信息无障碍优秀案例和百度高价值专利奖，体现了技术温度与企业战略的统一。

文心快码斩获的多维度重磅荣誉，不仅是对其过去一年在各方面成就的集中肯定，更是文心快码作为“AI+软件工程”开拓者与深耕者的最佳注脚。

一、市场认可——实力备受青睐，屡获权威肯定

1.IDC《中国市场代码生成产品评估》3项第一

2025年6月，国际权威评测机构IDC正式发布了《中国市场代码生成产品评估》，国内市场10家头部代码生成头部产品参评。在本次评估中，百度智能代码助手文心快码脱颖而出，斩获3项第一：

在涉及的9项评分维度中达成8项满分，满分维度数量第一
C++产品能力实测总分第一
“核心代码实现”（即代码质量）总分数排名第一

2.中国软件行业协会“2025年度优秀软件产品”

2025年9月，中国软件行业协会揭晓“2025年度优秀软件产品”评选结果。百度智能代码助手文心快码凭借在AI赋能研发领域的持续突破与创新，成功摘得这一荣誉。

本次评选以软件的自主知识产权、商品化程度、技术水平、稳定性、可靠性、用户满意度等作为主要考评指标。文心快码获评“优秀软件产品”，证明了其领航AI编码新时代的标杆模范作用。

二、技术标准——引领技术实践、共建标准规范

3.参编《面向软件工程智能体的技术和应用要求》

2025年5月30日，中国信息通信研究院（简称“中国信通院”）与中国工商银行、北京兴云数科技术有限公司、北京百度网讯科技有限公司牵头，联合农业银行、邮储银行、科大讯飞、腾讯、阿里、华为等二十余家头部企业，共同编制并正式发布了 《面向软件工程智能体的技术和应用要求第1部分：开发智能体》 （技术规范编号AIIA/T 0219-2025）。

该标准的发布标志着我国在AI 智能体领域的标准化进程迈出关键一步，为企业开发智能体提供能力建设指导，助力产品快速迭代，同时为企业提供技术选型参考，推动开发智能体的落地应用。

4.合作人工智能关键技术和应用评测重点实验室编写文献

由百度牵头，联合人工智能关键技术和应用评测重点实验室，共同编写了《面向软件工程智能体的技术和应用要求第一部分：开发智能体》。这标志着百度在“AI+软件工程”领域的技术积累和产业洞察已上升至行业规范制定层面，为软件开发智能体的技术能力、应用场景及评价体系建立了权威参考框架。

三、产业实践——直击用户痛点，驱动效能跃升

5.AIIA 2025年十大AI4SE“银弹”标杆案例

2025年9月，中国人工智能产业发展联盟（AIIA）在中国国际服务贸易交易会 “大模型驱动企业数智化转型论坛” 上公布 2025年十大人工智能AI4SE“银弹”标杆案例。“百度基于编码智能体Zulu的提效实践”成功入选。 AI4SE“银弹”案例旨在发掘和推广能够显著提升软件研发效率与质量的典型落地实践。文心快码的入选体现了其在推动AI赋能软件工程领域的持续突破与领先实力。

6.2025服贸会“数智影响力”先锋案例

2025年9月，在2025中国国际服务贸易交易会“大模型驱动企业数智化转型论坛”上，“百度智能代码助手——文心快码的提效实践”入选“数智影响力”先锋案例。 标志着其在推动软件开发产业智能化转型方面的卓越成果获得了全球服务贸易领域的高度认可。

7.AI+研发工具先锋奖

2025年12月，在AiDD峰会（全球软件开发大会）上，百度文心快码凭借其在AI+研发领域的突破性贡献，荣膺组委会颁发的“AI+研发工具先锋奖”。 作为“AI+研发”赛道的开拓者，文心快码智能研发解决方案，推动了行业向智能化、自动化研发模式的系统性演进，展现了百度在AI赋能产业升级方面的技术实力与生态影响力。

8.2025XOps创新实践奖

在第六届IT新治理领导力论坛，百度文心快码凭借其开创性的“智能体人机协同研发新范式”实践，荣获“2025 XOps创新实践”奖。 文心快码以其智能体为核心，构建了高效的人机协同体系，显著提升了代码生成、测试、运维的自动化和智能化水平。

四、社会价值与企业战略——践行科技向善，落实技术普惠

9.可及信息无障碍优秀案例

在2025年信息无障碍领域评选中，百度文心快码无障碍适配版凭借其创新的技术理念与切实的社会价值，荣膺“可及信息无障碍优秀案例”奖项。 文心快码以AI技术弥合数字鸿沟，不仅体现了百度 “用科技让复杂的社会更简单” 的社会责任担当，更为推动研发工具普惠化、构建包容性数字生态树立了行业标杆。

10.2025百度高价值专利奖

2025年，凭借核心技术成果“云端代码开发系统、方法、装置、设备及储存介质”，荣获“百度高价值专利奖”。 该奖项体现了百度在AI开发工具领域持续投入所形成的技术壁垒与知识产权优势。

寄语

荣耀属于过去，奋斗定义未来。感恩2025年来自行业、机构的每一份认可与信赖，这不仅是文心快码前行路上的璀璨注脚，更是我们肩负的责任与期许。迈向2026，我们将继续以创新为炬，继续深耕“AI+软件工程”的技术深水区，不断突破智能研发的效能边界。文心快码将以更坚实的技术、更开放的生态，回馈每一份支持，与行业并肩同行，共同迎接软件开发智能化变革的星辰大海。

从之前的反重力账号不能用了之后，我试用了一个星期的 kimi k2.5，评价是不好用

作者: 纯情
时间: 2026-02-05
分类:
评论

重度使用了一个星期的 kimi 2.5 ，写代码太傻了，做 plan 也太傻了。我有一个简单的需求，搞了一个下午还没有搞定。

受不子之后，刚又去搞了一个反重力的账号，不到半个小时，工作效果大约满意。

难道是我没有用错，提示词是完全一样的

大数据系统自治背景与挑战

大数据智能管家技术框架及关键实现路径

腾讯大数据智能管家 TCInsight 技术架构

分层的大数据运维框架 - 渐进式自治

多智能决策引擎思考和设计一问题域

Al 驱动的规则引擎自治系统

Al 驱动的全自治域系统

数据质量对预测影响 & 优化

实践效果与案例分享

AI 驱动的 HDFS 存储规则引擎自治

AI 驱动的 SparkSql 调优全自治域

后续发展和思考

为什么浏览器插件安全这么重要

浏览器插件检测有哪些方式？

浏览器指纹检测的重要性

浏览器插件权限风险分类

如何轻松掌握插件权限风险？

总结

什么是Prompt工程？

Few-shot Learning：通过示例教会AI

基本原理

实践示例

Few-shot最佳实践

应用场景

Chain-of-Thought：让AI展示思考过程

为什么CoT有效？

基本形式

Few-shot CoT：终极组合

CoT的变体技巧

实战：结合两种技术

常见错误与避免方法

性能优化建议

工具与资源

结语

最近公司针对开发部门新规定：

专题名称：GraphRAG技术进阶：动态知识图谱驱动的智能检索实践

引言

技术脉络流程图

一、Graph RAG的核心创新与技术原理

1. 技术背景：从传统RAG到Graph RAG的演进

2. Graph RAG的四大核心创新点

（1）动态知识图谱构建

（2）智能实体链接

（3）多跳图遍历推理

（4）置信度评分优化

Python可口可乐股票交易数据分析：KMeans-RF-LSTM多模型融合聚类、随机森林回归价格预测与交易模式识别

二、Graph RAG的实操实现（Python核心代码）

1. 环境准备与依赖安装

2. 关键步骤实现

（1）查询分析与实体提取

（2）候选文档检索

（3）动态知识图谱构建

（4）图遍历与上下文提取

（5）提示词合成与LLM响应生成

（6）知识图谱可视化

三、Graph RAG的实际应用场景

1. 企业知识管理系统

2. 合规风控与合同分析

3. 智能客户服务

四、常见技术疑问解答

核心优势是什么？

如何适配新的信息？

国内落地时工具如何选择？

实施过程中需注意哪些问题？

六、结论

参考文献

摘要

目录

一、什么是个人 AI 助手

与普通 AI 的区别

二、为什么每个人都值得拥有 AI 助手

1. 提升效率

2. 减轻认知负担

3. 强化个人能力

4. 形成个人工作系统

三、个人 AI 助手的核心能力

1. 信息处理能力

2. 内容生成能力

3. 任务管理能力

4. 学习辅助能力