大家是通过哪些渠道免费使用 Claude code opus 4.5 的?
有没有朋友分享下渠道
xiaohack博客专注前沿科技动态与实用技术干货分享,涵盖 AI 代理、大模型应用、编程工具、文档解析、SEO 实战、自动化部署等内容,提供开源项目教程、科技资讯日报、工具使用指南,助力开发者、AI 爱好者获取前沿技术与实战经验。
有没有朋友分享下渠道
在过去一年中,我们见证了多起重大攻击事件,例如 Shai-Hulud 蠕虫攻击、Nx 构建系统被攻破,以及通过 tj-actions/changed-files 漏洞导致机密信息泄露到公开的 GitHub Actions 日志中。但仅仅是罗列各种攻击事件,就足以占据本文的全部篇幅,更不用说深入探讨了。 作为一个行业和生态系统,我们能感受到攻击频率的日益增加。仅在 2024 年,报告的恶意软件包数量就同比增长了 156%。鉴于 Mend 托管的 Renovate Cloud 平台受信于超过 130 万个代码仓库,我们在保护开源软件消费者方面处于非常有利的地位,同时也为自托管 Renovate 的用户提供了更强的安全默认设置。在一系列备受瞩目的 npm 供应链安全攻击之后,Mend Renovate 的维护者们决定,对于选择采纳“最佳实践”配置的用户,默认启用这项安全功能是最佳选择。 为了帮助客户更好地应对这些日益增多的攻击,维护团队正在 Mend Renovate 现有的“最佳实践”配置之上进行构建。该团队一直致力于提供更多“默认即安全”的配置,并首先从 npm 生态系统着手。 在最新的 Mend Renovate 42 版本中,使用“最佳实践”配置的用户将会发现,npm 生态系统中的依赖项更新现在需要通过一个“最短发布时间”的检查,即某个更新发布后必须经过 3 天的窗口期,Mend Renovate 才会提议进行更新。通过这种方法,组织可以确保只有经过验证的、稳定的和值得信赖的依赖项更新才能进入生产环境,从而在保持开发者效率的同时,最终降低供应链攻击的风险。 这有何帮助? 不锁定依赖项版本可能有其合理的原因。例如,在 npm 生态系统中,当你发布一个拥有若干依赖项且被许多其他包所依赖的包时。 如果每次你提升一个依赖版本都需要发布自己的包,那么所有依赖于你的包也同样需要提升版本并发布新版,从而在整个生态系统中引发连锁效应。 其中一些过程可以通过自动化来简化——自然是使用像 Mend Renovate 或 GitHub 的 Dependabot 这样的工具,但这仍然需要一定程度的人工审查。 与此同时,不锁定我们的依赖项可能会导致问题,用户可能会立即开始下载一个包的新版本。 尽管那个恶意的依赖项可能不会进入您开发人员的机器——但它有可能从您的自动化构建管道中窃取机密或其他特权信息——或者利用您 AI 驱动的代码审查工具中的提示注入漏洞。 如果我们增加软件包发布与它出现在您项目的拉取请求中的时间间隔,这就为安全研究人员和自动化安全工具提供了更多时间来发现软件包中的恶意意图,从而减少供应链攻击的可能性。 如上所述,在 Mend Renovate 的最新版本中,我们为所有使用“最佳实践”配置的用户启用了“最短发布时间”检查的强制执行。这适用于更新任何使用 npm 数据源的包,无论其使用的是何种 JavaScript/TypeScript 包管理器。 这项强制执行将: 如果发现不满足此要求的包更新,Mend Renovate 的依赖项仪表板中将包含一个“等待状态”的条目,并且需要人工明确请求才能更新——从而确保只有“安全”的包更新才会被提出。 (这里的一个告诫是,增加等待时间并不一定意味着所有问题都能被发现——由于针对性攻击或复杂的规避技术,所有问题可能无法都被捕获。) 通过将此功能直接添加到我们的“最佳实践”配置中,那些已经选择遵循行业最佳实践的用户将默认受到保护。而其他所有人也能够添加此功能,例如: 此外,还可以调整此行为——将等待窗口设置得任意长或短——或者对受信任的内部开发包绕过“最短发布时间”功能。 纵深防御 在可能的情况下,在您的包管理器中启用此功能,以保护开发人员的机器;和/或在您的自动化构建管道中启用此功能,在发布窗口期过去之前使构建失败。 在撰写本文时,pnpm 10.6 和 yarn 4.2.0 已添加了对这些功能的支持,我们也看到其他包管理器正在考虑添加类似功能。 下一步计划?
尽管影响广泛,但这些攻击通常利用了两种常见情况:
在推荐锁定依赖版本后,下一个问题是我们应该多久更新一次。许多工具中现有的默认设置是“一旦有新版本就立即更新”,这可能导致一个恶意升级在其发布几分钟内就被创建为拉取请求 (Pull Request)。
Mend Renovate 如何助力保障整个生态系统的安全
codeJSON{
"$schema": "https://docs.renovatebot.com/renovate-schema.json",
"extends": ["security:minimumReleaseAgeNpm"]
}
除了让 Mend Renovate 在满足特定条件(即经过一个给定的窗口期)前不发起更新之外,我们还建议建立多层防御:
继此版本的工作之后,维护团队将继续研究其他包生态系统,以便为我们的“最佳实践”配置启用相应功能,从而进一步保障面向消费者的产品和内部开发环境的安全!
在过去一年中,我们见证了多起重大攻击事件,例如 Shai-Hulud 蠕虫攻击、Nx 构建系统被攻破,以及通过 tj-actions/changed-files 漏洞导致机密信息泄露到公开的 GitHub Actions 日志中。但仅仅是罗列各种攻击事件,就足以占据本文的全部篇幅,更不用说深入探讨了。 作为一个行业和生态系统,我们能感受到攻击频率的日益增加。仅在 2024 年,报告的恶意软件包数量就同比增长了 156%。鉴于 Mend 托管的 Renovate Cloud 平台受信于超过 130 万个代码仓库,我们在保护开源软件消费者方面处于非常有利的地位,同时也为自托管 Renovate 的用户提供了更强的安全默认设置。在一系列备受瞩目的 npm 供应链安全攻击之后,Mend Renovate 的维护者们决定,对于选择采纳“最佳实践”配置的用户,默认启用这项安全功能是最佳选择。 为了帮助客户更好地应对这些日益增多的攻击,维护团队正在 Mend Renovate 现有的“最佳实践”配置之上进行构建。该团队一直致力于提供更多“默认即安全”的配置,并首先从 npm 生态系统着手。 在最新的 Mend Renovate 42 版本中,使用“最佳实践”配置的用户将会发现,npm 生态系统中的依赖项更新现在需要通过一个“最短发布时间”的检查,即某个更新发布后必须经过 3 天的窗口期,Mend Renovate 才会提议进行更新。通过这种方法,组织可以确保只有经过验证的、稳定的和值得信赖的依赖项更新才能进入生产环境,从而在保持开发者效率的同时,最终降低供应链攻击的风险。 这有何帮助? 不锁定依赖项版本可能有其合理的原因。例如,在 npm 生态系统中,当你发布一个拥有若干依赖项且被许多其他包所依赖的包时。 如果每次你提升一个依赖版本都需要发布自己的包,那么所有依赖于你的包也同样需要提升版本并发布新版,从而在整个生态系统中引发连锁效应。 其中一些过程可以通过自动化来简化——自然是使用像 Mend Renovate 或 GitHub 的 Dependabot 这样的工具,但这仍然需要一定程度的人工审查。 与此同时,不锁定我们的依赖项可能会导致问题,用户可能会立即开始下载一个包的新版本。 尽管那个恶意的依赖项可能不会进入您开发人员的机器——但它有可能从您的自动化构建管道中窃取机密或其他特权信息——或者利用您 AI 驱动的代码审查工具中的提示注入漏洞。 如果我们增加软件包发布与它出现在您项目的拉取请求中的时间间隔,这就为安全研究人员和自动化安全工具提供了更多时间来发现软件包中的恶意意图,从而减少供应链攻击的可能性。 如上所述,在 Mend Renovate 的最新版本中,我们为所有使用“最佳实践”配置的用户启用了“最短发布时间”检查的强制执行。这适用于更新任何使用 npm 数据源的包,无论其使用的是何种 JavaScript/TypeScript 包管理器。 这项强制执行将: 如果发现不满足此要求的包更新,Mend Renovate 的依赖项仪表板中将包含一个“等待状态”的条目,并且需要人工明确请求才能更新——从而确保只有“安全”的包更新才会被提出。 (这里的一个告诫是,增加等待时间并不一定意味着所有问题都能被发现——由于针对性攻击或复杂的规避技术,所有问题可能无法都被捕获。) 通过将此功能直接添加到我们的“最佳实践”配置中,那些已经选择遵循行业最佳实践的用户将默认受到保护。而其他所有人也能够添加此功能,例如: 此外,还可以调整此行为——将等待窗口设置得任意长或短——或者对受信任的内部开发包绕过“最短发布时间”功能。 纵深防御 在可能的情况下,在您的包管理器中启用此功能,以保护开发人员的机器;和/或在您的自动化构建管道中启用此功能,在发布窗口期过去之前使构建失败。 在撰写本文时,pnpm 10.6 和 yarn 4.2.0 已添加了对这些功能的支持,我们也看到其他包管理器正在考虑添加类似功能。 下一步计划?
尽管影响广泛,但这些攻击通常利用了两种常见情况:
在推荐锁定依赖版本后,下一个问题是我们应该多久更新一次。许多工具中现有的默认设置是“一旦有新版本就立即更新”,这可能导致一个恶意升级在其发布几分钟内就被创建为拉取请求 (Pull Request)。
Mend Renovate 如何助力保障整个生态系统的安全
codeJSON{
"$schema": "https://docs.renovatebot.com/renovate-schema.json",
"extends": ["security:minimumReleaseAgeNpm"]
}
除了让 Mend Renovate 在满足特定条件(即经过一个给定的窗口期)前不发起更新之外,我们还建议建立多层防御:
继此版本的工作之后,维护团队将继续研究其他包生态系统,以便为我们的“最佳实践”配置启用相应功能,从而进一步保障面向消费者的产品和内部开发环境的安全!
在近期的 Streaming Lakehouse Meetup · Online EP.2|Paimon × StarRocks 共话实时湖仓 直播中,Apache Paimon PMC 成员/阿里云数据湖资深工程师叶俊豪带来了关于 Paimon 多模态数据湖的深度技术分享。 随着大模型训练对数据规模与多样性的要求不断提升,传统以批处理为中心的数据湖架构已难以满足 AI 工作负载对实时性、灵活性和成本效率的综合需求。特别是在推荐系统、AIGC 等典型场景中,工程师既要高频迭代结构化特征,又要高效管理图像、音频、视频等非结构化数据。面对这一挑战,Paimon 作为新一代流式数据湖存储引擎,正通过一系列底层创新,构建面向 AI 原生时代的统一数据基础设施。 在推荐、广告等 AI 应用中,特征工程是一个持续演进的过程。例如,电商团队可能今天新增“用户近7日点击品类分布”,明天又加入“跨端行为一致性评分”。这种动态列变更导致“列爆炸”问题:表结构频繁扩展,而历史数据需与新特征对齐。 然而,已知的解决方案在此场景下仍然存在一些问题: 这些方案本质上都未能解耦“列”的物理存储,导致灵活性与效率不可兼得。 Paimon 提出了 列分离存储架构,其核心是引入 全局唯一且连续的 Row ID。每行数据在首次写入时被分配一个在整个表生命周期内不变的 ID,且每个数据文件内的 Row ID 是连续的,元数据会记录该文件的起始 Row ID。 这一设计带来两个关键能力: 例如,当新增“用户兴趣标签”列时,Paimon 仅需写入一个包含该列与对应 Row ID 的新文件,无需修改原始特征文件。查询时,引擎透明地将两组文件按 Row ID 对齐合并,无需 SQL 层 Join,也无需重写历史数据。这种机制将列变更的存储成本从 O(N) 降至 O(ΔN),极大提升了特征迭代效率,同时节省了数十倍的存储空间。 AI 训练不再局限于结构化特征。AIGC、多模态大模型等场景要求数据湖能高效处理图像、短视频、长音频等非结构化数据。这类数据具有两大特点:体积差异大(几 MB 到数十 GB)、访问稀疏(训练时通常只读取片段)。 传统列式格式(如 Parquet)将多模态数据与结构化字段混存,导致即使只查用户 ID,也需加载整个含视频的大文件,I/O 效率极低。 Paimon 引入 Blob 数据类型,实现三大突破: 当前,Paimon Blob 已在淘宝、天猫等核心业务中实现大规模落地,每天有近 10PB 的多模态数据(如视频、音频、图像)通过 Blob Descriptor 协议高效写入 Paimon 湖,避免了 Flink 或 Spark 将大文件全量加载到内存的问题。然而,在实际使用中仍面临三大关键挑战: 针对上述问题,团队已规划清晰的演进路径。 多模态数据管理方面,启动两项核心功能: 此外,团队还前瞻性地提出跨表 Blob 复用的构想——多个表引用同一视频时仅存储一份物理数据,虽因涉及多表状态同步与一致性保障而技术难度较高,但已列入长期优化方向。整体目标是打造一个高效、紧凑、可快速检索的多模态数据湖底座,支撑未来 AIGC 与智能推荐等场景的规模化应用。 Paimon 的技术演进,从结构化场景的列分离,到多模态数据的 Blob 抽象,每一项创新都源于真实业务痛点,并反哺于工程效率的提升。它不再只是“存储数据的地方”,而是成为 AI 原生时代的数据操作系统——高效、灵活、智能。 Paimon 将长期、持续且大力投入全模态数据湖建设,全面支持图像、音视频等非结构化数据的高效入湖、去重、合并与毫秒级点查。通过 Deletion Vector、Compaction 优化和全局索引等能力,Paimon 正构建面向 AI 时代的统一数据底座。作为开放湖表格式。 阿里云DLF 在云上提供全托管的Paimon存储服务,支持Paimon的智能存储优化与冷热分层。同时,DLF提供安全、开放、支持全模态数据的一体化Lakehouse管理平台,深度融入兼容其他例如 Iceberg、Lance 等主流格式,无缝对接 Flink、Spark 等计算引擎,,为 AIGC 与多模态智能应用提供高性能、低成本、易治理的数据基础设施。 在数据驱动的 AI 时代,基础设施的价值,最终要体现在对业务效率的实质性推动上。 Paimon 的实践,正为整个行业提供一条通往高效、统一、智能数据湖的新路径。 阿里云DLF提供商业版Paimon服务,新用户免费试用100GB存储,1000CUH,点击领取https://free.aliyun.com/?productCode=dlf EMR Serverless StarRocks:2025年9月登顶全球TPC-H 10TB 性能和性价比榜单,性能比传统 OLAP 引擎提升 3-5 倍,100%兼容开源StarRocks,欢迎免费测试 >> https://free.aliyun.com/?searchKey=StarRocks 前往阿里云EMR官网开通 Serverless StarRocks试用并分享体验反馈,晒图可以领取精美礼品:https://x.sm.cn/EDWpX6I 复制下方链接或者扫描左边二维码 即可免费试用阿里云 Serverless Flink,体验新一代实时计算平台的强大能力! 了解试用详情:https://free.aliyun.com/?productCode=sc一、结构化场景下的“列变更”困境

二、Paimon 的列分离架构:以全局 Row ID 为核心

三、迈向多模态:Blob 数据类型的三大突破

BYTES 或 BINARY 或 BLOB 类型定义 Blob 字段,接口一致,降低接入成本。四、生产验证与未来演进
结语
阿里云DLF提供商业版Paimon服务,新用户免费试用100GB存储,1000CUH,点击领取https://free.aliyun.com/?productCode=dlf

更多内容

活动推荐

在近期的 Streaming Lakehouse Meetup · Online EP.2|Paimon × StarRocks 共话实时湖仓 直播中,Apache Paimon PMC 成员/阿里云数据湖资深工程师叶俊豪带来了关于 Paimon 多模态数据湖的深度技术分享。 随着大模型训练对数据规模与多样性的要求不断提升,传统以批处理为中心的数据湖架构已难以满足 AI 工作负载对实时性、灵活性和成本效率的综合需求。特别是在推荐系统、AIGC 等典型场景中,工程师既要高频迭代结构化特征,又要高效管理图像、音频、视频等非结构化数据。面对这一挑战,Paimon 作为新一代流式数据湖存储引擎,正通过一系列底层创新,构建面向 AI 原生时代的统一数据基础设施。 在推荐、广告等 AI 应用中,特征工程是一个持续演进的过程。例如,电商团队可能今天新增“用户近7日点击品类分布”,明天又加入“跨端行为一致性评分”。这种动态列变更导致“列爆炸”问题:表结构频繁扩展,而历史数据需与新特征对齐。 然而,已知的解决方案在此场景下仍然存在一些问题: 这些方案本质上都未能解耦“列”的物理存储,导致灵活性与效率不可兼得。 Paimon 提出了 列分离存储架构,其核心是引入 全局唯一且连续的 Row ID。每行数据在首次写入时被分配一个在整个表生命周期内不变的 ID,且每个数据文件内的 Row ID 是连续的,元数据会记录该文件的起始 Row ID。 这一设计带来两个关键能力: 例如,当新增“用户兴趣标签”列时,Paimon 仅需写入一个包含该列与对应 Row ID 的新文件,无需修改原始特征文件。查询时,引擎透明地将两组文件按 Row ID 对齐合并,无需 SQL 层 Join,也无需重写历史数据。这种机制将列变更的存储成本从 O(N) 降至 O(ΔN),极大提升了特征迭代效率,同时节省了数十倍的存储空间。 AI 训练不再局限于结构化特征。AIGC、多模态大模型等场景要求数据湖能高效处理图像、短视频、长音频等非结构化数据。这类数据具有两大特点:体积差异大(几 MB 到数十 GB)、访问稀疏(训练时通常只读取片段)。 传统列式格式(如 Parquet)将多模态数据与结构化字段混存,导致即使只查用户 ID,也需加载整个含视频的大文件,I/O 效率极低。 Paimon 引入 Blob 数据类型,实现三大突破: 当前,Paimon Blob 已在淘宝、天猫等核心业务中实现大规模落地,每天有近 10PB 的多模态数据(如视频、音频、图像)通过 Blob Descriptor 协议高效写入 Paimon 湖,避免了 Flink 或 Spark 将大文件全量加载到内存的问题。然而,在实际使用中仍面临三大关键挑战: 针对上述问题,团队已规划清晰的演进路径。 多模态数据管理方面,启动两项核心功能: 此外,团队还前瞻性地提出跨表 Blob 复用的构想——多个表引用同一视频时仅存储一份物理数据,虽因涉及多表状态同步与一致性保障而技术难度较高,但已列入长期优化方向。整体目标是打造一个高效、紧凑、可快速检索的多模态数据湖底座,支撑未来 AIGC 与智能推荐等场景的规模化应用。 Paimon 的技术演进,从结构化场景的列分离,到多模态数据的 Blob 抽象,每一项创新都源于真实业务痛点,并反哺于工程效率的提升。它不再只是“存储数据的地方”,而是成为 AI 原生时代的数据操作系统——高效、灵活、智能。 Paimon 将长期、持续且大力投入全模态数据湖建设,全面支持图像、音视频等非结构化数据的高效入湖、去重、合并与毫秒级点查。通过 Deletion Vector、Compaction 优化和全局索引等能力,Paimon 正构建面向 AI 时代的统一数据底座。作为开放湖表格式。 阿里云DLF 在云上提供全托管的Paimon存储服务,支持Paimon的智能存储优化与冷热分层。同时,DLF提供安全、开放、支持全模态数据的一体化Lakehouse管理平台,深度融入兼容其他例如 Iceberg、Lance 等主流格式,无缝对接 Flink、Spark 等计算引擎,,为 AIGC 与多模态智能应用提供高性能、低成本、易治理的数据基础设施。 在数据驱动的 AI 时代,基础设施的价值,最终要体现在对业务效率的实质性推动上。 Paimon 的实践,正为整个行业提供一条通往高效、统一、智能数据湖的新路径。 阿里云DLF提供商业版Paimon服务,新用户免费试用100GB存储,1000CUH,点击领取https://free.aliyun.com/?productCode=dlf EMR Serverless StarRocks:2025年9月登顶全球TPC-H 10TB 性能和性价比榜单,性能比传统 OLAP 引擎提升 3-5 倍,100%兼容开源StarRocks,欢迎免费测试 >> https://free.aliyun.com/?searchKey=StarRocks 前往阿里云EMR官网开通 Serverless StarRocks试用并分享体验反馈,晒图可以领取精美礼品:https://x.sm.cn/EDWpX6I 复制下方链接或者扫描左边二维码 即可免费试用阿里云 Serverless Flink,体验新一代实时计算平台的强大能力! 了解试用详情:https://free.aliyun.com/?productCode=sc一、结构化场景下的“列变更”困境

二、Paimon 的列分离架构:以全局 Row ID 为核心

三、迈向多模态:Blob 数据类型的三大突破

BYTES 或 BINARY 或 BLOB 类型定义 Blob 字段,接口一致,降低接入成本。四、生产验证与未来演进
结语
阿里云DLF提供商业版Paimon服务,新用户免费试用100GB存储,1000CUH,点击领取https://free.aliyun.com/?productCode=dlf

更多内容

活动推荐

在数字化浪潮中,数据已成为企业竞争的核心资产。网络爬虫作为自动化数据采集工具,与反爬技术的攻防战持续升级,形成了技术对抗的动态平衡。本文将从技术原理、攻防策略、法律边界三个维度,系统解析爬虫与反爬技术的演进路径。 一、技术原理:从静态采集到动态渲染 二、反爬技术矩阵:从基础防护到智能风控 三、反反爬技术演进:从规则对抗到AI赋能 分布式架构实践 class DistributedSpider(scrapy.Spider): } def start_requests(self): 五、未来趋势:智能对抗与隐私计算 在这场技术攻防战中,真正的胜利者不是掌握更复杂算法的一方,而是能够建立可持续数据生态的参与者。建议企业建立"技术防护+法律合规+商业谈判"的三维防御体系,在保障数据安全的同时,探索数据共享的共赢模式。
基础爬虫系统遵循"请求-解析-存储"三段式流程:
请求模块:通过HTTP库(如Requests)发送请求,模拟浏览器行为
解析模块:使用XPath/CSS选择器提取结构化数据,正则表达式处理非结构化文本
存储模块:支持MySQL、MongoDB等数据库存储,或Kafka等消息队列缓冲
典型案例:某电商价格监控系统通过定时爬取商品页面,结合BeautifulSoup解析价格字段,实现分钟级价格追踪。
现代网站广泛采用前端框架(React/Vue)和异步加载技术,导致传统爬虫失效:
JavaScript渲染:关键数据通过DOM操作动态插入,如淘宝商品详情页
API加密:请求参数包含动态Token,如12306的验证码接口
WebSocket流:实时数据通过长连接传输,如股票行情推送
应对方案:
无头浏览器:Puppeteer/Playwright控制Chrome实例执行JS
逆向工程:通过Chrome DevTools分析网络请求,破解加密参数
Selenium自动化:模拟用户操作流程,突破反爬检测
IP封禁:通过Nginx日志分析,对高频访问IP实施限流(如QPS>30触发封禁)
User-Agent检测:维护合法浏览器UA白名单,拦截默认爬虫标识
Referer校验:验证请求来源域名,防止直接API调用
Cookie跟踪:通过Session ID绑定用户行为,识别异常访问模式
行为指纹:采集鼠标轨迹、点击间隔等100+维度特征,构建用户画像
验证码体系:
图形验证码:GoCaptcha等库实现扭曲文字识别
行为验证码:极验滑动拼图验证操作轨迹
无感验证:通过设备指纹和浏览器特征隐性验证
动态令牌:请求参数包含时间戳+随机数签名,如AWS的X-Amz-Signature
机器学习模型:基于XGBoost/LSTM构建异常检测模型,识别爬虫行为模式
设备指纹:通过Canvas指纹、WebGL渲染等200+属性生成唯一标识
流量镜像:将生产环境流量复制到沙箱环境,实时分析恶意请求特征
典型案例:某社交平台通过设备指纹+行为序列分析,将爬虫识别准确率提升至99.2%,误伤率控制在0.3%以下。
IP池轮换:结合Bright Data等代理服务,实现每请求切换IP
UA随机化:维护1000+真实浏览器UA库,每次请求随机选择
请求延迟:采用泊松过程模拟人类访问模式,避免固定间隔
自动化测试框架:
Selenium Grid实现分布式爬取
Appium控制移动端设备集群
AI应用:
深度学习破解验证码:基于CRNN模型实现复杂验证码识别
强化学习优化爬取策略:通过PPO算法动态调整请求频率
区块链技术:去中心化代理网络(如Tor)隐藏真实请求路径
pythonScrapy-Redis分布式爬虫示例
name = 'distributed'
custom_settings = { 'SCHEDULER': 'scrapy_redis.scheduler.Scheduler',
'DUPEFILTER_CLASS': 'scrapy_redis.dupefilter.RFPDupeFilter',
'REDIS_URL': 'redis://127.0.0.1:6379/0' # 从Redis获取初始URL
redis_client = redis.StrictRedis.from_url(self.settings['REDIS_URL'])
for url in redis_client.lrange('start_urls', 0, -1):
yield scrapy.Request(url.decode(), dont_filter=True)
反爬技术:
联邦学习构建分布式风控模型
差分隐私保护训练数据
零知识证明验证请求合法性
爬虫技术:
大语言模型自动生成爬取策略
隐私增强技术(PETs)实现合规采集
边缘计算降低中心化检测风险
在数字化浪潮中,数据已成为企业竞争的核心资产。网络爬虫作为自动化数据采集工具,与反爬技术的攻防战持续升级,形成了技术对抗的动态平衡。本文将从技术原理、攻防策略、法律边界三个维度,系统解析爬虫与反爬技术的演进路径。 一、技术原理:从静态采集到动态渲染 二、反爬技术矩阵:从基础防护到智能风控 三、反反爬技术演进:从规则对抗到AI赋能 分布式架构实践 class DistributedSpider(scrapy.Spider): } def start_requests(self): 五、未来趋势:智能对抗与隐私计算 在这场技术攻防战中,真正的胜利者不是掌握更复杂算法的一方,而是能够建立可持续数据生态的参与者。建议企业建立"技术防护+法律合规+商业谈判"的三维防御体系,在保障数据安全的同时,探索数据共享的共赢模式。
基础爬虫系统遵循"请求-解析-存储"三段式流程:
请求模块:通过HTTP库(如Requests)发送请求,模拟浏览器行为
解析模块:使用XPath/CSS选择器提取结构化数据,正则表达式处理非结构化文本
存储模块:支持MySQL、MongoDB等数据库存储,或Kafka等消息队列缓冲
典型案例:某电商价格监控系统通过定时爬取商品页面,结合BeautifulSoup解析价格字段,实现分钟级价格追踪。
现代网站广泛采用前端框架(React/Vue)和异步加载技术,导致传统爬虫失效:
JavaScript渲染:关键数据通过DOM操作动态插入,如淘宝商品详情页
API加密:请求参数包含动态Token,如12306的验证码接口
WebSocket流:实时数据通过长连接传输,如股票行情推送
应对方案:
无头浏览器:Puppeteer/Playwright控制Chrome实例执行JS
逆向工程:通过Chrome DevTools分析网络请求,破解加密参数
Selenium自动化:模拟用户操作流程,突破反爬检测
IP封禁:通过Nginx日志分析,对高频访问IP实施限流(如QPS>30触发封禁)
User-Agent检测:维护合法浏览器UA白名单,拦截默认爬虫标识
Referer校验:验证请求来源域名,防止直接API调用
Cookie跟踪:通过Session ID绑定用户行为,识别异常访问模式
行为指纹:采集鼠标轨迹、点击间隔等100+维度特征,构建用户画像
验证码体系:
图形验证码:GoCaptcha等库实现扭曲文字识别
行为验证码:极验滑动拼图验证操作轨迹
无感验证:通过设备指纹和浏览器特征隐性验证
动态令牌:请求参数包含时间戳+随机数签名,如AWS的X-Amz-Signature
机器学习模型:基于XGBoost/LSTM构建异常检测模型,识别爬虫行为模式
设备指纹:通过Canvas指纹、WebGL渲染等200+属性生成唯一标识
流量镜像:将生产环境流量复制到沙箱环境,实时分析恶意请求特征
典型案例:某社交平台通过设备指纹+行为序列分析,将爬虫识别准确率提升至99.2%,误伤率控制在0.3%以下。
IP池轮换:结合Bright Data等代理服务,实现每请求切换IP
UA随机化:维护1000+真实浏览器UA库,每次请求随机选择
请求延迟:采用泊松过程模拟人类访问模式,避免固定间隔
自动化测试框架:
Selenium Grid实现分布式爬取
Appium控制移动端设备集群
AI应用:
深度学习破解验证码:基于CRNN模型实现复杂验证码识别
强化学习优化爬取策略:通过PPO算法动态调整请求频率
区块链技术:去中心化代理网络(如Tor)隐藏真实请求路径
pythonScrapy-Redis分布式爬虫示例
name = 'distributed'
custom_settings = { 'SCHEDULER': 'scrapy_redis.scheduler.Scheduler',
'DUPEFILTER_CLASS': 'scrapy_redis.dupefilter.RFPDupeFilter',
'REDIS_URL': 'redis://127.0.0.1:6379/0' # 从Redis获取初始URL
redis_client = redis.StrictRedis.from_url(self.settings['REDIS_URL'])
for url in redis_client.lrange('start_urls', 0, -1):
yield scrapy.Request(url.decode(), dont_filter=True)
反爬技术:
联邦学习构建分布式风控模型
差分隐私保护训练数据
零知识证明验证请求合法性
爬虫技术:
大语言模型自动生成爬取策略
隐私增强技术(PETs)实现合规采集
边缘计算降低中心化检测风险
做企业项目十多年,最近常被问的问题不是“低代码靠不靠谱”,“低代码哪家好”,而是“到底选哪款低代码平台才能不踩坑”。 尤其是2026年,低代码赛道内卷加剧,信创、AI、高低代码融合成了标配卖点,不少企业选型时被概念裹挟,要么花大价钱买了不适用的高端平台,要么贪便宜选了撑不起核心业务的工具。 这几年做信息化项目,我经手过政务系统的信创改造、制造企业MES落地、服装企业的进销存搭建,从国产到海外平台,踩过性能不足、售后脱节、扩展受限的各种坑。其实低代码选型没有统一答案,核心就看三点:业务场景、团队能力、合规需求。 与其被厂商宣传牵着走,不如聚焦主流平台的核心能力与适配边界。 下面我就结合实操经验,拆解2026年仍占据主流赛道的10款低代码平台,从产品实力、功能特点到适用场景逐一说明。 本文推荐的低代码开发平台 01、织信Informat(企业级AI低代码平台) 作为国内早批深耕企业级低代码的平台,织信Informat依托多年技术沉淀,已形成“AI+低代码+私有化”的核心竞争力,连续两年入选低代码能力评估名单,服务过超5万家中大型企业,在制造、零售等行业积累了成熟案例,技术团队多来自华为、平安、腾讯,对复杂业务场景的把控力突出。 功能特点: 优缺点: 优点:私有化部署能力成熟,数据安全性强;高低代码融合流畅,复杂逻辑与轻量应用兼顾;AI辅助效率突出,能大幅缩短开发周期。 缺点:行业模板需平偏少;上手难度略高,需要接受培训才能更快上手。 适用人群:中大型企业及对数据安全、信创有强需求的组织。IT团队可借助其搭建ERP、MES、PLM、WMS等复杂核心系统,中小型企业有基础IT人员的可开发AO、工单、进销存等常规业务系统。业务人员通过AI模型,用语言描述即可生成基础应用,无需依赖技术团队,尤其适合需要自主可控且业务场景多元化的企业。 02、奥哲 奥哲作为国内低代码赛道的老牌玩家,深耕行业十余年,以云枢平台为核心,构建了低代码+AI+集成的全能力体系,连续入选Gartner魔力象限挑战者阵营,在政务、金融、建筑能源等领域拥有大量标杆案例,服务过超50%的中国500强企业,本地化服务网络覆盖全国主要城市。 功能特点: 优缺点: 优点:行业适配度高,复杂流程处理能力强;生态集成完善,可快速对接现有业务系统;技术支持响应及时,大型项目有专属团队跟进。 缺点:轻量应用开发成本偏高;私有化部署周期较长;免费版功能限制较多,不利于小型团队使用。 适用人群:以中大型企业及央国企为主,尤其适合建筑、能源、金融、政务等对流程合规性、行业适配性要求高的领域。已有复杂业务系统需集成、追求全流程数字化闭环的企业可优先选择,IT团队与业务团队协同开发场景下能最大化发挥其优势,小型企业若预算充足且有复杂流程需求也可适配。 03、活字格 活字格是葡萄城旗下企业级低代码平台,依托四十余年控件技术积累,以模型驱动+全栈扩展为特色,是国内唯一能稳定支撑全行业核心业务系统开发的工具,通过多项信创认证,在智能制造、工业互联网领域表现突出,助力众多企业实现OT/IT融合落地。 功能特点: 优缺点: 优点:技术架构成熟,核心系统稳定性强;工业场景适配度领先,OT/IT融合能力突出;支持源码级扩展,复杂业务逻辑可深度定制。 缺点:操作门槛高于轻量平台,需专业IT人员主导;行业模板集中在制造领域,其他行业适配较弱;价格体系较复杂,选型需精准匹配需求。 适用人群:重点服务大型制造企业、工业互联网平台及信创项目。需要搭建MES、WMS等工业级核心系统,或有物联网设备接入、OT/IT融合需求的企业优先选择。专业开发团队主导、追求系统稳定性与扩展性的场景下适配度最高,政务及国企信创项目也可满足合规要求。 04、炎黄盈动(BPM为核心低代码平台) 炎黄盈动是国内低代码与BPM领域的先行者,成立近二十年,以AWS PaaS平台为核心,聚焦企业级流程自动化与数字化运营,通过ISO27001等多项安全认证,在政务、金融、能源等领域拥有深厚积累,服务过超100家央国企及上市公司,流程引擎技术处于行业领先水平。 功能特点: 优缺点: 优点:流程自动化能力突出,适合复杂审批场景;安全合规性强,满足政务金融级要求;平台迭代稳定,长期服务保障充足。 缺点:AI辅助开发能力较弱,与主流平台有差距;轻量应用开发效率偏低;小型团队学习成本较高。 适用人群:适合对流程管理需求强烈的中大型企业,尤其适配政务审批、金融风控、能源运维等流程密集型场景。已有成熟IT架构、需强化流程自动化与跨系统协同的企业可优先考虑,IT团队主导、注重流程合规与长期运维的项目能充分发挥其优势,中小企业若以流程管理为核心需求也可适配。 05、天翎 天翎作为国产低代码平台的实力派,深耕行业十余年,以全栈信创+低代码为核心定位,通过多项国家级信创认证,全面兼容国产软硬件生态,在政务、军工、金融等关键领域拥有丰富案例,平台采用微服务架构,支持高可用部署,本地化服务与定制开发能力突出。 功能特点: 优缺点: 优点:信创适配完善,关键行业合规性有保障;定制化能力强,可满足个性化业务需求;性价比高,中小企业易承受。 缺点:AI原生能力不足,智能开发效率一般;行业模板数量偏少;高端功能需额外付费升级。 适用人群:以政务、军工、金融等对信创合规、数据安全有极高要求的企业为主,同时适配有国产化替代需求的中中小型企业。无需复杂AI功能、侧重流程管控与合规性的场景适配度最高,预算有限但需满足信创要求的企业可优先选择,业务人员与IT人员协同开发的轻中量级项目也能高效落地。 06、OutSystems OutSystems是全球企业级低代码平台的标杆,连续9年占据Gartner魔力象限执行能力榜首,专注复杂应用开发与全生命周期管理,在全球拥有广泛的服务网络与成熟生态,支持多语言、多币种适配,服务过众多跨国企业,尤其在金融、电信等高性能需求行业表现突出。 功能特点: 优缺点: 优点:技术成熟度高,复杂应用构建能力行业领先;全球化服务完善,跨国部署适配性强;性能稳定,高并发场景表现优异。 缺点:价格昂贵,中小企业难以承受;信创适配薄弱,国内关键行业受限;本地化支持响应较慢,适配国内业务场景需额外定制。 适用人群:适合预算充足的大型跨国企业、外资企业,尤其适配金融、电信、零售等对系统性能、全球化部署有高要求的行业。需要快速搭建高复杂度B2C应用、实现全球业务协同的企业可优先选择,已有国际技术生态、无需信创适配的场景下能最大化发挥其优势,国内中小企业慎选。 07、Mendix Mendix作为西门子旗下低代码平台,以AI-always战略重构开发流程,依托西门子工业基因,在智能制造、工业互联网领域拥有天然优势,支持模型驱动开发与多团队协同,全球市场份额稳居前列,服务过飞利浦、西门子等众多行业巨头,多云部署能力满足混合IT架构需求。 功能特点: 优缺点: 优点:工业制造场景适配度领先,AI与业务融合能力强;协同开发效率高,适合大型团队;多云部署灵活,满足混合架构需求。 缺点:价格偏高,中小企业预算压力大;国内信创适配不足,关键行业受限;部分功能需依赖西门子生态,兼容性有局限。 适用人群:重点服务大型制造企业、工业互联网平台及全球化企业,尤其适配汽车、电子、医疗设备等需要数字化孪生、产线智能化升级的行业。已有西门子生态或混合IT架构、追求AI与业务深度融合的企业可优先选择,跨国团队协同开发、工业场景数字化转型项目适配度最高。 08、PowerApps PowerApps是微软旗下低代码平台,依托Office 365、Azure生态优势,实现与微软全系产品深度集成,全球市场份额超20%,是企业生产力工具的首选,操作门槛低,开发效率高,支持按需付费模式,服务过各类规模企业,在协同办公、轻量应用场景普及度极高。 功能特点: 优缺点: 优点:生态集成能力极强,微软体系内企业零迁移成本;易用性突出,开发效率高;按需付费灵活,中小企业易接受。 缺点:复杂应用构建能力有限,核心系统支撑不足;信创适配缺失,国内关键行业受限;高级功能依赖Azure,额外成本较高。 适用人群:适合已全面采用微软技术栈的企业,覆盖大中小型各类规模。中小企业快速搭建轻量办公应用、跨部门审批系统的场景适配度最高,微软生态内的协同办公、数据可视化项目可高效落地,业务人员自主开发基础应用、追求快速上线的需求能充分满足,需信创适配或复杂核心系统的企业慎选。 09、Zoho Creator Zoho Creator自2007年推出以来,深耕低代码领域19年,连续入选Gartner魔力象限,以低代码+高灵活性+高性价比为特色,在全球拥有16个数据中心,支持多语言、多币种管理,内置800+预构建集成模板,服务过全球数百万企业,中小企业适配度极高。 功能特点: 优缺点: 优点:性价比高,中小企业预算友好;全球化部署能力强,适合跨境业务;易用性佳,业务人员可自主开发。 缺点:复杂核心系统支撑能力不足;国内信创适配薄弱;本地化服务响应速度一般,国内企业售后体验有限。 适用人群:以预算有限的中小企业为主,同时适配有跨境业务、全球化部署需求的企业。零售、教育、互联网等轻量业务场景,如客户管理、订单处理、库存统计等应用可高效落地,1-10人小团队自主开发、快速试错的场景适配度最高,无需复杂核心功能与信创要求的企业可优先选择。 10、得帆 得帆作为国产低代码赛道的新锐力量,以云原生架构为核心,聚焦企业级集成与数字化运营,入选信通院低代码能力评估名单,拥有200+各类系统连接器,在供应链协同、业财一体化等场景拥有丰富案例,服务过超1000家中大型企业,适配混合云与微服务架构需求。 功能特点: 优缺点: 优点:集成能力强,跨系统协同效率高;云原生架构先进,可扩展性好;性价比优于国际品牌,中大型企业易接受。 缺点:行业模板不够丰富,部分场景需定制;AI原生能力处于迭代中,智能开发效率一般;信创适配虽在推进,但覆盖度不及头部国产平台。 适用人群:适合中大型企业及快速扩张期企业,尤其适配供应链协同、客户关系管理、业财一体化等需要跨系统集成的场景。已有多套业务系统需打通、追求流程自动化与数据互通的企业可优先选择,云原生部署需求、混合IT架构的场景适配度最高,对信创要求不极致的制造、零售企业适配性良好。 结束语: 俗话说“没有规矩,不成方圆”,在众多低代码开发平台中选择适合自身企业需求的还是需要花费一段时间的,如果考虑到数据安全性方面的问题,建议重点评估低代码开发平台的私有化部署能力。 为什么注重私有化?私有化部署,一般是指针对特定企业定制开发的产品,私有化部署的服务器、存储空间等由客户自己管理(本地部署)或第三方服务商托管(私有云部署),资源通过私有网络提供。比如我国很多政府或者大型企业自建的信息化项目多属于私有化产品。私有化部署可以为企业带来很多增益: 1、定制开发 私有化部署可以根据客户自己的需求和情况,定制使用功能。不同行业、不同类型的企业用户对软件需求是不一样的,通用软件并不能满足不同类型的管理需求。而对于一个企业来说,所处的发展阶段不一样,就存在了不一样的管理需求。很多企业对软件有于个性化定制的需求,需要开发专属功能,私有化部署平台可以更好地满足这类需求。 2、数据安全 一些对数据敏感的行业,比如金融行业,无论是外包数据存储还是使用流行的云计算SaaS应用程序,都将使企业数据的安全性和隐密性难以保证,给企业带来无法预料的风险,私有化部署平台更安全。 3、对接已有系统,延长使用寿命 企业系统随着使用时间越长、复杂性越高,调整优化能力越来越差,但企业又不想重新整体开发以致于形成僵局,对此,可私有化部署的低代码开发平台可以利用开放的接口将新系统集成到企业已有系统中,以最小的调整成本实现对原有系统改造升级。同时,私有化部署的平台拓展性强,可在原有功能上二次开发进行自主升级,让产品更好的服务于企业,延长软件使用寿命。 低代码为企业提供了“降本、增效、提质”的价值,企业在追求其带来的效益之前,一定要擦亮眼睛,仔细斟酌,选择最适合自身发展的。
随着企业数字化转型加速推进,大数据业务规模呈现指数级增长,迭代变更越发频繁。此背景下,呈现"高频变更"与"超大规模"并存的特征,这种双重特性给大数据任务的发布变更带来了严峻挑战。 离线数仓任务资产管理 增量:通过大数据变更发布流水线进行卡点,确保末端任务发布前,消费场景&风险等级完成绑定。增量任务发布消费场景绑定率100%覆盖。 存量:盘点存量资产任务,人工梳理打标,完成初始化消费场景绑定。 大数据变更发布流水线 数仓任务发布流水线管控100%覆盖,任务发布效率提升60%。 消费场景定义 根据业务用途梳理消费端内容,根据风险高低定义风险等级P0、P1、P2,从末节点自动倒推追溯上游全链路,并全部打上风险等级P0、P1、P2标识,以相同的生产规范标准要求上下游各方协同保障。 风险等级定义 消费场景注册&绑定 当前数仓任务消费场景已经完成初步盘点和梳理,并且将盘点的消费场景数据初始化到平台中。随着迭代场景的新增,需要注册新的场景,从而应业务所需。 针对当前数仓存量资产任务进行盘点,将adm、ads层表进行梳理、打标,最终初始化到平台中,完成存量资产绑定消费场景。 任务和消费场景完成绑定后,从而决定任务的应用场景、风险等级,P0、P1任务将在变更管控、线上稳定性保障等得到重保。 质量定义(DQC) 在离线数据仓库(数仓)中,数据质量检查(DQC,Data Quality Check)是确保数据准确性、一致性、完整性的重要环节。数仓ETL任务在加工完成后,会执行DQC检查,从而有效、及时发现数据质量问题,便于研发人员及时修复,避免问题数据对业务造成损失。 当强规则执行不通过后,直接失败任务,及时通知任务Owner,并拦截下游任务执行,待修复后下游链路再继续执行。(拦截任务,需要值班人员及时修复。) 当弱规则执行不通过后,及时通知任务Owner。任务正常执行成功,下游任务也正在运行。(不拦截任务,会通知到任务Owner。) 质量定义配置 质量定义通过可视化界面操作,让用户可以直接通过简单的勾选方式,即可生成对应的DQC规则,大大提高研发人员配置DQC的效率。 用户可以按照规则SQL补充规则逻辑,从而实现自定义验证SQL融入DQC-SQL中,达到自定义DQC规则的效果。 强弱规则配置 DQC强规则和弱规则的配置方式完全一致,通过Tab的切换,可以完成强弱规则的配置。 质量DQC试运行 所有DQC配置完成后,需要通过试运行之后才能保存上线,确保DQC配置的合理性、有效性。 告警策略 支持飞书、电话、短信、邮箱等方式告警通知。其中强规则一旦触发,必定电话告警(采取15分钟无响应即逐级上升原则)。 发布流水线管控 静态扫描 检测规则:任务依赖、建表规范、编码规范、集成规范、DQC规范等。 冒烟测试 在数仓测试环境下,完成任务冒烟测试执行,执行内容包含:ETL任务、DQC规则。 CodeReview 描述:根据业务熟悉对,由数据域数仓PM 或者 业务数仓技术负责人进行评审,给出评审结论。 内容:ETL代码、调度配置、质量定义配置、DQC-SQL等。 注意:审批人飞书会接收到来自“xx稳定中心”机器人推送的消息,点击进入审批详情完成审批即可。 数据探查 描述:针对表内所有字段进行探查和校验,主要场景:数字探查、字符探查、主键验证、无效字段验证、异常字段验证 PS:数字探查和字符探查会给出明显问题红色高亮标识。 数据比对 描述:针对生产表和测试表进行数据比对,比对场景:数据量对比、聚合指标对比、明细对比。 注意信息:对比的两张表用户无法输入,用户需要输入执行分区、主键字段、去噪字段、风险阈值(针对明细对比生效)。 发布审批 描述:发布审批节点,用户输入本次发布的基础信息,提交审批即可。 所有需求都需要数据域PM和对应数据域的责任QA进行审批。 得物离线数仓发布流水线过去1年有着从0到1的建设,以及后期从1到10的优化和改进。当前流水线能力已经足以支撑数仓内部日常迭代变更需求的发布管控,为发布准出规则执行提供了巨大帮助。 发布管控对于QA来说是最重要的一个环节,所有发布都能够达到准出标准的要求,从而才能守住发布的最后一道线。 节点能力优化 当前数仓表单分区大于3TB(十亿、百亿、千亿级别)存储数据后,数据探查、数据比对将不提供验证服务,主要源于数据量、存储过大、字段过多,对计算资源、计算存储带来巨大的消耗,严重影响其他任务的执行进度。后续通过数据抽样验证的方式从而降低资源的消耗,从而提升场景覆盖度。 流水线能力补充 数据探查未来考虑通过和历史探查结果比对参考的方式,给出诊断结果,进一步提升工具卡点能力。 1.AI编程实践:从Claude Code实践到团队协作的优化思考|得物技术 2.入选AAAI-PerFM|得物社区推荐之基于大语言模型的新颖性推荐算法 3.Galaxy比数平台功能介绍及实现原理|得物技术 4.得物App智能巡检技术的探索与实践 5.深度实践:得物算法域全景可观测性从 0 到 1 的演进之路 关注得物技术,每周更新技术干货 要是觉得文章对你有帮助的话,欢迎评论转发点赞~ 未经得物技术许可严禁转载,否则依法追究法律责任。一、前言
二、项目目标
三、项目方案

数仓任务资产管理




数仓变更管控流水线



















四、总结&未来规划
实践总结

未来规划
往期回顾
文 /家森
你是否刷到过这样的短视频广告:如何在家躺着日赚几百块”、“通过手相预测未来姻缘”。在快手商业化广告素材审核过程中,快手商业化生态与体验团队每天也会拦截大量的风险素材。这些内容轻则破坏用户体验、损伤商业化生态,重则触及底线问题、危害整个商业化业务。团队的任务是通过技术手段将下述这些不同的风险都识别出来并拦截。 与传统的显性风险不同,商业广告的违规往往隐藏在跨模态的错位中——画面合规但口播违规、字幕合规但暗示性极强。这类“高风险、强对抗”的内容,对审核系统提出了极高的要求:不仅要判得准(准确性),还要说得清(可解释性),更要跟得上政策的快速迭代(政策对齐)。面对这一挑战,传统的“黑盒”判别模型或通用多模态大模型(VLM)往往力不从心:前者缺乏因果推理能力,后者难以适应细粒度的商业审核策略。 为解决这一痛点,快手商业生态与体验算法团队提出了 BLM-Guard,这是一个专为高风险短视频广告设计的可解释性多模态审核框架。该框架融合了多模态思维链(CoT)推理与策略对齐的强化学习(RL),通过模拟人类审核员的“观察-归因-判断”逻辑,提升了模型在商业化场景下的审核精度与推理一致性。 本研究相关成果《BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards》已被人工智能顶级会议 AAAI 2026(Main Track) 接收。 核心亮点: 随着短视频商业化深入,广告已成为平台核心支柱,但违规内容日益呈现“隐蔽化、协同化、对抗化”趋势。这种高风险、强对抗的业态对现有的审核体系提出了严峻挑战,主要体现在以下三个维度: 面对上述“违规识别难、规则适配难、结果落地难”的困境,本研究提出 BLM-Guard 框架。通过引入模拟人类审核逻辑的“多模态思维链(CoT)”与策略对齐的强化学习(RL),旨在实现对隐蔽违规的精准识别与动态政策适配,并构建业界首个精细化多模态广告风控基准,为短视频商业生态的安全与可持续发展提供技术支撑。 BLM-Guard 采用了一种渐进式的“两阶段”训练范式,分别是第一阶段中规则锚定的 ICoT 冷启动(Rule-Anchored SFT)和第二阶段中基于 SCA-R 的强化学习(Self-Consistency RL),确保模型既能学到规则,又能灵活应用。 这一阶段的目标不是简单地微调 VLM,而是解决“黑盒模型无法理解细粒度商业规则”的问题。 为了让模型“看懂”违规细节,采用了一套新的提取流程 : 在 SFT 阶段,BLM-Guard 修改了标准的 Cross-Entropy 损失,加入了 KL 散度约束 : SFT 模型虽然具备了初步推理能力,但在面对由于政策快速迭代导致的“策略漂移”时,泛化性不足。该阶段引入了 GRPO(Group-wise Relative Policy Optimization)算法进行优化。其中,混合奖励函数设计如下:为了平衡准确性、格式规范和逻辑一致性,奖励函数由三部分组成 : 从技术架构角度看,BLM-Guard 的核心壁垒在于: 在构建的 BLM-Guard Benchmark 以及 UCF 等五个公开数据集上,BLM-Guard 均展现了 SOTA(State-of-the-Art)性能。 实验证明,“规则微调(Rule-SFT)+ SCA-R 强化学习” 的组合是性能提升的关键。仅依靠 SFT,模型容易产生幻觉;而加入 SCA-R 后,模型学会了在不确定时更加谨慎,提升了模型的泛化效果。 快手商业生态与体验研发中心始终致力于用技术守护快手广告的清朗。
图 1 风险素材案例
图 2 BLM-Guard 两阶段训练框架示意图一、研究背景
二、技术方案
2.1 第一阶段:规则锚定的 ICoT 冷启动
2.1.1 数据构造——自适应关键帧与 ICoT 生成
2.1.2 训练目标——引入规则先验
2.2 第二阶段:基于 SCA-R 的强化学习
2.3 总结
三、效果性能
3.1 核心指标
图 3 BLM-Guard Benchmark 风险分类体系3.2 消融实验
四、未来展望
未来,团队将继续深耕以下方向:
1.理解+生成 OneModel:探索理解+生成深度融合的 oneModel 新范式,进一步精准识别违规内容,同时引入营销视角生成高转化、有吸引力的修复建议,提升商家体验;
2.风控大模型基座 KwaiBLM:自主研发 KwaiBLM 风控大模型基座,作为风控领域的统一认知底座,支撑内容理解、风险识别、策略生成等多项核心能力,推动风控从经验驱动向数据智能驱动转型;
3.RiskAgent 智能体:构建多 Agent 协作的智能体系统,建设下一代人机协同的智能风控引擎 RiskMatrix,提升业务场景风险防控效率与防控效果;
4.Deepfake 攻防能力:针对 AI 生成内容带来的新型风险,构建 Deepfake 检测与对抗技术体系。通过多模态特征融合、内容理解等技术手段,提升识别 AI 生成的虚假素材、篡改内容、合成视频等,守护平台内容真实性;
5.动态图算法:探索融合图神经网络与 Attention 机制,将 Graph RAG 图表征能力与大模型 KwaiBLM 相结合提升识别能力,挖掘隐蔽关联风险。
在数字化转型浪潮中,中小企业对CRM的需求已从基础客户管理升级为客户全生命周期运营、销售效能提效、客户价值挖掘与留存复购闭环的综合能力诉求。本文围绕客户中心、销售管理、 RFM 客户分析、复购流失预警四大核心维度,对超兔一体云、Dolibarr、ClickUp、Free CRM、橙子CRM、销氪CRM、纷享销客7款主流产品进行专业深度横评,为企业选型提供决策参考。 客户中心是CRM的基础,核心在于多渠道数据聚合、客户画像完整性、生命周期自动化管理、流程适配灵活性四大子维度: 销售管理的核心是适配不同业务场景的跟单模型、订单全链路管控、销售协同与效能分析,直接决定企业销售转化效率: RFM分析是精准划分客户层级、制定差异化营销策略的关键,核心对比原生支持程度、自动化水平、可视化呈现: 复购流失预警直接关系到客户留存率,核心对比预警精准度、自动化触发机制、挽回策略支撑: 中小企业CRM选型的核心逻辑是匹配业务阶段、锚定核心痛点:一、核心能力总览对比表
品牌 客户中心核心特性 销售管理核心特性 RFM客户分析 复购流失预警 超兔一体云 多渠道获客整合、AI补全客户画像、智能客池分类、AI生成工作流引擎 三一客小单模型/商机/多方项目跟单、订单财务联动、AI电话录音分析、自动生成日报 原生自动化分析+可视化 实时消费间隔分析+多渠道自动预警 纷享销客 360°客户全景画像、全生命周期追踪、多系统集成、客户分级管理 全流程数字化管控、PaaS平台定制、销售目标/过程/行为管理、行业适配方案 原生支持+客户分层 全生命周期数据驱动预警 销氪CRM 公私海智能规则、360°客资管理、智能名片轨迹追踪、大数据拓客 寻客宝获客、电销卫士触达、小盟AI助手跟进、销售全链路数据统计 未明确原生支持 无明确公开功能(推测基础提醒) 橙子CRM 客户全生命周期管理、公海自动丢/认领、多端数据同步 全流程销售跟进、移动办公外勤签到、多维销售报表 未明确支持 待跟进客户智能提醒 ClickUp 任务模块整合客户信息、多视图跟踪状态 轻量化销售SOP模板、任务关联协同、自定义报表 需第三方/自定义报表 任务状态触发基础提醒 Free CRM 联系人管理、互动历史追踪 销售管道跟踪、交易/通话/邮件追踪、任务分派 未提及 无明确功能 Dolibarr 基础客户档案、历史交易记录 报价→合同→订单→发票全流程、物流管理、付款记录 手动统计 沉睡客户手动标记 二、分维度深度对比
1. 客户中心:从数据整合到全生命周期运营的能力角逐
子维度对比细节
子维度 超兔一体云 纷享销客 销氪CRM 其他品牌表现 多渠道获客整合 支持百度/巨量引擎/官网/微信/小程序/工商搜客等全渠道,线索一键转化,智能查重 企业微信/钉钉/ERP等系统集成,线索全链路追踪 寻客宝大数据拓客、地图找客、智能名片轨迹追踪 Dolibarr仅基础档案;ClickUp靠任务整合;Free CRM仅联系人管理 客户画像构建 AI自动补全工商/天眼查信息、微信/支付宝头像昵称,地址自动标记经纬度 360°全景画像,整合客户资料/标签/跟进状态,支持CLV分析 360°客资管理,记录客户行为轨迹 橙子CRM仅自定义标签;其余品牌仅基础联系方式记录 生命周期管理 自动分类至需求培养/有需求/成功等客池,针对性营销适配 从线索到售后全链路数字化追踪,客户分级差异化服务 公私海智能规则,提升线索复用率 橙子CRM有基础状态分类;其余品牌无自动化客池管理 工作流引擎 自然语言AI生成工作流,支持数据动作、权限管控、步骤限时 PaaS平台配置复杂流程,适配行业定制需求 无明确公开工作流功能 ClickUp任务流程;Dolibarr/Free CRM无原生工作流 客户中心核心能力脑图
mindmap
root((客户中心核心能力))
多渠道获客整合
广告平台对接(百度/巨量引擎)
社交/私域获客(微信/小程序)
大数据拓客(工商搜客/地图找客)
线索智能转化与查重
客户画像构建
第三方数据补全(工商/天眼查/社交)
多维度标签体系
地理信息标记
生命周期管理
自动化客池分类
客户分级差异化服务
全链路状态追踪
工作流引擎
AI生成流程配置
权限与限时管控
数据动作触发2. 销售管理:从跟单模型到全流程效能的适配性对比
子维度对比细节
子维度 超兔一体云 纷享销客 销氪CRM 其他品牌表现 跟单模型适配 三一客小单快单模型、商机跟单模型、多方项目全周期管理(收支差管控) 全流程标准化SOP,PaaS定制行业专属模型(制造/快消) 获客-触客-跟进全链路模型,小盟AI智能分析跟进 Dolibarr报价到发票固定流程;ClickUp轻量化SOP;Free CRM销售管道跟踪 订单全流程管控 服务/实物/特殊型订单支持,订单锁库/采购计划联动,签约/开票/发货自动触发应收 订单全生命周期追溯,财务联动管控,行业化订单配置 无明确复杂订单类型支持,聚焦销售过程数据统计 橙子CRM基础订单管理;Dolibarr支持物流管理;其余品牌无财务联动功能 销售协同与效能分析 360°跟单视图、跟单时间线、AI电话录音分析、自动生成日报、销售目标分解 销售目标/过程/行为三维管理,可视化数据报表,团队协同工具集成 销售全链路数据统计,电销接通率分析,挂机短信二次触达 ClickUp任务协同;Free CRM任务分派;其余品牌仅基础报表功能 超兔一体云小单快单模型流程图
flowchart LR
A[多渠道线索录入] --> B[三一客三定分析<br/>定性/定级/定量]
B --> C[关键节点推进<br/>自动触发待办]
C --> D[订单一键生成<br/>自动锁库/应收触发]
D --> E[交付完成<br/>自动同步客户至复购池]
E --> F[AI生成销售日报<br/>效能复盘]3. RFM客户分析:客户价值挖掘的核心能力
品牌 RFM分析能力状态 核心特性 超兔一体云 原生自动化支持 自动采集消费R(最近时间)/F(频率)/M(金额)数据,生成价值客户/保持客户/发展客户/挽留客户分层,可视化报表输出 纷享销客 原生支持 基于全生命周期数据计算RFM得分,结合CLV分析,支撑客户分级服务策略制定 销氪CRM 未明确公开原生支持 需通过自定义报表或第三方工具实现基础统计 橙子CRM 未明确支持 无公开功能信息 ClickUp 非原生支持 需通过第三方集成或自定义报表手动统计 Free CRM 未提及 无相关功能 Dolibarr 手动统计 需导出订单数据后手动计算RFM指标 4. 复购流失预警:客户留存的主动防御能力
品牌 复购流失预警能力状态 核心特性 超兔一体云 实时智能预警 自动计算客户最近3次消费间隔,超过阈值自动标记流失风险,触发系统消息/邮件/短信预警,同步至销售待办 纷享销客 全生命周期数据驱动预警 基于客户互动频次、订单间隔、服务请求变化等多维度数据,识别流失前兆,触发挽回任务分配 橙子CRM 基础提醒 仅支持长时间未跟进客户的智能提醒,无基于消费数据的精准预测 ClickUp 任务状态触发提醒 通过客户任务长期未更新设置提醒,无消费数据关联分析 Dolibarr 手动标记 仅支持手动标记沉睡客户,无自动预警机制 Free CRM 无明确功能 未提及相关预警能力 销氪CRM 无明确公开功能 推测仅支持基础待办提醒,无基于消费行为的精准预警 三、综合能力雷达图分值(满分100)
品牌 客户中心 销售管理 RFM分析 复购预警 综合得分 超兔一体云 95 90 90 90 91.25 纷享销客 90 85 85 80 85 销氪CRM 85 85 60 65 73.75 橙子CRM 75 75 50 60 65 ClickUp 70 70 50 55 61.25 Free CRM 65 65 40 45 53.75 Dolibarr 60 65 30 40 48.75 雷达图解读
四、选型决策建议
企业类型与需求场景 推荐品牌 全链路客户运营(获客-转化-留存-复购) 超兔一体云:自动化能力覆盖四大核心维度,AI工具降低运营成本 大中型企业复杂业务定制 纷享销客:PaaS平台适配行业化流程,全生命周期数据支撑决策 电销/获客导向型企业 销氪CRM:大数据拓客+电销触达能力突出,快速提升线索转化效率 中小微企业基础移动办公需求 橙子CRM:多端同步+公海管理,满足轻量化销售跟进需求 跨界任务+客户管理需求 ClickUp:任务模块整合客户信息,适合非纯销售场景的轻量管理 开源低成本基础需求 Dolibarr:免费开源,满足小型企业基础订单与客户档案管理 五、选型总结
在FinTech(金融科技)的开发场景中,实时行情接入始终是一个绕不开的话题。最近在优化公司的投顾辅助系统时,我们面临的主要挑战是如何在低开销的前提下,实现多币种行情的毫秒级推送。 从HTTP Keep-Alive到WebSocket 工程化实现的考量 核心代码解析 数据处理流 在 on_message 接收到 Payload 后,通常是 JSON 格式的字节流。我们在这一层增加了序列化处理,直接将其转换为 Pandas DataFrame 或存入 Redis 消息队列,供下游的策略服务消费。通过这种架构,我们成功将内部行情分发系统的延迟控制在极低水平,有效支撑了业务端的高频查询需求。
传统的HTTP/1.1虽然支持Keep-Alive,但在Header开销和单向通讯的限制下,并不适合高频数据的传输。对于外汇Tick数据,WebSocket的全双工(Full-duplex)特性是唯一解。它允许服务器主动向客户端Push数据,极大降低了网络延迟。
在选型阶段,我们对比了多种方案。参考AllTick API等业界标准的实现方式,我们采用了Python的 websocket-client 库作为底层驱动。工程实现的难点在于异常处理和状态管理——比如在网络抖动时的自动重连机制,以及心跳包的维护。
下面的代码片段展示了一个最小可行性产品(MVP)。它实现了与行情服务器握手、发送鉴权与订阅指令、以及异步接收数据流的完整闭环。import websocket
import json
# 替换为你自己的 API 密钥
api_key = "YOUR_API_KEY"
# 连接到外汇数据服务
def on_message(ws, message):
data = json.loads(message)
print("实时数据:", data)
def on_error(ws, error):
print("错误:", error)
def on_close(ws, close_status_code, close_msg):
print("连接关闭")
def on_open(ws):
# 发送订阅请求,订阅欧元兑美元(EUR/USD)数据
subscribe_message = {
"method": "subscribe",
"params": {
"symbol": "EURUSD"
},
"api_key": api_key
}
ws.send(json.dumps(subscribe_message))
if __name__ == "__main__":
ws_url = "wss://ws.alltick.co/realtime" # 替换为实际 WebSocket 地址
ws = websocket.WebSocketApp(ws_url, on_message=on_message, on_error=on_error, on_close=on_close)
ws.on_open = on_open
ws.run_forever()

摘要: 日前,由 OceanBase 联合中国人民大学数据库系统研究团队(刘爽副教授)对主流关系型数据库系统缺陷开展的实证研究《A Comprehensive Study of Bugs in Relational DBMS》被软件工程领域顶级期刊 IEEE Transactions on Software Engineering(TSE) 正式录用。 IEEE TSE 是 IEEE 旗下软件工程方向的权威期刊。在数据库缺陷实证研究方面,本论文首次系统分析了 MySQL 等三个开源数据库中 777 个真实缺陷,揭示了 RDBMS 的缺陷在根因、表症等方面的特点,以及现有测试工具在深层语义缺陷检测上的局限性。 以下为论文介绍。 本研究通过“系统性实证分析”揭示主流关系型数据库在真实场景中的缺陷规律。研究覆盖 MySQL、SQLite 和 openGauss 三大系统中 777 个高质量修复缺陷,深入剖析其根本原因、症状表现、分布特征及其关联性。 其核心贡献在于:首次构建了面向开源关系型数据库的细粒度缺陷分类体系,研究共获得 12 项发现,为 RDBMS 系统的开发维护和测试提供了重要启示。研究发现,涉及 SQL 数据类型及数据库触发器、存储过程、参数设置等复杂功能的缺陷现有测试工作无法有效触发,这一发现为提升 RDBMS 缺陷检测能力提供了显著改进空间。 本研究通过一套严谨的实证方法对关系型数据库中的真实缺陷进行系统性分类与归因。围绕三个核心维度展开:根因、症状和修复模块。研究团队从 MySQL、SQLite 和 openGauss 的官方仓库中收集了 2018 至 2023 年间报告的 2495 个缺陷,经过严格筛选后构建了一个高质量的 777 个缺陷数据集。 在此基础上,作者提出了一套四维分析框架: 根因维度识别出 12 类根本问题(如错误逻辑、API 误用、类型处理缺陷等); 为确保标注一致性,两名研究人员独立完成全部标签分配,并通过 Cohen’s Kappa 系数评估达成共识。该方法不仅保证了分析的客观性,也为后续数据库测试工具的设计提供了可操作的指导依据。 研究揭示了多项关键发现。首先,在根因分布上,“不正确的代码逻辑”占比最高达 32.3%,“类型处理缺陷”和“API 误用”分别以 9.0% 和 8.4% 的比例成为第二、第三大类根因。其次,在症状表现方面,“结果不一致”是最普遍的症状,占全部缺陷的 42.99%,且往往无崩溃、无报错,具有极强的隐蔽性。 进一步的跨系统对比显示:MySQL 与 SQLite 在缺陷模式上高度相似,而 openGauss 因架构差异与活跃开发状态,表现出显著不同的缺陷谱系。这些结果不仅刻画了数据库内核的脆弱面,也为未来高可靠数据库的设计与质量保障工作指明了方向。 研究中观察到类型相关缺陷在数据库 bug 中占比显著,团队开发了一个概念验证工具 SQLT,用于针对性挖掘此类问题。SQLT 强化了对跨数据类型表达式、隐式类型转换以及非标准类型(如 BIT、JSON)组合的查询生成能力。 该工具通过比对语义等价查询的执行结果,能够有效识别那些不触发崩溃但返回错误结果的静默逻辑缺陷。在实验中,SQLT 不仅成功复现了多个已知类型 bug,还新发现 8 个此前未被报告的问题,其 5 个已被 MySQL、SQLite 和 openGauss 官方确认并修复。 欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/
OceanBase联合中国人民大学数据库团队的数据库缺陷实证研究,被软件工程顶刊IEEE TSE录用。该研究首次构建了面向开源关系型数据库的细粒度缺陷分类体系,共获得12 项发现,为RDBMS系统的开发维护和测试提供了重要启示。研究发现,涉及SQL数据类型及数据库触发器、存储过程、参数设置等复杂功能的缺陷现有测试工作无法有效触发,这一发现为提升RDBMS缺陷检测能力提供了显著改进空间。简 介
方法与分类体系

表1:采集 bug 的统计信息
症状维度归纳了包括错误结果、崩溃、死锁、性能退化等行为;
模块维度定位缺陷修复位置(如解析器、优化器、执行引擎、存储层等);
关联性进一步探索三者之间的关联规律,例如“类型相关根因多导致错误结果,且集中于表达式求值模块”。结果与分析

图1:按根本原因划分的缺陷分布
图2:症状与根因的关系概念验证工具 SQLT

表2:SQLT检测到的缺陷
简介 IT领域经常被提及的一个问题是:为什么我们需要借助第三方解决方案来审计Active Directory(活动目录)? 在接下来的内容中,我们将详细阐述这一观点的依据。 缺陷二:被动式响应 —— 原生审计功能缺乏实时预警机制 缺陷三:信息过载,实效缺失 —— 原生审计功能日志泛滥致价值衰减 缺陷四:信息碎片化,溯源低效 —— 原生审计功能缺失关联性分析 典型案例: 核心缺陷: 对于拥有多个分支机构的企业而言,使用原生日志实现跨地域日志集中化扩展管理近乎不可能。具体表现为: 典型场景: 核心矛盾: 缺陷六:审计日志安全性薄弱 —— 原生功能无法防范内部恶意篡改 缺陷八:合规性支撑不足 —— 原生报告机制难以满足审计要求 缺陷九:伪经济性陷阱 —— 低估第三方审计方案的长期ROI 隐性成本盲区: 风险乘数效应: 拥抱审计技术革新,构建主动式安全体系 跨平台统一审计: 部署范式革新:
在数字化转型与网络安全威胁并行的时代,Active Directory(活动目录)作为企业身份管理的核心枢纽,其审计能力直接关乎全局安全水位。然而,大量企业仍困于原生审计功能的局限性,在安全事故响应、合规审查中付出高昂代价。本文深度剖析Active Directory原生审计的九大致命缺陷,基于行业数据揭示隐性成本黑洞,并指出现代化审计工具的进化路径——这不仅是技术升级,更是企业安全战略的范式革命。
关键词
Active Directory审计 第三方审计工具 合规性管理(GDPR/HIPAA/SOX)内部威胁检测 日志分析自动化 IT运维成本优化 安全能见度 原生审计缺陷 权限滥用防护 零信任架构
为了回答这一问题,我们撰写了这份文档,深入探讨不依赖第三方工具进行审计可能存在的隐患。开篇明义,本文旗帜鲜明地指出:对于当今大多数中端市场及企业级IT团队而言,原生审计功能(Native Auditing)已无法满足需求。
缺陷一:X 被修改为 Y —— 原生审计功能仅提供"当前值"记录
原生审计功能会告知你某项属性发生了变更(例如显示当前的新值),但这种信息的作用存在明显局限:缺乏变更前的历史记录意味着你无法获取完整的上下文。举例来说,假设管理员修改了某个 Active Directory(活动目录)对象的属性,而这一改动导致特定用户权限异常。此时,若想快速定位问题根源,必须明确知道该属性修改前的原始值。
核心问题:仅向管理员提示"某处发生变更"的信息,在大多数实际故障排查场景中远不足以支撑高效的问题修复。
尽管可以通过配置对特定事件生成警报,但原生审计功能内置的事件查看器(Event Viewer)在告警精细度与报告易用性上存在明显短板。试想:若有人修改了某用户的权限或关键配置,但该操作未立即引发显著异常,你需要多久才能发现这一变更?现实情况往往是——此类隐患往往在数据泄露、权限滥用等安全事件爆发后才会被察觉。
核心矛盾:依赖“事件触发-响应”的被动模式,本质上是一种“亡羊补牢”式的安全策略,难以满足企业主动防御的安全需求。
当启用全部审计选项时,海量日志不仅会引发系统性能下降(甚至导致关键业务操作延迟),部分企业因此选择彻底放弃审计功能以规避系统过载风险。然而,更深层的问题在于:庞杂的日志噪音中,真正具有安全价值的线索(如攻击痕迹、异常权限变更)往往被淹没。
核心症结:原生审计功能缺乏智能日志过滤与风险优先级标记机制,导致"数据量越大,安全可见性反而越低"的悖论。
试图手动回答诸如"谁在何时何地修改了什么"这类基础问题,本质上如同从零散拼图中还原完整画面:管理员需耗费大量时间从不同日志中提取数据,再手工关联线索。而现实是——现代IT团队的核心痛点正是"时间匮乏"。即便面对看似简单的审计需求(例如追溯某次配置变更的完整上下文),若缺乏自动化工具支持,最终产出的报告往往信息割裂、可读性差,难以直接用于决策。
假设某敏感文件权限被异常修改,管理员需通过原生审计功能排查:
1️⃣ 从安全日志筛选账号变动记录 → 2️⃣ 比对系统事件时间戳 → 3️⃣ 手动关联AD对象修改历史 → 4️⃣ 整理Excel时间线表格
整个过程低效且易出错,而第三方工具通常能通过一键式关联分析自动生成可视化报告。
原生审计功能仅提供原始数据堆砌,却未内置跨日志关联分析与可视化叙事能力,导致"基础问题消耗高级资源"的运维怪圈。
缺陷五:扩展性受限 —— 原生审计功能难以支撑多分支机构统一管理
1️⃣ 日志分散存储:各站点日志孤立存放,无法统一检索分析;
2️⃣ 策略执行割裂:难以在分布式架构中实施统一的审计监控策略;
3️⃣ 运维成本激增:需投入额外资源手动维护各节点审计配置一致性。
某跨国企业在全球部署5个AD域控制器,使用原生审计时:
原生审计功能缺乏分布式日志聚合与策略级联部署能力,导致"架构越复杂,安全能见度越低"的运维困境。
即使我们期望全员可信,现实却是:权限滥用与内部威胁始终存在。若团队中出现恶意管理员(Rogue Administrator),其可进行以下操作:
1️⃣ 篡改AD对象权限 → 2️⃣ 删除相关审计日志掩盖痕迹 → 3️⃣ 利用日志存储漏洞消除证据链
原生审计的致命缺陷:
Lepide方案核心优势:
✅ 日志静态加密(Encrypt at Rest)确保完整性
✅ 实时日志归档至独立安全存储
✅ 防篡改审计追踪(Immutable Audit Trail)技术阻断恶意删除
缺陷七:人工成本黑洞 —— 原生审计加剧IT资源浪费
在降本增效的全球IT趋势下,手动检索日志无异于逆流而行:
对于受GDPR、HIPAA、SOX等法规约束的企业,合规报告的三大痛点:
"采用原生审计可节省成本"的认知存在严重误区:
当前市场上已涌现出新一代智能审计解决方案,能够系统性解决本文所述的九大原生缺陷(尽管选择合适的方案本身需要严谨的技术评估)。需要强调的是:
理想的解决方案应提供中央化控制台,覆盖:
现代审计工具已实现:
你是否刷到过这样的短视频广告:如何在家躺着日赚几百块”、“通过手相预测未来姻缘”。在快手商业化广告素材审核过程中,快手商业化生态与体验团队每天也会拦截大量的风险素材。这些内容轻则破坏用户体验、损伤商业化生态,重则触及底线问题、危害整个商业化业务。团队的任务是通过技术手段将下述这些不同的风险都识别出来并拦截。 与传统的显性风险不同,商业广告的违规往往隐藏在跨模态的错位中——画面合规但口播违规、字幕合规但暗示性极强。这类“高风险、强对抗”的内容,对审核系统提出了极高的要求:不仅要判得准(准确性),还要说得清(可解释性),更要跟得上政策的快速迭代(政策对齐)。面对这一挑战,传统的“黑盒”判别模型或通用多模态大模型(VLM)往往力不从心:前者缺乏因果推理能力,后者难以适应细粒度的商业审核策略。 为解决这一痛点,快手商业生态与体验算法团队提出了 BLM-Guard,这是一个专为高风险短视频广告设计的可解释性多模态审核框架。该框架融合了多模态思维链(CoT)推理与策略对齐的强化学习(RL),通过模拟人类审核员的“观察-归因-判断”逻辑,提升了模型在商业化场景下的审核精度与推理一致性。 本研究相关成果《BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards》已被人工智能顶级会议 AAAI 2026(Main Track) 接收。 核心亮点: 随着短视频商业化深入,广告已成为平台核心支柱,但违规内容日益呈现“隐蔽化、协同化、对抗化”趋势。这种高风险、强对抗的业态对现有的审核体系提出了严峻挑战,主要体现在以下三个维度: 面对上述“违规识别难、规则适配难、结果落地难”的困境,本研究提出 BLM-Guard 框架。通过引入模拟人类审核逻辑的“多模态思维链(CoT)”与策略对齐的强化学习(RL),旨在实现对隐蔽违规的精准识别与动态政策适配,并构建业界首个精细化多模态广告风控基准,为短视频商业生态的安全与可持续发展提供技术支撑。 BLM-Guard 采用了一种渐进式的“两阶段”训练范式,分别是第一阶段中规则锚定的 ICoT 冷启动(Rule-Anchored SFT)和第二阶段中基于 SCA-R 的强化学习(Self-Consistency RL),确保模型既能学到规则,又能灵活应用。 这一阶段的目标不是简单地微调 VLM,而是解决“黑盒模型无法理解细粒度商业规则”的问题。 为了让模型“看懂”违规细节,采用了一套新的提取流程 : 在 SFT 阶段,BLM-Guard 修改了标准的 Cross-Entropy 损失,加入了 KL 散度约束 : SFT 模型虽然具备了初步推理能力,但在面对由于政策快速迭代导致的“策略漂移”时,泛化性不足。该阶段引入了 GRPO(Group-wise Relative Policy Optimization)算法进行优化。其中,混合奖励函数设计如下:为了平衡准确性、格式规范和逻辑一致性,奖励函数由三部分组成 : 从技术架构角度看,BLM-Guard 的核心壁垒在于: 在构建的 BLM-Guard Benchmark 以及 UCF 等五个公开数据集上,BLM-Guard 均展现了 SOTA(State-of-the-Art)性能。 实验证明,“规则微调(Rule-SFT)+ SCA-R 强化学习” 的组合是性能提升的关键。仅依靠 SFT,模型容易产生幻觉;而加入 SCA-R 后,模型学会了在不确定时更加谨慎,提升了模型的泛化效果。 快手商业生态与体验研发中心始终致力于用技术守护快手广告的清朗。
图 1 风险素材案例
图 2 BLM-Guard 两阶段训练框架示意图一、研究背景
二、技术方案
2.1 第一阶段:规则锚定的 ICoT 冷启动
2.1.1 数据构造——自适应关键帧与 ICoT 生成
2.1.2 训练目标——引入规则先验
2.2 第二阶段:基于 SCA-R 的强化学习
2.3 总结
三、效果性能
3.1 核心指标
图 3 BLM-Guard Benchmark 风险分类体系3.2 消融实验

四、未来展望
未来,团队将继续深耕以下方向:
1.理解+生成 OneModel:探索理解+生成深度融合的 oneModel 新范式,进一步精准识别违规内容,同时引入营销视角生成高转化、有吸引力的修复建议,提升商家体验;
2.风控大模型基座 KwaiBLM:自主研发 KwaiBLM 风控大模型基座,作为风控领域的统一认知底座,支撑内容理解、风险识别、策略生成等多项核心能力,推动风控从经验驱动向数据智能驱动转型;
3.RiskAgent 智能体:构建多 Agent 协作的智能体系统,建设下一代人机协同的智能风控引擎 RiskMatrix,提升业务场景风险防控效率与防控效果;
4.Deepfake 攻防能力:针对 AI 生成内容带来的新型风险,构建 Deepfake 检测与对抗技术体系。通过多模态特征融合、内容理解等技术手段,提升识别 AI 生成的虚假素材、篡改内容、合成视频等,守护平台内容真实性;
5.动态图算法:探索融合图神经网络与 Attention 机制,将 Graph RAG 图表征能力与大模型 KwaiBLM 相结合提升识别能力,挖掘隐蔽关联风险。
在智能体技术快速普及的背景下,越来越多的企业与从业者想要切入智能体应用领域,但普遍面临 “从 0 到 1 入门无思路、落地无方法、避坑无方向” 的问题。本文聚焦智能体应用的入门阶段,从认知、场景、实操、避坑、升级五个核心维度,拆解从 0 到 1 入门智能体应用的核心逻辑与方法:先厘清智能体的核心概念与底层逻辑,区分其与传统 AI 工具的差异,再基于 “低门槛、高价值、易落地” 原则锚定入门场景,随后详细讲解智能体应用的前期准备、选型搭建、调试优化、落地执行等实操步骤,同时梳理入门过程中的常见认知、落地、优化误区并给出解决方案,最后介绍入门后的能力升级路径,帮助零基础的企业与从业者快速掌握智能体应用的核心要点,实现从 0 到 1 的顺利入门,让智能体真正成为提升工作效率、优化业务流程的实用工具,为后续深度应用与价值挖掘奠定基础。 1.1 智能体的核心概念与关键特征 1.2 智能体与传统 AI 工具的核心区别 1.3 智能体应用的底层运行逻辑 2.1 低门槛落地:适合入门的智能体应用场景 2.2 场景筛选原则:匹配业务需求与落地能力 2.3 不同行业的入门级智能体应用参考 3.1 基础准备:硬件、数据与工具的前期筹备 3.2 选型搭建:入门级智能体的选型与快速搭建 3.3 调试优化:从可用到好用的核心调试技巧 3.4 落地执行:智能体上线后的落地与推广方法 4.1 认知误区:对智能体能力的过度期待或低估 4.2 落地误区:数据准备与场景匹配的常见问题 4.3 优化误区:忽略人机协同与持续迭代 5.1 从单一智能体到多智能体协同的进阶 5.2 结合业务数据实现智能体的个性化优化 5.3 从工具应用到业务流程的智能化融合 想要从 0 到 1 入门智能体应用,首先要建立对智能体的正确认知,厘清其核心定义、关键特征与底层运行逻辑,这是所有应用与落地的基础,避免因认知偏差导致后续落地走偏。 智能体(AI Agent)是具备自主感知、自主决策、自主执行、持续进化能力的人工智能系统,能够基于预设目标与外部数据,独立完成感知环境、分析信息、制定策略、执行动作,并根据执行结果进行自我优化的完整闭环。其核心特征可概括为四大点:一是自主性,无需人工实时干预,能独立处理标准化任务;二是交互性,可与人类、其他智能体、业务系统进行数据交互与协同;三是适应性,能根据环境变化与业务数据调整决策逻辑;四是进化性,通过持续的数据分析与迭代,不断提升任务处理能力。这些特征让智能体区别于传统的 AI 工具,成为能深度融入业务的 “数字员工”。 很多入门者容易将智能体与 ChatGPT、智能客服机器人、数据分析工具等传统 AI 工具混淆,实则二者存在本质差异,核心区别体现在能力闭环与自主化程度上:传统 AI 工具多为单一功能型,仅能完成某一个环节的任务,比如 ChatGPT 擅长自然语言生成、智能客服机器人仅能处理标准化咨询、数据分析工具仅能完成数据统计,需要人工介入衔接不同环节,无法形成 “感知 - 决策 - 执行 - 优化” 的闭环;而智能体是全流程自主型,以完成特定业务目标为核心,能整合感知、分析、决策、执行等多种能力,无需人工衔接即可独立完成全流程任务,比如一款电商选品智能体,可自主感知市场数据、分析竞品趋势、制定选品策略、生成选品报告,全程无需人工干预,这是传统 AI 工具无法实现的。简单来说,传统 AI 工具是 “单一技能的帮手”,而智能体是 “能独立完成工作的数字员工”。 无论何种行业、何种场景,智能体的应用都遵循统一的底层运行逻辑,即 **“目标驱动 - 数据支撑 - 闭环执行 - 持续迭代”**,这也是入门者需要掌握的核心逻辑: 从 0 到 1 入门智能体应用,最关键的一步是选对落地场景 —— 合适的场景能让入门者快速看到效果、建立信心,而错误的场景选择会导致落地困难、效果不佳,甚至让入门过程半途而废。 对于零基础的企业与从业者,入门阶段应优先选择低门槛、高价值、易落地的场景,这类场景普遍具备 “数据易获取、业务标准化程度高、无需复杂定制、落地周期短” 的特点,核心集中在以下几类: 入门阶段选择智能体应用场景,无需追求 “大而全”,核心遵循三大匹配原则,确保场景落地的可行性与效果: 不同行业的业务特点不同,落地场景的选择也各有侧重,以下为几大主流行业的入门级智能体应用参考,方便零基础者直接对标: 厘清认知、选对场景后,进入核心的实操落地阶段。入门阶段的智能体应用无需专业的技术开发能力,主流的通用型智能体平台已实现 “可视化、低代码、一键搭建”,以下为从 0 到 1 的完整实操方法,适配零基础者。 工欲善其事,必先利其器,入门阶段的前期筹备无需高成本投入,核心做好三方面准备,满足基础落地需求即可: 入门阶段的智能体选型与搭建,核心遵循 **“选模板、配数据、定规则”** 三步法,全程可在 1-3 天内完成,具体操作如下: 完成以上三步,一款入门级的智能体就搭建完成了,此时智能体已具备基础的业务处理能力,可进入调试优化阶段。 刚搭建完成的智能体仅能实现 “可用”,但可能存在 “回答不准确、处理效率低、匹配度不高” 等问题,需要通过简单的调试优化,让其实现 “好用”,入门阶段的调试核心围绕 **“小样本测试 - 问题修正 - 数据补充”** 展开,技巧如下: 智能体调试完成后,进入落地执行阶段,入门阶段的落地核心是 **“小范围试点 - 逐步推广 - 人机协同”**,避免一次性全面上线导致的问题失控,具体方法如下: 从 0 到 1 入门智能体应用,很多零基础者会因认知不足、经验欠缺陷入各种误区,导致落地效果不佳,甚至放弃应用。以下梳理入门阶段最常见的三类误区,并给出对应的解决方案,帮助入门者少走弯路。 这是入门阶段最核心的认知误区,主要分为两种情况,均会影响智能体的落地效果: 落地阶段的误区主要集中在数据与场景两大核心环节,也是导致智能体 “可用但不好用” 的主要原因: 很多入门者认为 “智能体搭建上线就完成了应用”,忽略了后续的人机协同与持续迭代,导致智能体的价值无法持续发挥: 当入门者掌握了智能体的基础应用方法,实现了单一场景的低门槛落地后,就可以进入能力升级阶段,从 “工具应用” 向 “价值挖掘” 延伸,让智能体真正融入业务,发挥更大的价值,这也是从 0 到 1 入门后的核心进阶方向。 入门阶段多应用单一智能体处理某一项具体工作,而实际业务中,很多工作需要多个环节的配合,因此进阶的核心方向之一,就是从单一智能体向多智能体协同升级:比如电商行业,可搭建 “文案生成智能体 + 客服智能体 + 选品智能体” 的协同体系,文案生成智能体生成商品文案,客服智能体处理客户咨询,选品智能体分析市场数据并制定选品策略,多智能体之间实现数据互通、任务协同,共同完成电商运营的全流程工作,相比单一智能体,多智能体协同能实现更复杂的业务目标,提升整体的运营效率。入门者进阶时,可先从 2-3 个相关场景的智能体协同开始,无需追求大规模的多智能体体系,核心实现数据的互通与任务的衔接。 入门阶段的智能体多基于通用模板与基础数据搭建,个性化程度低,而进阶阶段的核心是结合企业自身的业务数据,实现智能体的个性化优化,让其更贴合企业的业务特点:比如同样是客服智能体,不同企业的客户问题、业务流程、服务风格不同,入门后可基于企业的历史客诉数据、客户咨询数据,对智能体的知识库进行个性化补充,优化问题匹配规则,让智能体的回答更贴合企业的业务实际;同时,可结合企业的服务要求,调整智能体的沟通风格,让其更符合企业的品牌形象。个性化优化的核心是 “以企业自身业务数据为核心”,让智能体从 “通用型” 向 “专属型” 转变,这是智能体发挥更大价值的关键。 入门阶段的智能体多作为 “独立工具” 存在,与企业的业务流程脱节,而进阶的最高境界,是将智能体从工具应用融入企业的核心业务流程,实现业务流程的智能化改造:比如传统的企业采购流程为 “人工提报需求 - 人工审核 - 人工筛选供应商 - 人工下单”,入门阶段可搭建采购需求统计智能体,辅助人工整理需求;进阶后,可将智能体融入采购全流程,实现 “智能体自动收集采购需求 - 智能审核需求合理性 - 智能分析供应商数据并筛选 - 自动生成采购订单”,让采购流程从 “人工为主、智能为辅” 向 “智能为主、人工兜底” 转变,实现业务流程的智能化升级。从工具应用到流程融合,能让智能体的价值从 “提升单一工作效率” 延伸至 “优化整体业务流程”,为企业带来更大的价值。 从 0 到 1 入门智能体应用,并非一件复杂的事,核心在于抓住 “认知打底、场景锚定、实操落地、避坑优化、能力升级” 五大核心环节,厘清智能体的底层逻辑,选对低门槛的落地场景,掌握简单的实操方法,避开常见的认知与落地误区,再逐步实现能力的升级。 对于零基础的企业与从业者而言,入门阶段无需追求复杂的技术开发、大规模的场景落地,核心是 “先跑通、再优化、后升级”:先通过低门槛场景实现智能体的从 0 到 1 落地,建立对智能体应用的信心与经验,再通过持续的调试优化让智能体的效果不断提升,最后结合企业的业务需求,实现从单一智能体到多智能体协同、从工具应用到流程融合的能力升级。 智能体的发展趋势不可逆转,其不仅是一种新的 AI 工具,更是未来企业智能化转型的核心载体。从 0 到 1 的入门,只是智能体应用的起点,唯有以理性的认知、务实的方法、持续的迭代,将智能体与企业的业务深度融合,才能真正发挥其价值,让智能体成为企业提升效率、优化流程、创造价值的核心动力,在智能时代的竞争中占据先机。 无需掌握专业的编程与算法知识,目前主流的通用型智能体平台均为免代码、可视化设计,提供现成的场景模板,只需上传数据、简单配置即可完成搭建,零基础者可直接上手。 不需要,入门阶段的智能体应用以云端平台为主,无需采购专业的服务器与硬件设备,仅需普通办公电脑与稳定网络;多数平台提供免费版或低收费版,能满足入门阶段的所有需求,资金投入极低。 从前期准备、选型搭建到调试优化、小范围试点,入门级智能体的完整落地周期约1-7 天,具体取决于场景的复杂程度与数据准备的效率,低门槛场景(如办公文案、基础客服)可在 1-3 天内完成落地。 核心通过效率、成本、质量三类可量化指标评估:比如办公智能体可看 “工作耗时减少比例”,客服智能体可看 “咨询处理效率提升比例、人工成本节省比例”,数据统计智能体可看 “数据整理准确率提升比例、报表生成时间缩短比例”。 有,核心方法与底层逻辑是统一的,均遵循 “认知打底 - 场景锚定 - 实操落地 - 避坑优化 - 能力升级” 的步骤,仅在场景选择、数据准备上根据行业特点有所差异,只需结合自身行业的业务痛点,匹配对应的低门槛场景即可。 [1] 零基础学 AI 智能体:从入门到落地实操\_人工智能前沿笔记[2] 智能体应用实战:低门槛落地的核心方法与场景参考\_CSDN 博客[3] AI Agent 从 0 到 1:企业智能化转型的入门指南\_钛媒体 APP[4] 通用型智能体平台选型与搭建手册\_讯飞人工智能研究院[5] 智能体应用的常见误区与避坑指南\_百度文心大模型官方博客摘要
目录
一、认知打底:智能体的核心定义与应用底层逻辑
二、场景锚定:从 0 到 1 选对智能体的应用切入点
三、实操落地:从 0 到 1 搭建与应用智能体的核心方法
四、避坑指南:入门智能体应用的常见误区与解决方案
五、能力升级:入门后智能体的深度应用与价值挖掘
六、结语
七、FAQ
一、认知打底:智能体的核心定义与应用底层逻辑
1.1 智能体的核心概念与关键特征
1.2 智能体与传统 AI 工具的核心区别
1.3 智能体应用的底层运行逻辑
二、场景锚定:从 0 到 1 选对智能体的应用切入点
2.1 低门槛落地:适合入门的智能体应用场景
2.2 场景筛选原则:匹配业务需求与落地能力
2.3 不同行业的入门级智能体应用参考
三、实操落地:从 0 到 1 搭建与应用智能体的核心方法
3.1 基础准备:硬件、数据与工具的前期筹备
3.2 选型搭建:入门级智能体的选型与快速搭建
3.3 调试优化:从可用到好用的核心调试技巧
3.4 落地执行:智能体上线后的落地与推广方法
四、避坑指南:入门智能体应用的常见误区与解决方案
4.1 认知误区:对智能体能力的过度期待或低估
4.2 落地误区:数据准备与场景匹配的常见问题
4.3 优化误区:忽略人机协同与持续迭代
五、能力升级:入门后智能体的深度应用与价值挖掘
5.1 从单一智能体到多智能体协同的进阶
5.2 结合业务数据实现智能体的个性化优化
5.3 从工具应用到业务流程的智能化融合
六、结语
七、FAQ
1. 零基础入门智能体应用,需要掌握编程或算法知识吗?
2. 入门阶段搭建智能体,需要投入大量的资金与硬件吗?
3. 入门级智能体的落地周期大概是多久?
4. 入门阶段,智能体的应用效果该如何量化评估?
5. 不同行业的入门智能体应用,是否有统一的方法可循?
参考文献
开发 Antify 的原因是 Proxifier 的使用太麻烦了‼️ 编写规则简直太劝退‼️
Antify 无需复杂配置,无需手动编写规则,只需一键拖动 Antigravity.app 到 Antify 即可自动配置所需规则。
Antify 支持对任意 App 的无侵入代理
Antify 支持 macOS 14+
用户需自备 SOCKS5/HTTP 代理
欢迎大家多多试用,多多反馈,我会继续优化打磨 Antify 的。
去年年初想买个手镯,在小红书上看到说他家工费差不多是最低的,只要几块钱一克,
研究了一下那个小程序没搞懂要怎么注册,转而去拼多多百亿补贴下了一单,13 一克的工费也很划算
离诈骗案最近的一次,因为没耐心+懒+蠢避过了,
不过那个时候他们家还是正常运营的,在他家买也没问题
这家店在小红薯超级火,三天两天能刷到,
这几天看别人发的统计数据,有 15 万人被骗了 133 亿,
你们有家人亲戚朋友被骗的吗
有不少小伙伴在问我一个问题:“Chrome 插件会不会偷偷监听我的输入?”这个问题其实很有必要关心,毕竟我们每天都在浏览器里输入各种账号密码、搜索内容,如果插件偷偷获取数据,那就真的很麻烦了。 今天就来跟大家聊聊 Chrome 插件的安全问题,同时教你 3 个实用方法 检测你的浏览器是否被监听。让你快速掌握自己的浏览器安全状况。 首先要明确一点,并不是所有 Chrome 插件都会监听你的输入。但有些插件为了提供某些功能,确实可能获取你的浏览数据、键盘输入或者浏览器指纹信息。比如: 表单填充插件:为了自动填充账号密码,有时会读取你输入的内容。 广告/优惠插件:有些插件为了精准投放,会采集你的搜索行为或购物习惯。 主题和美化插件:虽然功能简单,但部分插件可能偷偷获取浏览器信息。 所以,即便插件看起来无害,后台也可能在悄悄采集数据,这就涉及 浏览器指纹检测。通过浏览器指纹,插件可以识别你独一无二的浏览器配置,包括分辨率、插件列表、字体和时区等信息,甚至无需 Cookies 就能追踪你。 方法一:通过浏览器权限查看插件行为 每个 Chrome 插件都会请求一定权限,比如访问网站数据、读取剪贴板或者访问浏览器标签。我们可以这样操作: 打开 Chrome → 点击右上角菜单 → 更多工具 → 扩展程序。 找到可疑插件 → 点击“详情”。 查看“权限”是否包含“读取你在网站上的所有数据”或“访问剪贴板”。 如果插件权限过多,但功能又不相关,这就要小心了,说明可能会监听输入。 关键点:很多新手忽略了权限列表,其实这就是最直观的 浏览器插件检测 方法。 方法二:使用指纹查询 想要进一步检测自己的浏览器是否被采集信息,可以用指纹查询。这个工具可以帮你快速查看浏览器的指纹信息,包括: 浏览器类型和版本 操作系统 分辨率 插件列表 Canvas 指纹等 操作非常简单: 打开 ToDetect 指纹查询 点击“开始检测” 查看生成的指纹信息 如果你发现某些信息异常或者频繁变化,说明可能有插件在采集浏览器指纹,这就是另一种 浏览器指纹检测 方法。 方法三:观察浏览器行为 有时候插件监听行为并不直接表现出来,但可以通过观察浏览器行为来发现异常: 浏览器变慢或者卡顿 在输入账号或密码时出现莫名的弹窗 打开网站后出现奇怪的广告 插件后台持续请求网络 可以借助 Chrome 内置的 开发者工具 → 网络(Network)面板,查看插件是否频繁向外部服务器发送数据。如果有不明请求,就要谨慎处理。 这种方法偏技术向,但非常直观,是检测 Chrome 插件 是否监听你的输入的重要手段。 只安装必要插件:越少越好,功能越单一越安全。 检查插件来源:尽量在 Chrome 官方商店下载,并查看用户评价。 定期清理插件:长时间不使用的插件及时卸载。 使用浏览器指纹检测工具:像 ToDetect 指纹查询工具 可以定期检查,确保隐私安全。 注意插件权限:不要轻易授权不必要的权限。 总的来说,Chrome 插件确实有可能监听你的输入,但通过 浏览器插件检测、浏览器指纹检测,我们可以大大降低隐私风险。记住三点: 留意插件权限 使用指纹检测工具检查浏览器安全 观察异常行为,及时清理可疑插件 只有掌握了这些方法,你才能在享受 Chrome 插件便利的同时,也保护好自己的隐私安全。一、Chrome 插件监听输入的风险
二、如何检测 Chrome 插件是否监听你的输入
三、防止插件监听的实用建议
四、总结
整理 | 华卫 1 月 28 日,智源多模态大模型成果"Multimodal learning with next-token prediction for large multimodal models(通过预测下一个词元进行多模态学习的多模态大模型)"上线国际顶级学术期刊 Nature,预计 2 月 12 日纸质版正式刊发。 Nature 编辑点评这项研究:Emu3 仅基于预测下一个词元(Next-token prediction),实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。 https://www.nature.com/articles/s41586-025-10041-x 2018 年以来,GPT 采用 “预测下一个词元(Next-token prediction,NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。而多模态模型主要依赖对比学习、扩散模型等专门路线,自回归路线是否可以作为通用路线统一多模态?一直是未解之谜。 智源这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,对于确立自回归成为生成式人工智能统一路线具有重大意义。在后续迭代的 Emu3.5 版本,确实证明了这一范式的可拓展性,并达成预测下一个状态(Next-state prediction)的能力跃迁,获得可泛化的世界建模能力。 “预测下一个词元”彻底改变了语言模型,促成了如 ChatGPT 等突破性成果,并引发了关于通用人工智能(AGI)早期迹象的讨论。然而,其在多模态学习中的潜力一直不甚明朗。 在多模态模型领域,视觉生成长期以来由结构复杂的扩散模型主导,而视觉语言感知则主要由组合式方法引领 ,这些方法通常将 CLIP 编码器与大语言模型(LLMs)结合。尽管已有一些尝试试图统一生成与感知(如 Emu 和 Chameleon),但这些工作要么简单将 LLM 与扩散模型拼接在一起,要么在性能效果上不及那些针对生成或感知任务精心设计的专用方法。这就留下了一个根本性的科学问题:单一的预测下一个词元框架是否能够作为通用的多模态学习范式? 就此,智源提出了 Emu3,基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的 Transformer。这一架构证明了仅凭“预测下一个词元”,就能够同时支持高水平的生成能力与理解能力,并且在同一统一架构下,自然地扩展到机器人操作以及多模态交错等生成任务。此外,研究团队还做了大量消融实验和分析,验证了多模态学习的规模定律(Scaling law)、统一离散化的高效性、以及解码器架构的有效性。 Emu3 架构图 实验显示,Emu3 在生成与感知任务上的整体表现可与多种成熟的任务专用模型相媲美:在文生图任务中,其效果达到扩散模型水平;在视觉语言理解方面,可以与融合 CLIP 和大语言模型的主流方案比肩。此外,Emu3 还具备视频生成能力。不同于以噪声为起点的扩散式视频生成模型,Emu3 通过自回归方式逐词元(token)预测视频序列,实现基于因果的视频生成与延展,展现出对物理世界中环境、人类与动物行为的初步模拟能力。 不同于 Sora 的扩散式视频生成,Emu3 采用纯自回归方式逐词元(token) 生成视频,能够在给定上下文下进行视频延展与未来预测,并在文本引导下生成高保真视频。此外,Emu3 还可拓展至视觉语言交错生成,例如图文并茂的菜谱生成;也可拓展至视觉语言动作建模,如机器人操作 VLA 等,进一步体现了“预测下一个词元”的通用性。 智源研究团队对相关研究的多项关键技术与模型进行了开源,以推动该方向的持续研究。其中包括一个稳定且通用的视觉分词器(tokenizer),可将图像与视频高效转换为离散词元来表示。同时,研究通过大规模消融实验系统分析了多项关键技术的设计选择,例如:分词器(tokenizer)码本尺寸、初始化策略、多模态 dropout 机制以及损失权重配置等,揭示了多模态自回归模型在训练过程中的动态特性。研究还验证了自回归路线高度通用性:直接偏好优化(DPO)方法可无缝应用于自回归视觉生成任务,使模型能够更好地对齐人类偏好。 研究有力表明了预测下一个词元可作为多模态模型的核心范式,突破语言模型的边界,在多种多模态任务中展现了强劲性能。通过简化复杂的模型设计、聚焦统一词元,该方法在训练与推理阶段均展现出显著的可扩展性,为统一多模态学习奠定了坚实基础,有望推动原生多模态助手、世界模型以及具身智能等方向的发展。 在此研究基础上,悟界·Emu3.5 进一步通过大规模长时序视频训练,学习时空与因果关系,展现出随模型与数据规模增长而提升的物理世界建模能力,并观察到多模态能力随规模扩展而涌现的趋势,实现了“预测下一个状态”的范式升级。
从语言到多模态:“预测下一个词元”的潜力与未解之问

从模型到范式:Emu3 对多模态学习的启示