标签 Reinforcement Learning 下的文章

你是否刷到过这样的短视频广告：如何在家躺着日赚几百块”、“通过手相预测未来姻缘”。在快手商业化广告素材审核过程中，快手商业化生态与体验团队每天也会拦截大量的风险素材。这些内容轻则破坏用户体验、损伤商业化生态，重则触及底线问题、危害整个商业化业务。团队的任务是通过技术手段将下述这些不同的风险都识别出来并拦截。

图 1 风险素材案例

与传统的显性风险不同，商业广告的违规往往隐藏在跨模态的错位中——画面合规但口播违规、字幕合规但暗示性极强。这类“高风险、强对抗”的内容，对审核系统提出了极高的要求：不仅要判得准（准确性），还要说得清（可解释性），更要跟得上政策的快速迭代（政策对齐）。面对这一挑战，传统的“黑盒”判别模型或通用多模态大模型（VLM）往往力不从心：前者缺乏因果推理能力，后者难以适应细粒度的商业审核策略。

为解决这一痛点，快手商业生态与体验算法团队提出了 BLM-Guard，这是一个专为高风险短视频广告设计的可解释性多模态审核框架。该框架融合了多模态思维链（CoT）推理与策略对齐的强化学习（RL），通过模拟人类审核员的“观察-归因-判断”逻辑，提升了模型在商业化场景下的审核精度与推理一致性。

本研究相关成果《BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards》已被人工智能顶级会议 AAAI 2026（Main Track）接收。

图 2 BLM-Guard 两阶段训练框架示意图

核心亮点：

【像审核员一样思考】针对短视频广告违规隐蔽性强的问题，本文提出 ICoT（Interleaved-modal Chain-of-Thought）流水线。通过规则驱动的数据合成，生成包含“视觉定位-风险筛查-因果分析-最终判决”的结构化推理链，解决模型“只知其一不知其二”的黑盒问题。
【动态策略自适应】面对不断变化的审核规则，创新性提出 SCA-R（Self-Adaptive Critique Reward）奖励机制。基于动态原则对模型的推理过程进行打分，结合 GRPO 强化学习算法，确保模型在策略漂移下仍能保持高一致性。
【首个多模态广告风控基准】发布了 BLM-Guard Benchmark，这是业界首个包含三级风险分类体系（风险场景、违规类型、严重程度）的短视频广告数据集，涵盖非法内容、虚假营销、误导性操作等七大核心场景，填补了精细化广告审核评测的空白。

一、研究背景

随着短视频商业化深入，广告已成为平台核心支柱，但违规内容日益呈现“隐蔽化、协同化、对抗化”趋势。这种高风险、强对抗的业态对现有的审核体系提出了严峻挑战，主要体现在以下三个维度：

违规形态演变多模态协同欺骗生成式 AI 的普及使得违规手段从单一的显性违规（如敏感词、违规画面）升级为“多模态协同欺骗”。这类内容通常单模态看似合规，但通过跨模态的信息错位（如画面正常但口播违规）传递恶意意图，极大地增加了识别难度。
审核标准困境动态性与复杂性的多重矛盾商业广告审核面临政策、场景与风险的三重复杂性：

政策漂移与规则适配：法规（如《广告法》）与平台规范的动态更新，导致静态模型难以适应不断漂移的政策边界。
场景差异与通用性：医疗、金融、教育等不同行业审核逻辑迥异，通用模型难以兼顾细粒度的领域规则。
风险分层与二元判决：现有模型多为“通过/拦截”的二元判决，无法区分高风险（非法）、中风险（误导）与低风险（体验）内容，难以满足精细化运营需求。

行业落地诉求从“黑盒”到全链路可解释审核不仅是技术判别，更需服务于平台监管、商家整改与合规追溯的全链路。传统规则模型泛化差，通用大模型（VLM）虽有理解力但决策过程如“黑盒”，缺乏结构化的归因逻辑。商家无法获知具体违规点，监管难以追溯证据链，且行业缺乏针对多模态协同违规的高质量数据集。

面对上述“违规识别难、规则适配难、结果落地难”的困境，本研究提出 BLM-Guard 框架。通过引入模拟人类审核逻辑的“多模态思维链（CoT）”与策略对齐的强化学习（RL），旨在实现对隐蔽违规的精准识别与动态政策适配，并构建业界首个精细化多模态广告风控基准，为短视频商业生态的安全与可持续发展提供技术支撑。

二、技术方案

BLM-Guard 采用了一种渐进式的“两阶段”训练范式，分别是第一阶段中规则锚定的 ICoT 冷启动（Rule-Anchored SFT）和第二阶段中基于 SCA-R 的强化学习（Self-Consistency RL），确保模型既能学到规则，又能灵活应用。

2.1 第一阶段：规则锚定的 ICoT 冷启动

这一阶段的目标不是简单地微调 VLM，而是解决“黑盒模型无法理解细粒度商业规则”的问题。

2.1.1 数据构造——自适应关键帧与 ICoT 生成

为了让模型“看懂”违规细节，采用了一套新的提取流程：

自适应关键帧采样 (AKS):

CLIP 相似度筛选：计算每一帧图像嵌入\( v_i \)与预定义风险提示词（如"false marketing", "illegal content"）嵌入\( t_k \)的余弦相似度\( si=maxk(viTtk) \)。
BIN+TOP 策略：将视频划分为m个时间桶（BIN）选局部最优，若不足则补充全局最高分帧，确保既有时间覆盖又有语义显著性。

Patch 级区域定位：使用 InternViT-6B 提取 Patch 特征，计算 L2 范数作为显著性分数 \( score_{i,p}=||H_{i}^{(p)}||_{2} \)，定位出关键图像区域（如字幕、产品特写）。
ICoT（交错模态思维链）生成：利用冻结的 InternVL-3-78B 作为教师模型，生成结构化的推理链：

2.1.2 训练目标——引入规则先验

在 SFT 阶段，BLM-Guard 修改了标准的 Cross-Entropy 损失，加入了 KL 散度约束：

\( \mathcal{L}_{CE} \) ：保证最终判罚（Answer）的准确性。
\( KL(p_{think} || p_{rule}) \)：这是一个关键设计。\( p_{rule} \)是基于违规场景关键词构建的软分布。该项强制模型的<think>推理过程中的 token 分布向这些规则关键词靠拢，防止模型推理“跑偏”或产生幻觉。

2.2 第二阶段：基于 SCA-R 的强化学习

SFT 模型虽然具备了初步推理能力，但在面对由于政策快速迭代导致的“策略漂移”时，泛化性不足。该阶段引入了 GRPO（Group-wise Relative Policy Optimization）算法进行优化。其中，混合奖励函数设计如下：为了平衡准确性、格式规范和逻辑一致性，奖励函数由三部分组成：

\( r_{rule} \)（规则正确性): 离散奖励。如果场景和违规类型全对给 1.0，仅场景对给 0.5，否则为 0 。
\( r_{format} \)（结构约束)：强约束奖励，确保输出严格包含<think>和<answer>标签，便于后续解析。
\( r_{scaR} \)（SCA-R: 自适应批判奖励):

动态 Critique: 引入一个 Guide Model（ GPT-4o），它不依赖静态标签，而是根据当前的审核 Policy 和输入，动态构建评分原则\( r_{scaR} \)。
评分逻辑: Critic 针对推理链进行打分（0, 0.5, 1），计算加权和\( r_{scaR} \)。这解决了“判决对了但理由错了”的逻辑一致性问题。

2.3 总结

从技术架构角度看，BLM-Guard 的核心壁垒在于：

显式因果建模：通过 KL散度将规则“注入”到模型的隐空间推理路径中。
抗策略漂移：利用 \( r_{scaR} \)动态奖励，使得模型不仅拟合数据分布，更是在拟合“审核逻辑”，从而适应不断变化的业务规则。

三、效果性能

3.1 核心指标

在构建的 BLM-Guard Benchmark 以及 UCF 等五个公开数据集上，BLM-Guard 均展现了 SOTA（State-of-the-Art）性能。

准确率提升：相比 Qwen2.5-VL、InternVL3-8B 等强力基线，BLM-Guard 在七大风险场景下的严格准确率（Strict Accuracy）平均提升超过 20%，尤其在“虚假营销”和“误导性操作”等高难度场景表现突出。
推理一致性：通过 GPT-4o 进行的一致性评分显示，BLM-Guard 的推理逻辑得分达 0.845，超基线模型的 0.5-0.6 水平。这意味着模型不仅判得对，而且理由充分、逻辑自洽。

图 3 BLM-Guard Benchmark 风险分类体系

3.2 消融实验

实验证明，“规则微调（Rule-SFT）+ SCA-R 强化学习” 的组合是性能提升的关键。仅依靠 SFT，模型容易产生幻觉；而加入 SCA-R 后，模型学会了在不确定时更加谨慎，提升了模型的泛化效果。

四、未来展望

快手商业生态与体验研发中心始终致力于用技术守护快手广告的清朗。
未来，团队将继续深耕以下方向：
1.理解+生成 OneModel：探索理解+生成深度融合的 oneModel 新范式，进一步精准识别违规内容，同时引入营销视角生成高转化、有吸引力的修复建议，提升商家体验；
2.风控大模型基座 KwaiBLM：自主研发 KwaiBLM 风控大模型基座，作为风控领域的统一认知底座，支撑内容理解、风险识别、策略生成等多项核心能力，推动风控从经验驱动向数据智能驱动转型；
3.RiskAgent 智能体：构建多 Agent 协作的智能体系统，建设下一代人机协同的智能风控引擎 RiskMatrix，提升业务场景风险防控效率与防控效果；
4.Deepfake 攻防能力：针对 AI 生成内容带来的新型风险，构建 Deepfake 检测与对抗技术体系。通过多模态特征融合、内容理解等技术手段，提升识别 AI 生成的虚假素材、篡改内容、合成视频等，守护平台内容真实性；
5.动态图算法：探索融合图神经网络与 Attention 机制，将 Graph RAG 图表征能力与大模型 KwaiBLM 相结合提升识别能力，挖掘隐蔽关联风险。

如果说过去十年人工智能的主战场在「看懂世界」和「生成内容」，那么下一阶段的核心问题正在转向一个更具挑战性的命题：AI 如何真正进入物理世界，并在其中行动、学习与进化。 在与此相关的研究与讨论声中，具身智能一词频繁出现。

顾名思义，具身智能并非传统的机器人，而是强调 Agent 与环境交互在感知—决策—行动的闭环中形成智能。 在这一视角下，智能不再只存在于模型参数或推理能力中，而是深度嵌入到传感器、执行器、环境反馈与长期学习之中。机器人、自动驾驶、Agent 乃至通用人工智能（AGI）的讨论，都被纳入这一框架。

正因如此，具身智能成为近两年全球科技巨头与顶级研究机构高度关注的方向。特斯拉 CEO 埃隆·马斯克多次强调，人形机器人 Optimus 的意义不亚于自动驾驶；英伟达创始人黄仁勋将 Physical AI 视为继生成式 AI 之后的下一波浪潮，并持续加码机器人仿真与训练平台；李飞飞、Yann LeCun 等围绕空间智能、世界模型等细分领域持续产出高质量的前沿分析与成果；OpenAI、Google DeepMind、Meta 也在基于多模态模型、强化学习等技术探索智能体在真实或近真实环境中的学习能力。

在此背景下，具身智能不再只是单一模型或算法的问题，而逐渐演化为一个由数据集、仿真环境、基准任务与系统性方法共同构成的研究生态。为了帮助更多读者快速理解这一领域的关键脉络，本文将系统整理并推荐一批具身智能相关的高质量数据集、在线教程、论文，为进一步学习和研究提供参考。

数据集推荐

BC-Z 机器人学习数据集

预估大小： 32.28 GB

下载地址：https://go.hyper.ai/vkRel

这是一个由谷歌、 Everyday Robots 、加州大学伯克利分校和斯坦福大学共同开发的大规模机器人学习数据集，包含了超过 25,877 个不同的操作任务场景，涵盖了 100 种多样化的操作任务。这些任务通过专家级的远程操作和共享自主过程来收集，涉及 12 个机器人和 7 名不同的操作员，累计了 125 小时的机器人操作时间。数据集支持训练一个 7 自由度的多任务策略，该策略可以根据任务的语言描述或人类操作视频来调整，以执行特定的操作任务。

DexGraspVLA 机器人抓握数据集

预估大小： 7.29 GB

下载地址：https://go.hyper.ai/G37zQ

该数据集由 Psi-Robot 团队创建，包含 51 个人类演示数据样本，用于了解数据和格式，以及运行代码体验训练过程。其研究背景源于灵巧抓取在杂乱场景下的高成功率需求，特别是在未见过的物体、光照及背景组合下实现超过 90% 的成功率，此框架采用预训练的视觉-语言模型作为高层任务规划器，并学习基于扩散的策略作为低层行动控制器，其创新之处在于利用基础模型实现强大的泛化能力，并使用基于扩散的模仿学习获取灵巧行动。

EgoThink 第一人称视角下

视觉问答基准数据集

预估大小： 865.29 MB

下载地址： https://go.hyper.ai/5PsDP

该数据集是由清华大学提出的一个基于第一人称视角的视觉问答基准数据集，包含 700 张图像，涵盖了 6 个核心能力，细分为 12 个维度。其图像来源于 Ego4D 第一人称视频数据集的采样图片，为了确保数据的多样性，每个视频最多只采样 2 张图片。在数据集构建过程中，只选择了质量较高且能够清晰展现第一人称视角思维的图片。EgoThink 的应用领域广泛，特别是在评估和提升 VLMs 在第一人称视角任务中的性能，为未来的具身人工智能和机器人研究提供了宝贵的资源。

EQA 问答数据集

预估大小： 839.6 KB

下载地址：https://go.hyper.ai/8Uv1o

EQA 全称 Embodied Question Answering，是一个基于 House3D 的视觉问答数据集。在环境中任意位置的 agent 在得到一个问题后，能够自己在环境中寻找有用的信息并对该问题作出回答。比如：Q: 汽车是什么颜色的？为了回答这个问题，agent 必须首先通过智能导航来探索环境，从第一人称视角收集必要的视觉信息，然后回答问题：橙色。

OmniRetarget 全域机器人

运动重映射数据集

预估大小： 349.61 MB

下载地址： https://go.hyper.ai/IloBI

这是由亚马逊联合麻省理工学院、加利福尼亚大学伯克利分校等机构发布的一个用于类人机器人全身运动重映射的高质量轨迹数据集，包含 G1 仿人机器人与物体及复杂地形交互时的运动轨迹，涵盖机器人携物运动、地形行走及物体 – 地形混合交互三类场景。由于许可限制，公开的数据集中不包含 LAFAN1 的重映射版本，分为三个子集，总计约 4 小时运动轨迹数据，具体构成如下：

robot-object：机器人携带物体的运动轨迹，源自 OMOMO 3.0 数据；
robot-terrain：机器人在复杂地形上的运动轨迹，由内部 MoCap 采集生成，时长约 0.5 小时；
robot-object-terrain：同时涉及物体与地形交互的运动轨迹，时长约 0.5 小时。

此外，该数据集另含 models 目录，提供 URDF 、 SDF 与 OBJ 格式的可视化模型文件，用于展示而非训练。

查看更多高质量数据集：https://hyper.ai/datasets

教程推荐

具身智能（Embodied AI）的研究确实往往涉及多个模型和模块的组合，以实现对物理世界的感知、理解、规划和行动。其中便包含世界模型、推理模型，本文主要推荐以下两个最新开源的模型。

查看更多优质教程：https://hyper.ai/notebooks

HY-World 1.5:

交互式世界建模系统框架

HY-World 1.5（WorldPlay）是腾讯混元团队发布的首个具有长期几何一致性的开源实时交互世界模型。该模型通过流式视频扩散技术实现实时交互世界建模，解决了当前方法中速度与内存之间的权衡问题。

在线运行：https://go.hyper.ai/qsJVe

vLLM+Open WebUI 部署

Nemotron-3 Nano

Nemotron-3-Nano-30B-A3B-BF16 是由 NVIDIA 从零开始训练的一款大型语言模型（LLM），旨在作为一个同时适用于推理与非推理任务的统一模型，主要用于构建 AI 智能体系统、聊天机器人、RAG（检索增强生成）系统以及其他各类 AI 应用。

在线运行：https://go.hyper.ai/6SK6n

论文推荐

RBench

论文题目 ： Rethinking Video Generation Model for the Embodied World

研究团队： 北京大学、字节跳动 Seed

查看论文：https://go.hyper.ai/k1oMT

研究简介：

该团队提出了一个全面的机器人视频生成评测基准 RBench，覆盖 5 类任务领域和 4 种不同机器人形态，并通过一系列可复现的子指标，从任务层面的正确性和视觉保真度两个维度进行评估，具体包括结构一致性、物理合理性以及动作完整性等方面。对 25 个具有代表性的视频生成模型的评测结果显示，当前方法在生成符合物理真实感的机器人行为方面仍存在显著不足。此外，RBench 与人工评估之间的 Spearman 相关系数达到 0.96，验证了该基准在衡量模型质量方面的有效性。

此外，该研究还构建了 RoVid-X——目前规模最大的开源机器人视频生成数据集，包含 400 万条标注视频片段，覆盖数千种任务，并辅以全面的物理属性标注。

Being-H0.5

论文题目： Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

研究团队： BeingBeyond

查看论文：https://go.hyper.ai/pW24B

研究简介：

该团队提出了一个基础级的视觉-语言-动作（Vision-Language-Action，VLA）模型 Being-H0.5，旨在实现跨多种机器人平台的强泛化具身能力。现有的 VLA 模型往往受限于机器人形态差异大、可用数据稀缺等问题。针对这一挑战，其提出了一种以人为中心的学习范式，将人类交互轨迹视为物理交互领域的通用「母语」。

同时，该团队还发布了 UniHand-2.0，这是目前规模最大的具身预训练方案之一，涵盖 30 种不同机器人形态、超过 35,000 小时的多模态数据。在方法层面，其提出了一个统一动作空间（Unified Action Space），将不同机器人的异构控制方式映射到语义对齐的动作槽位中，使低资源机器人能够从人类数据以及高资源平台中快速迁移和习得技能。

Fast-ThinkAct

论文题目： Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

研究团队： 英伟达

查看论文： https://go.hyper.ai/q1h7j

研究简介：

该团队提出了一种高效的推理框架 Fast-ThinkAct，通过可语言化的潜在推理机制，在保证性能的同时实现更加紧凑的规划过程。Fast-ThinkAct 通过从教师模型中蒸馏潜在 CoT，学习高效推理能力，并在偏好引导目标函数的驱动下，对操作轨迹进行对齐，从而将语言层面的规划能力与视觉层面的规划能力共同迁移到具身控制中。

大量覆盖多种具身操作与推理任务的实验结果表明，Fast-ThinkAct 在保持长时序规划能力、少样本适应能力以及失败恢复能力的同时，相较于当前最先进的推理型 VLA 模型，推理延迟最高可降低 89.3%，并取得了显著的性能表现。

JudgeRLVR

论文题目： JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

研究团队： 北京大学、小米

查看论文： https://go.hyper.ai/2yCxp

研究简介：

该团队提出了一种「先判别、再生成」的两阶段训练范式 JudgeRLVR，在第一阶段，团队训练模型对具有可验证答案的解题响应进行判别与评估；在第二阶段，以该判别模型为初始化，使用标准的生成式 RLVR 对同一模型进行微调。

与在相同数学领域训练数据上使用的 Vanilla RLVR 相比，JudgeRLVR 在 Qwen3-30B-A3B 上实现了更优的质量–效率权衡：在域内数学任务上，平均准确率提升约 3.7 个百分点，同时平均生成长度减少 42%；在域外基准测试中，平均准确率提升约 4.5 个百分点，显示出更强的泛化能力。

**ACoT-VLA\
**

论文题目： ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

研究团队： 北京航空航天大学、AgiBot

查看论文：https://go.hyper.ai/2jMmY

研究简介：

该团队首先提出了 Action Chain-of-Thought（ACoT，动作思维链），将推理过程本身建模为一系列结构化的粗粒度动作意图，用于引导最终的策略生成，随后进一步提出 ACoT-VLA，一种将 ACoT 范式具体化的新型模型架构。

在具体设计上，其引入了两个互补的核心组件：显式动作推理器（Explicit Action Reasoner，EAR）与隐式动作推理器（Implicit Action Reasoner，IAR）。其中，EAR 以显式的动作级推理步骤形式，提出粗粒度的参考轨迹；而 IAR 则从多模态输入的内部表示中提取潜在的动作先验。二者共同构成 ACoT，并作为条件输入作用于下游动作头，从而实现具备落地约束的策略学习。

在真实世界与仿真环境中的大量实验结果表明，该方法展现出显著优势，在 LIBERO、LIBEROPlus 和 VLABench 基准上分别取得了 98.5%、84.1% 和 47.4% 的成绩。

查看最新论文：https://hyper.ai/papers