AAAI 2026|基于思维链与强化学习的可解释多模态广告审核护栏
你是否刷到过这样的短视频广告:如何在家躺着日赚几百块”、“通过手相预测未来姻缘”。在快手商业化广告素材审核过程中,快手商业化生态与体验团队每天也会拦截大量的风险素材。这些内容轻则破坏用户体验、损伤商业化生态,重则触及底线问题、危害整个商业化业务。团队的任务是通过技术手段将下述这些不同的风险都识别出来并拦截。 与传统的显性风险不同,商业广告的违规往往隐藏在跨模态的错位中——画面合规但口播违规、字幕合规但暗示性极强。这类“高风险、强对抗”的内容,对审核系统提出了极高的要求:不仅要判得准(准确性),还要说得清(可解释性),更要跟得上政策的快速迭代(政策对齐)。面对这一挑战,传统的“黑盒”判别模型或通用多模态大模型(VLM)往往力不从心:前者缺乏因果推理能力,后者难以适应细粒度的商业审核策略。 为解决这一痛点,快手商业生态与体验算法团队提出了 BLM-Guard,这是一个专为高风险短视频广告设计的可解释性多模态审核框架。该框架融合了多模态思维链(CoT)推理与策略对齐的强化学习(RL),通过模拟人类审核员的“观察-归因-判断”逻辑,提升了模型在商业化场景下的审核精度与推理一致性。 本研究相关成果《BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards》已被人工智能顶级会议 AAAI 2026(Main Track) 接收。 核心亮点: 随着短视频商业化深入,广告已成为平台核心支柱,但违规内容日益呈现“隐蔽化、协同化、对抗化”趋势。这种高风险、强对抗的业态对现有的审核体系提出了严峻挑战,主要体现在以下三个维度: 面对上述“违规识别难、规则适配难、结果落地难”的困境,本研究提出 BLM-Guard 框架。通过引入模拟人类审核逻辑的“多模态思维链(CoT)”与策略对齐的强化学习(RL),旨在实现对隐蔽违规的精准识别与动态政策适配,并构建业界首个精细化多模态广告风控基准,为短视频商业生态的安全与可持续发展提供技术支撑。 BLM-Guard 采用了一种渐进式的“两阶段”训练范式,分别是第一阶段中规则锚定的 ICoT 冷启动(Rule-Anchored SFT)和第二阶段中基于 SCA-R 的强化学习(Self-Consistency RL),确保模型既能学到规则,又能灵活应用。 这一阶段的目标不是简单地微调 VLM,而是解决“黑盒模型无法理解细粒度商业规则”的问题。 为了让模型“看懂”违规细节,采用了一套新的提取流程 : 在 SFT 阶段,BLM-Guard 修改了标准的 Cross-Entropy 损失,加入了 KL 散度约束 : SFT 模型虽然具备了初步推理能力,但在面对由于政策快速迭代导致的“策略漂移”时,泛化性不足。该阶段引入了 GRPO(Group-wise Relative Policy Optimization)算法进行优化。其中,混合奖励函数设计如下:为了平衡准确性、格式规范和逻辑一致性,奖励函数由三部分组成 : 从技术架构角度看,BLM-Guard 的核心壁垒在于: 在构建的 BLM-Guard Benchmark 以及 UCF 等五个公开数据集上,BLM-Guard 均展现了 SOTA(State-of-the-Art)性能。 实验证明,“规则微调(Rule-SFT)+ SCA-R 强化学习” 的组合是性能提升的关键。仅依靠 SFT,模型容易产生幻觉;而加入 SCA-R 后,模型学会了在不确定时更加谨慎,提升了模型的泛化效果。 快手商业生态与体验研发中心始终致力于用技术守护快手广告的清朗。
图 1 风险素材案例
图 2 BLM-Guard 两阶段训练框架示意图一、研究背景
二、技术方案
2.1 第一阶段:规则锚定的 ICoT 冷启动
2.1.1 数据构造——自适应关键帧与 ICoT 生成
2.1.2 训练目标——引入规则先验
2.2 第二阶段:基于 SCA-R 的强化学习
2.3 总结
三、效果性能
3.1 核心指标
图 3 BLM-Guard Benchmark 风险分类体系3.2 消融实验
四、未来展望
未来,团队将继续深耕以下方向:
1.理解+生成 OneModel:探索理解+生成深度融合的 oneModel 新范式,进一步精准识别违规内容,同时引入营销视角生成高转化、有吸引力的修复建议,提升商家体验;
2.风控大模型基座 KwaiBLM:自主研发 KwaiBLM 风控大模型基座,作为风控领域的统一认知底座,支撑内容理解、风险识别、策略生成等多项核心能力,推动风控从经验驱动向数据智能驱动转型;
3.RiskAgent 智能体:构建多 Agent 协作的智能体系统,建设下一代人机协同的智能风控引擎 RiskMatrix,提升业务场景风险防控效率与防控效果;
4.Deepfake 攻防能力:针对 AI 生成内容带来的新型风险,构建 Deepfake 检测与对抗技术体系。通过多模态特征融合、内容理解等技术手段,提升识别 AI 生成的虚假素材、篡改内容、合成视频等,守护平台内容真实性;
5.动态图算法:探索融合图神经网络与 Attention 机制,将 Graph RAG 图表征能力与大模型 KwaiBLM 相结合提升识别能力,挖掘隐蔽关联风险。
















































