标签 CLIP 下的文章

AAAI 2026｜基于思维链与强化学习的可解释多模态广告审核护栏

作者: 纯情
时间: 2026-01-29
分类: 资讯
评论

你是否刷到过这样的短视频广告：如何在家躺着日赚几百块”、“通过手相预测未来姻缘”。在快手商业化广告素材审核过程中，快手商业化生态与体验团队每天也会拦截大量的风险素材。这些内容轻则破坏用户体验、损伤商业化生态，重则触及底线问题、危害整个商业化业务。团队的任务是通过技术手段将下述这些不同的风险都识别出来并拦截。

图 1 风险素材案例

与传统的显性风险不同，商业广告的违规往往隐藏在跨模态的错位中——画面合规但口播违规、字幕合规但暗示性极强。这类“高风险、强对抗”的内容，对审核系统提出了极高的要求：不仅要判得准（准确性），还要说得清（可解释性），更要跟得上政策的快速迭代（政策对齐）。面对这一挑战，传统的“黑盒”判别模型或通用多模态大模型（VLM）往往力不从心：前者缺乏因果推理能力，后者难以适应细粒度的商业审核策略。

为解决这一痛点，快手商业生态与体验算法团队提出了 BLM-Guard，这是一个专为高风险短视频广告设计的可解释性多模态审核框架。该框架融合了多模态思维链（CoT）推理与策略对齐的强化学习（RL），通过模拟人类审核员的“观察-归因-判断”逻辑，提升了模型在商业化场景下的审核精度与推理一致性。

本研究相关成果《BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards》已被人工智能顶级会议 AAAI 2026（Main Track）接收。

图 2 BLM-Guard 两阶段训练框架示意图

核心亮点：

【像审核员一样思考】针对短视频广告违规隐蔽性强的问题，本文提出 ICoT（Interleaved-modal Chain-of-Thought）流水线。通过规则驱动的数据合成，生成包含“视觉定位-风险筛查-因果分析-最终判决”的结构化推理链，解决模型“只知其一不知其二”的黑盒问题。
【动态策略自适应】面对不断变化的审核规则，创新性提出 SCA-R（Self-Adaptive Critique Reward）奖励机制。基于动态原则对模型的推理过程进行打分，结合 GRPO 强化学习算法，确保模型在策略漂移下仍能保持高一致性。
【首个多模态广告风控基准】发布了 BLM-Guard Benchmark，这是业界首个包含三级风险分类体系（风险场景、违规类型、严重程度）的短视频广告数据集，涵盖非法内容、虚假营销、误导性操作等七大核心场景，填补了精细化广告审核评测的空白。

一、研究背景

随着短视频商业化深入，广告已成为平台核心支柱，但违规内容日益呈现“隐蔽化、协同化、对抗化”趋势。这种高风险、强对抗的业态对现有的审核体系提出了严峻挑战，主要体现在以下三个维度：

违规形态演变多模态协同欺骗生成式 AI 的普及使得违规手段从单一的显性违规（如敏感词、违规画面）升级为“多模态协同欺骗”。这类内容通常单模态看似合规，但通过跨模态的信息错位（如画面正常但口播违规）传递恶意意图，极大地增加了识别难度。
审核标准困境动态性与复杂性的多重矛盾商业广告审核面临政策、场景与风险的三重复杂性：

政策漂移与规则适配：法规（如《广告法》）与平台规范的动态更新，导致静态模型难以适应不断漂移的政策边界。
场景差异与通用性：医疗、金融、教育等不同行业审核逻辑迥异，通用模型难以兼顾细粒度的领域规则。
风险分层与二元判决：现有模型多为“通过/拦截”的二元判决，无法区分高风险（非法）、中风险（误导）与低风险（体验）内容，难以满足精细化运营需求。

行业落地诉求从“黑盒”到全链路可解释审核不仅是技术判别，更需服务于平台监管、商家整改与合规追溯的全链路。传统规则模型泛化差，通用大模型（VLM）虽有理解力但决策过程如“黑盒”，缺乏结构化的归因逻辑。商家无法获知具体违规点，监管难以追溯证据链，且行业缺乏针对多模态协同违规的高质量数据集。

面对上述“违规识别难、规则适配难、结果落地难”的困境，本研究提出 BLM-Guard 框架。通过引入模拟人类审核逻辑的“多模态思维链（CoT）”与策略对齐的强化学习（RL），旨在实现对隐蔽违规的精准识别与动态政策适配，并构建业界首个精细化多模态广告风控基准，为短视频商业生态的安全与可持续发展提供技术支撑。

二、技术方案

BLM-Guard 采用了一种渐进式的“两阶段”训练范式，分别是第一阶段中规则锚定的 ICoT 冷启动（Rule-Anchored SFT）和第二阶段中基于 SCA-R 的强化学习（Self-Consistency RL），确保模型既能学到规则，又能灵活应用。

2.1 第一阶段：规则锚定的 ICoT 冷启动

这一阶段的目标不是简单地微调 VLM，而是解决“黑盒模型无法理解细粒度商业规则”的问题。

2.1.1 数据构造——自适应关键帧与 ICoT 生成

为了让模型“看懂”违规细节，采用了一套新的提取流程：

自适应关键帧采样 (AKS):

CLIP 相似度筛选：计算每一帧图像嵌入\( v_i \)与预定义风险提示词（如"false marketing", "illegal content"）嵌入\( t_k \)的余弦相似度\( si=maxk(viTtk) \)。
BIN+TOP 策略：将视频划分为m个时间桶（BIN）选局部最优，若不足则补充全局最高分帧，确保既有时间覆盖又有语义显著性。

Patch 级区域定位：使用 InternViT-6B 提取 Patch 特征，计算 L2 范数作为显著性分数 \( score_{i,p}=||H_{i}^{(p)}||_{2} \)，定位出关键图像区域（如字幕、产品特写）。
ICoT（交错模态思维链）生成：利用冻结的 InternVL-3-78B 作为教师模型，生成结构化的推理链：

2.1.2 训练目标——引入规则先验

在 SFT 阶段，BLM-Guard 修改了标准的 Cross-Entropy 损失，加入了 KL 散度约束：

\( \mathcal{L}_{CE} \) ：保证最终判罚（Answer）的准确性。
\( KL(p_{think} || p_{rule}) \)：这是一个关键设计。\( p_{rule} \)是基于违规场景关键词构建的软分布。该项强制模型的<think>推理过程中的 token 分布向这些规则关键词靠拢，防止模型推理“跑偏”或产生幻觉。

2.2 第二阶段：基于 SCA-R 的强化学习

SFT 模型虽然具备了初步推理能力，但在面对由于政策快速迭代导致的“策略漂移”时，泛化性不足。该阶段引入了 GRPO（Group-wise Relative Policy Optimization）算法进行优化。其中，混合奖励函数设计如下：为了平衡准确性、格式规范和逻辑一致性，奖励函数由三部分组成：

\( r_{rule} \)（规则正确性): 离散奖励。如果场景和违规类型全对给 1.0，仅场景对给 0.5，否则为 0 。
\( r_{format} \)（结构约束)：强约束奖励，确保输出严格包含<think>和<answer>标签，便于后续解析。
\( r_{scaR} \)（SCA-R: 自适应批判奖励):

动态 Critique: 引入一个 Guide Model（ GPT-4o），它不依赖静态标签，而是根据当前的审核 Policy 和输入，动态构建评分原则\( r_{scaR} \)。
评分逻辑: Critic 针对推理链进行打分（0, 0.5, 1），计算加权和\( r_{scaR} \)。这解决了“判决对了但理由错了”的逻辑一致性问题。

2.3 总结

从技术架构角度看，BLM-Guard 的核心壁垒在于：

显式因果建模：通过 KL散度将规则“注入”到模型的隐空间推理路径中。
抗策略漂移：利用 \( r_{scaR} \)动态奖励，使得模型不仅拟合数据分布，更是在拟合“审核逻辑”，从而适应不断变化的业务规则。

三、效果性能

3.1 核心指标

在构建的 BLM-Guard Benchmark 以及 UCF 等五个公开数据集上，BLM-Guard 均展现了 SOTA（State-of-the-Art）性能。

准确率提升：相比 Qwen2.5-VL、InternVL3-8B 等强力基线，BLM-Guard 在七大风险场景下的严格准确率（Strict Accuracy）平均提升超过 20%，尤其在“虚假营销”和“误导性操作”等高难度场景表现突出。
推理一致性：通过 GPT-4o 进行的一致性评分显示，BLM-Guard 的推理逻辑得分达 0.845，超基线模型的 0.5-0.6 水平。这意味着模型不仅判得对，而且理由充分、逻辑自洽。

图 3 BLM-Guard Benchmark 风险分类体系

3.2 消融实验

实验证明，“规则微调（Rule-SFT）+ SCA-R 强化学习” 的组合是性能提升的关键。仅依靠 SFT，模型容易产生幻觉；而加入 SCA-R 后，模型学会了在不确定时更加谨慎，提升了模型的泛化效果。

四、未来展望

快手商业生态与体验研发中心始终致力于用技术守护快手广告的清朗。
未来，团队将继续深耕以下方向：
1.理解+生成 OneModel：探索理解+生成深度融合的 oneModel 新范式，进一步精准识别违规内容，同时引入营销视角生成高转化、有吸引力的修复建议，提升商家体验；
2.风控大模型基座 KwaiBLM：自主研发 KwaiBLM 风控大模型基座，作为风控领域的统一认知底座，支撑内容理解、风险识别、策略生成等多项核心能力，推动风控从经验驱动向数据智能驱动转型；
3.RiskAgent 智能体：构建多 Agent 协作的智能体系统，建设下一代人机协同的智能风控引擎 RiskMatrix，提升业务场景风险防控效率与防控效果；
4.Deepfake 攻防能力：针对 AI 生成内容带来的新型风险，构建 Deepfake 检测与对抗技术体系。通过多模态特征融合、内容理解等技术手段，提升识别 AI 生成的虚假素材、篡改内容、合成视频等，守护平台内容真实性；
5.动态图算法：探索融合图神经网络与 Attention 机制，将 Graph RAG 图表征能力与大模型 KwaiBLM 相结合提升识别能力，挖掘隐蔽关联风险。

KuiTest：基于大模型通识的 UI 交互遍历测试

作者: 纯情
时间: 2026-01-19
分类: 开源
评论

1 背景

近来，随着 App 的功能愈发复杂，UI（用户界面）的交互逻辑也随之多样化。为了保障用户体验，针对 UI 的功能测试一直是质量保障中的重要环节。传统的 UI 功能测试往往依赖于人工编写的测试脚本或规则体系：通过手动编写校验逻辑来验证交互是否正确。这种方式虽然精确，但成本高昂，维护困难。

对美团而言，一个 App 就有可能包含上千种 UI 界面、数万个交互操作。随着业务快速迭代、界面频繁调整、底层平台（如 Android、iOS、HarmonyOS NEXT）的更新，基于规则的测试脚本常常失效。每当脚本失效，测试工程师都需要花费大量时间重新绑定元素、修复规则脚本，极大地提升了测试自动化的开销。此外，当下的 UI 功能缺陷通常并不表现为崩溃，而是更复杂的响应逻辑异常：例如图 1 中点击“全部已读”却清空了消息列表等。这类问题严重影响用户体验，但难以通过简单规则概括，限制了传统 UI 测试自动化的覆盖率与效率。

图 1 - UI 功能响应异常示例

考虑到 UI 功能缺陷虽表现各异，但共性是 App 的响应偏离用户预期。因此，若能实现对用户预期的模拟，就能以此作为测试准则（Oracle）、自动化的检测 UI 功能性异常。即无需人工逐页面编写规则，从而大幅提升自动化的程度与测试覆盖率。由于大语言模型（LLM）经过海量通用知识训练，具备一定的模拟人类常识与预期的能力，恰好契合模拟用户预期的需求，且无需针对特定应用 / 功能单独适配，天然具备泛化性。因此，通过分析 UI 功能缺陷的共性，我们提出了一个全新的思路：能否基于大模型理解“人类对 UI 交互的常识预期”，并以此自动判断交互是否正确？

基于这一理念，我们与复旦大学计算与智能创新学院周扬帆教授团队展开联合研究，设计并实现了 KuiTest —— 一套基于 大众通识 的 无规则（Rule-free）UI 功能测试系统。KuiTest 能够像人一样，理解按钮、图标等交互组件的含义，预测点击后的合理结果，并据此自动校验实际界面反馈是否符合预期，从而在无需手工脚本的情况下完成功能测试。该工作已在美团 App 的多个业务中落地应用，并产出论文《KuiTest: Leveraging Knowledge in the Wild as GUI Testing Oracle for Mobile Apps》，已被国际顶级软件工程会议 ICSE 2025（CCF-A 类会议）的 Software In Practice Track（软件工程应用实践）收录。

2. 设计思路与实现过程

2.1 总体流程

KuiTest 的核心是检查 UI 交互后的响应是否符合一般用户的 常识性预期，其中：识别交互组件的功能和常识性预期生成是需要两项关键能力。考虑到通用大模型具备图文理解能力且从海量的训练数据中习得了常识性推理能力，因此天然地适合模拟大众的认知和交互预期。至此，KuiTest 的核心挑战是提升大模型在执行 UI 功能测试的 性能和可靠性。考虑到通用大模型通常并未接受过 UI 测试领域数据的训练，因此缺少 UI 认知与测试的经验，直接让它识别 UI 功能和缺陷是十分困难的。所以我们借鉴人工测试的操作流程，将测试流程拆分以降低 LLM 的任务难度：

可交互组件功能识别：理解每个可交互组件（如按钮、图标）的功能含义、预测交互后的响应。
交互响应验证：在执行交互后，验证界面响应是否符合预期。

图 2 - KuiTest 工作原理

具体来说，如上图 2 所示，在测试开始时，首先选择需要交互的组件，KuiTest 会基于 GUI 截图分析和组件库匹配获取该组件的功能，并预测与之交互后的 UI 响应；随后执行交互，根据组件的预期功能以及交互后的页面信息判断实际响应是否符合预期。

2.2 UI 组件功能识别

图 3 - 可交互组件功能识别与 UI 响应预测

为了提升大模型预测 UI 组件功能的可靠性，KuiTest 整合了多种 UI 页面相关信息输入：首先，我们获取结构化组件树并结合 Vision-UI 模型^[1]从截图中识别所有可交互组件，再用 SoM（Set-of-Mark）策略^[2]为每个组件添加 bounding box 标记并分配唯一 ID，形成带标记的 UI 截图，让大模型能快速分辨图中存在的 UI 组件。接着，针对有文本的组件，通过 OCR 提取文字内容并按“组件 ID - 文本”结构化整理；针对无文本的图标类组件，则利用 CLIP（Contrastive Language–Image Pre-training）模型^[3]从积累的图标库（含历史识别失败图标及人工标注的功能描述）中检索相似图标，如果存在相似图标，则将库中图标的功能信息补充至输入来辅助大模型理解组件。最后，将上述所有信息整合进 Prompt，让大模型识别指定组件的功能，并预测交互后 UI 界面的响应。这一过程有效缓解了通用多模态大模型 UI 视觉信息理解薄弱的瓶颈，并为后续交互验证提供 Oracle。

2.3 交互响应验证

图 4 - 交互响应结果验证过程与 Prompt

交互后响应验证是 KuiTest 判断 UI 功能是否存在 Bug 的核心环节，流程分为状态比对和 LLM 决策两步：KuiTest 在模拟用户交互后，先通过像素对比判断交互前后 UI 是否有视觉变化，若无变化则直接标记为 “UI 交互无响应”；若有变化，则让多模态模型判断实际 UI 响应是否符合前述预测。至此，KuiTest 完成了从 UI 功能语义测试到通用推理能力任务的转换，既规避了传统基于规则测试繁杂的开发和维护成本，也提升了大模型在 UI 测试领域的决策的可靠性，降低误报率。

3. 实验测试

KuiTest 的实验设计以验证其对解决工业级 UI 功能的测试能力为核心，在美团实际场景中筛选真实数据构造数据集，并且设计针对性基线对比方案。在验证技术有效性的同时为业务落地提供数据支撑，下文将继续介绍实验设计、设置以及结果分析。

3.1 实验设计

实验围绕三个关键问题（RQ）进行，目标是验证 KuiTest 设计的有效性与合理性，以及是否满足工业落地要求。针对 LLM 在 UI 理解领域能力不足的问题，设置 RQ1 从误报率和成本的角度验证任务分解（拆分为 “组件功能识别 + 交互后响应验证”）的综合性能。此外，设置 RQ2 评估多模态输入 + 图标库的方案是否能提高 LLM 的组件识别能力。最后，针对工业场景对 “高召回、低误报” 的刚需，设置 RQ3 验证 KuiTest 在美团 App 中的落地能力，重点评估决定缺陷覆盖度的召回率以及直接影响人工排查成本的误报率。

3.2 实验数据与对照方法

实验使用的基准数据集自美团的核心业务线（外卖、酒店、旅行等），这些业务线的 UI 风格、交互规则均有差异，因此具备对真实的工业测试场景的代表性。具体而言，RQ1 数据集含 150 个 UI 交互操作（25 个历史 Bug+125 个正常用例），bug 比例 16.7%，对应新功能测试场景；RQ2 数据集涵盖 250 个可交互 UI 组件（含文本与无文本类型），确保组件多样性；RQ3 数据集含 100 个真实 UI 页面（4664 个组件、150 个注入 Bug），Bug 占比仅 3.2%，与工业场景 Bug 稀疏的实际情况一致。

图 5 - 任务分解的示意与基线方法

我们为各实验设置了基线方法作为对照：RQ1 设无分解（直接让大模型判断）与三步分解（单独提取交互后页面语义）对照，前者验证是否需要分解，后者验证分解步数合理性；RQ2 设纯 LLM（仅截图）、图片 + 文本（无图标库）、SoM + 文本（无图标库）对照，分别验证文本信息、组件标记以及图标库的价值，排除单一变量干扰；RQ3 虽无外部工具对照，但通过覆盖美团内 10 种业务线，以验证 KuiTest 的现实泛化性。

3.3 实验结果

RQ1：任务分解的合理性

任务分解对比结果显示，有分解的方案比无分解的方案在准确率和召回率上都有明显提高，并且 KuiTest 的两步分解方案（组件识别 + 响应验证）表现最优：平均准确率 86%、召回率 85%。

这一结果印证了任务分解合理性。对于三步分解的方案效果会略差于两步分解的结果，我们分析发现三步分解额外语义提取步骤，虽能提升页面类型理解，但会让 LLM 忽略图标颜色变化等细节，导致非跳转类 UI 功能 Bug 漏检（如点击收藏按钮后按钮应该从空心变为实心），且增加计算成本。这说明分解并非步骤越多越好，需贴合大模型能力边界，找到可靠性和效率平衡点，而两步分解恰好成为实现这一目标的最优解。

RQ2：组件功能识别的有效性

组件功能识别结果显示，KuiTest 方案的平均识别准确率达 95.5%，其中文本组件准确率 96%，无文本图标准确率 95%；而对照方案中，纯 LLM 的无文本图标准确率仅 13%，图片 + 文本和 SoM + 文本的方案准确率也未突破 20%。

这一数据表明对 UI 图像进行标记以及对 UI 组件语义信息的额外补充，能够显著提高 LLM 的 UI 组件功能识别能力。LLM 视觉理解能力薄弱，纯截图输入无法识别无文本图标，而 OCR 文本 + 组件标记能补充组件的文本语义，提升文本组件识别准确率。借助图标库为无文本组件补充功能描述，直接将其识别准确率从 13% 提升至 95%。并且这一图标库并不是全量的，说明仅通过业务线常用图标即可覆盖大部分场景，兼顾准确性与成本。

RQ3：对于真实 UI 功能异常识别的有效性

在美团 10 大业务线的真实场景测试中，KuiTest 整体召回率 86%、精确率 71%、误报率 1.2%，且各业务线表现稳定。这些实验结果表明 KuiTest 具备实际落地能力。86% 的召回率意味着能覆盖绝大多数真实 UI 功能 bug，避免漏检关键缺陷。1.2% 的误报率有效避免导致测试工程师进行无效排查，大幅降低人工成本。71% 的精确率虽看似不高，但因实验中 Bug 占比仅 3.2%（与真实场景一致），在 Bug 稀疏环境下已属优秀。实验结果证明了 KuiTest 在真实测试场景中能平衡覆盖度与准确性。

4. 应用效果

目前，KuiTest 已在美团的多类业务场景中落地应用，过去 6 个月有 20 个业务方向使用，总执行 21 万+Cases、8000 多个 Jobs，近期周均触发 5000 多个 Cases；在多个实测项目如鸿蒙适配、神会员地理传参巡检、酒店商家多语言适配等，KuiTest 发现了百余例有效的 UI 功能缺陷。

4.1 HarmonyOS NEXT 平台遍历

传统的 GUI 测试脚本的设计依赖于 App 的 UI 逻辑，但是不同操作系统上同一 App 的有所差异，这种差异会导致在一个系统上设计的脚本在另一个系统上失效，因此使得跨平台的测试十分困难，需要测试人员手动调整甚至重新设计测试脚本，适配成本较大。

美团 App 在 Android/iOS 平台的测试脚本较为完善，但是在 HarmonyOS NEXT 平台的测试脚本仍在完善之中，大量页面仍处于未测试状态。因此，KuiTest 被率先部署于该平台的稳定性巡检中，根据指定业务起始页面，自动地进行跨页面遍历，识别并验证崩溃、报错、功能不符合预期的情况，以减少重新设计测试脚本的成本。

项目中覆盖首批适配的 3 项业务，项目交付周期总体累计运行 1230 小时、共 4 万+个自动化测试用例，发现 34 个有效异常。

图 6 - 发现的缺陷举例

4.2 大前端回归巡检

由于美团 App 的更新速度十分快速，因此每周都需要进行回归巡检。传统的测试脚本的方法由于人力消耗过大，往往只能覆盖 App 中的核心业务区域，但是其他区域的 Bug 实际也会影响用户体验。而 KuiTest 能够测试一张页面的所有可交互组件，以一种低成本的方式提高测试覆盖率。因此，我们将 KuiTest 运用在美团的大前端回归巡检当中：截至目前，KuiTest 已经超一年稳定运行，累计检测出了 140+有效异常。

5. 认知与展望

KuiTest 作为无规则的移动应用 GUI 功能测试工具，标志着软件测试领域向智能化、自动化方向迈出的探索一步。该工具通过合理的任务拆解与多模态 UI 组件功能识别将大模型通识作为测试预言，利用其广泛的知识模拟用户期望，成功突破了传统基于规则测试方法的局限性，切实提升了 LLM 在 GUI 测试场景中的可靠性和实用性。

当前 KuiTest 主要聚焦于单步交互的功能验证，这是出于对测试可靠性和效率的权衡考虑。然而，向多步交互场景扩展是一个自然且必要的发展趋势，真实用户场景中存在大量需要多步操作才能触发的复杂功能 bug，例如，在执行操作序列“查看订单列表 → 点击 “待付款” 订单 → 选择退款 → 确认退款原因”时发现点击“待付款”后，页面却显示“退款订单”。

未来研究应当探索如何将测试能力扩展到长链路交互场景。针对长链路 Bug 分析，需要建立状态追踪机制来记录每一步交互后的 UI 状态变化，通过对比预期状态与实际状态的差异来识别异常节点，同时利用 LLM 的推理能力建立操作步骤之间的因果关系链，当检测到功能异常时能够回溯定位是哪一步操作导致了错误，这种因果推断能力对于复杂交互序列中的 Bug 定位至关重要。同时，可以引入基于历史 Bug 数据的学习机制, 分析过往发现的长链路 Bug 模式，自动生成类似的高风险测试路径，优先探索容易出现问题的操作序列组合。这种智能化的路径生成不仅能提高测试效率，还能显著提升对复杂功能 Bug 的检测能力。

6. 合作方简介

复旦大学周扬帆教授团队致力于新型软件系统的性能优化与故障排查研究，近年团队在软件系统领域的重要会议如 OSDI、SOSP、ICSE、FSE 等发表了多篇高影响力论文。最近，该团队以解决 UI 自动化测试中的复杂问题为核心，将大模型应用于 UI 功能认知与 UI 交互规划，以一系列创新方法显著提高了解决方案的适应性和稳定性。团队注重科研成果的实际应用，积极与企业及相关机构合作，共建实用工具和系统，推动研究成果的落地，助力合作伙伴提升技术能力并实现业务价值。

注释

[1] vision-ui 模型：美团视觉 UI 分析工具
[2] SoM（Set-of-Mark）策略：Yang J, Zhang H, Li F, et al. Set-of-mark prompting unleashes extraordinary visual grounding in gpt-4v [J]. arXiv preprint arXiv: 2310.11441, 2023.
[3] CLIP（Contrastive Language–Image Pre-training）模型：Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision [C]//International conference on machine learning. PMLR, 2021: 8748-8763.