分享一个专利: 一种在吃鸡游戏中模仿历史胜利玩家打法并对当前玩家进行打法推荐的方案

前言

这是笔者之前撰写的一篇专利的技术交底书。现在这份专利已经处于公开阶段，可以免费查阅。不过经常写专利的同学都知道，正式的专利文本往往是很难直接看懂的。于是我在咨询专利接口人确定许可后，决定把我最初的专利交底书公开发表，这就是本文的内容。

本发明的技术关键点（欲保护点）

实现一个游戏助手，可适用于绝大部分对局类游戏，对玩家当前以及下一步的游戏行为和操作进行持续的推荐。

该推荐方案的主要关键技术包含以下几部分：

历史对局记录
对局特征序列生成
实时玩家特征
特征-离线数据匹配
推荐关键帧提取
推荐序列生成
序列的截断和更新
话术转换和播报
推荐关键帧的挖掘

与本发明相近的现有技术

现有技术的技术方案

目前一些手游推出了语音陪伴助手功能，在玩家进行对局游戏的时候，在一旁进行一些语音提示，包括但不限于以下功能：

对玩家进行语言上的激励
讲解一些装备的用法或战术选择
闲聊、活跃气氛

现有技术方案一般是基于一些基础的条件逻辑触发对应的预定义话术，比如以下几种场景:

吃鸡类游戏，当玩家离开飞机机舱跳伞时，播报闲聊话术
- 如: “哇，救救孩子吧，小几恐高呀～”
吃鸡和 MOBA 类游戏，当玩家拿下首杀时，播报赞赏话术
- 如: “哇哦～好枪法哦”
吃鸡和 MOBA 类游戏，当玩家装备某武器时，播报武器对应的使用技巧
- 如: “M16A1 的特点是三发点射，适合搭配三倍镜和消声器使用，中远距离威力很大哦”
较为复杂的：MOBA 类游戏，当敌人均（或者大部分）进入团队视野时，如果本队伍成员不在敌人所在区域时，则播报需要支援的话术
- 如: “敌人在下路出现了，推荐前去支援”

方案不足

使用预设条件进行触发的方案局限性在于以下几点：

逻辑复杂，投入产出比低

对于一些较为复杂的情况，预设条件方案需要人工预先设定复杂的条件逻辑。一般而言，判断条件越复杂，则越精确、指导意义更高。但是条件越复杂，则人工投入的成本越高，而同时播报概率却更低——之所以播报概率低，是因为需要满足的条件更多、更严苛。因此，对于较为精准的话术场景而言，人力投入产出比较低。

通用性不足

预设条件进行触发的逻辑中，每一个具体场景的工作，换到另一个场景下几乎没有可重用的地方。比如说对于 MOBA 类游戏，针对同一个英雄所设计的预设条件和话术，换到另一个英雄就完全不可复用，需要重新设计；而对于吃鸡类游戏，针对一个地图所设计的预设条件，换到另一个地图，也需要重新投入人力进行分析、设计，重复劳动大。

本技术方案的详细阐述

以下是本技术方案的总体过程图，图中以虚线为界分为上下两部分，上半部分为在线（实时）过程，下半部分为离线过程

220426_图-总体过程图.png

下文首先基于上面的总体过程图，阐述一般性的技术方案，然后再以和平精英为例子，说明一个具体的应用范例。

实时流水数据

为实现本技术方案，我们需要将玩家在游戏对局过程中的各项相关操作、队友/敌人状态变化、对局全局参数变化等事件信息，尽可能快地实时推送出来，供本技术方案所涉及的离线和在线过程进行进一步处理。

离线过程

由于实时过程依赖于离线过程所产生的数据，因此我们首先阐述离线过程方案。

离线数据缓存和清洗

220426_图-总体过程图_01_离线数据缓存和清洗.png

实时流水数据在一整天内有峰值峰谷，不同的时间段内所需的计算资源不同。因此将实时数据尽快缓存下来，将离线过程的算力平摊到全天24小时中，可以大大降低云服务成本。

需要注意的是，实时流水数据在缓存时，需要记录该数据的发生时间，便于离线过程区分事件在整个对局过程中所处的时序位置。

一般而言，实时流水数据是较为全面的数据，在本方法中，针对实时流水数据需要进行初步清洗，这个清洗的过程需要完成以下工作：

将多个不同的实时流水数据，按照对局+用户ID的维度进行区分，同一个 “对局-用户” 的数据聚合为一次完整的对局数据。
聚合了对局数据之后，我们需要决定哪些对局是需要推送到后足进行记录的。记录的原则如下：
- 该对局是一个较为成功的对局范例，能够对玩家产生有益的指导作用
- 对局能够尽可能给玩家提供一个完整、序列化的行为模式参考
流水数据一般比较详细和全面，在数据清洗中，需要清除方案中不需要的数据，节省后续的数据存储成本

上面提到，我们将 “对局-用户” 数据聚合成了一次完整的对局数据，针对这个对局数据，我们可以生成一个唯一的对局 ID，在后续的逻辑中用于标识和映射用。

生成用于关键帧提取的特征序列并计算关键帧

1. 序列矩阵生成

220426_图-总体过程图_02_计算关键帧.png

经过上一阶段清洗之后的离线对局数据包含了该玩家在这一个对局中各不同时间段内的具体行为，以及在各时间段和时间点中的对局状态信息。我们需要从这些信息中将所有需要用于判断玩家后续行为模式的数据抽取出来，并将这些数据进行量化。

比如玩家在不同时间点的血量、装备类别和数量、玩家坐标等等信息。这些信息均包含时间属性，因此我们可以以整个完整对局的开始时间点作为原点，组合量化后的所有数据，计算出在每一个时间片中玩家的完整状态信息。每一个已量化的状态信息就是一个列向量。

从对局开始到对局结束的所有时间片所对应的列向量，则从左到右拼接成为一个 m 行、n 列的矩阵，其中 m 等于列向量的维度，n 等于时间片的数量。假设第 n 个时间片列向量表示为 $V_{Kn}$ （V 代表 vector，下标 K 代表 keyframe，M 代表 matrix，下同）即：

$$
M_{K} = M_{m\times n} = \left( V_{K1}, V_{K2}, ..., V_{Kn} \right) =
\begin{bmatrix}
f_{K11} & f_{K12} & ... & f_{K1n} \\
f_{K21} & f_{K22} & ... & f_{K2n} \\
... & ... & ... & ... \\
f_{Km1} & f_{Km2} & ... & f_{Kmn}
\end{bmatrix}
$$

其中 $f_{Kmn}$ （f 代表 feature，下同）表示第 n 个时间片中的第 m 个特征值

2. 关键帧提取

获得了矩阵 $M_K$ 之后，我们可以进行关键帧提取计算。在计算之前，我们首先需要对矩阵进行一次加权计算，以调整不同特征的权重，因为不同特征的重要程度不同（W 表示 weighted，下同）：

$$
M_{WK} = W_{K} \times M_{K} = \left( V_{WK1}, V_{WK2}, ..., V_{WKn} \right) =
\begin{bmatrix}
f_{WK11} & f_{WK12} & ... & f_{WK1n} \\
f_{WK21} & f_{WK22} & ... & f_{WK2n} \\
... & ... & ... & ... \\
f_{WKm1} & f_{WKm2} & ... & f_{WKmn}
\end{bmatrix}
$$

其中 $W_{K}$ 是一个 $m\times m$ 的对角矩阵，对角线上的值 $w_{ii}$ 表示每一个列向量 $V_{Kj}$ 中第 $i$ 个特征 $f_{Kij}$ 的权重值。经过上述矩阵乘法，则获得加权后的矩阵 $M_{WK}$

也可以在左乘权重之前，对矩阵以行为单位进行归一化处理。

获得了加权序列矩阵之后，我们从 $i = 2$ 开始，计算 $V_{WKi}$ 与 $V_{WKi-1}$ 两个列向量之间的余弦距离 $d_{WKi}$。将这些距离值以行向量表示，则为：

$$
D_{WK} =
\begin{bmatrix}
0, d_{WK2}, d_{WK3}, ..., d_{WKn}
\end{bmatrix}
$$

由于 $d_{WKi}$ 是标量，因此 $D_{WK}$ 可以表示为一个离散曲线，曲线上的每一个极大值点，就代表一个关键帧，这就是本技术方案中 “关键帧” 的数学含义。在后文的具体例子中我们会看到一个具体的关键帧计算结果。

获得关键帧之后，我们则可以以对局 ID 为唯一键，将关键帧提取结果存储到支持 KV 的缓存系统中，便于后续使用。

3. 关键帧的物理含义

关键帧的数学含义是标量序列中的每一个极大值点，对应到游戏中，则表示基于已选择的特征空间内，玩家行为、游戏进程、对局状态中发生较大变化的点。比如说玩家的位置发生了较大改变、玩家的行为轨迹发生转变、对局进入一个全新的阶段等等。关键帧往往揭示了玩家进行下一步决策的选择，或者是提示了玩家行动的方向。下文我们在举例的时候，可以更加明显地看出来。

生成用于匹配的特征向量序列

220426_图-总体过程图_03_用于匹配的序列.png

经过清洗之后的离线对局数据，除了用于生成用于关键帧提取的特征序列之外，另外一个作用就是用于生成用于匹配的特征向量序列。如何匹配这些特征向量，请参见后文，本小节仅说明生成该特征向量的方法。

类似地，我们需要从对局信息中提取出一系列的特征向量，生成该特征向量的方法与生成用于关键帧提取的特征序列的方法类似，也是生成一个序列矩阵，选取和量化特征向量的方法也类似。

选取这些特征之后，组成的特征向量，主要是为了表征某个对局下的玩家在每一个时间片中所处的状态，用于后续在实时过程中，将实时玩家的状态与某一个历史玩家进行匹配，从而匹配出一条关键帧序列。

生成的特征向量序列，是一个 $p\times q$ 大小的矩阵 $M_{Mp\times q}$（下标 M 代表 match，即 “匹配” 含义）：

$$
M_{M} = M_{p\times q} = \left( V_{M1}, V_{M2}, ..., V_{Mq} \right) =
\begin{bmatrix}
f_{M11} & f_{M12} & ... & f_{M1q} \\
f_{M21} & f_{M22} & ... & f_{M2q} \\
... & ... & ... & ... \\
f_{Mp1} & f_{Mp2} & ... & f_{Mpq}
\end{bmatrix}
$$

其中 $V_{Mq}$ 表示时间片 q 所对应的特征向量，$f_{Mpq}$ 表示第 q 个时间片中的第 p 个特征值。 $M_{M}$ 针对时间片粒度的选择与 $M_{K}$ 可以相同也可以不同，完全取决于游戏时长、性能、游戏典型决策时间等要素进行折中选择。

得到 $M_{M}$ 之后，也需要按照实际需要，进行加权操作。但这一步就没有必要进行归一化了。加权之后的特征向量序列为:

$$
M_{WM} = W_{M}\times M_{M} =
\begin{bmatrix}
f_{WM11} & f_{WM12} & ... & f_{WM1q} \\
f_{WM21} & f_{WM22} & ... & f_{WM2q} \\
... & ... & ... & ... \\
f_{WMp1} & f_{WMp2} & ... & f_{WMpq}
\end{bmatrix}
$$

我们可以将每一个 $V_{M}$ 存入向量匹配引擎，同时在存入引擎的时候，也应将对局 ID 作为向量的属性一并存入，这样在匹配到向量之后，就可以与对局 ID 所对应的关键帧关联起来。

虽然量化特征的方法类似，但与生成用于关键帧提取的特征的选取原则上略有差异，这主要是两者的取向不同：

用于关键帧提取的序列中，偏向于记录玩家的具体行为，状态信息辅之，主要是用于区分关键帧所处的阶段用
用于匹配的特征向量中，更多地考量的是玩家所处的状态，因此对于一些的具体行为，则不一定要纳入特征向量中

举个例子，在用于关键帧提取的序列中，“历史玩家击杀了敌人” 这是一个具体行为，可能会影响关键帧的计算，并且进一步影响对在线玩家的提示逻辑，因此这个事件需要纳入并且用于关键帧计算中。但是在用于匹配的特征向量中，“当前玩家击杀了敌人” 作为行为而言，就可以无需纳入特征向量的取值考量，因为用于匹配的特征向量更加重视状态，而玩家当前具体做了什么操作，只是一个时间点的事件，而不是一个有较强持续特性的状态。

当然了，如果更换一个角度，也可能有一些属性是适合纳入用于匹配的特征向量，而无需纳入关键帧提取的，比如 “玩家截至指定时间为止击杀了5个敌人”，这就很明显是一个状态信息，可以考虑纳入用于匹配的特征向量序列中；但是这又很明显不是一种行为，充其量只能从侧面体现出玩家的风格、偏好、技术等等辅助信息，因此不会计入关键帧计算的范畴中

此外，用于特征向量的序列中，相比起用于关键帧计算的序列中，可能还包含一些纯辅助用的特殊特征值，这些特征值主要是根据向量匹配引擎所能提供的功能有关。关于这一点，请参见后文示例中的 “对局时间” 特征的选取原因。

实时（在线）过程

总体架构图的上半部分表示在线（实时）过程。本源上，离线和在线过程使用的数据源是一样的，都是玩家真实进行过的操作以及真实对局的其他一些状态变化，因此架构图中绘制的数据源均为 “实时流水数据”。

与离线过程不同，在线过程需要尽可能快地根据玩家信息或对局状态作出响应，因此在线过程并不会将实时流水数据进行缓存后再操作，而是获取了实时流水数据之后立刻进行数据清洗。

在线数据清洗

220426_图-总体过程图_04_在线数据清洗.png

数据清洗的目的是将对局状态的特征向量化，这个向量也即等于当前玩家、当前对局、当前时间片的特征向量，并且需要保证该特征向量生成的算法和结构与前文 ”生成用于匹配的特征向量序列“ 完全相同，并且对于时间片粒度的选择，也应当与 $M_{M}$ 完全相同。对于实时对局中，指定时间片 $t$ 所对应的玩家特征向量，我们记为 $V_{Rt}$，其中 R 表示 real-time，特征向量的维度与 $V_M$ 相同：

$$
V_{Rt} =
\begin{bmatrix}
f_{R1t} & f_{R2t} & ... & f_{Rpt}
\end{bmatrix}^{T}
$$

由于在线过程是事件驱动的逻辑，单一的事件无法完全表征玩家的对局状态，也不足以构建对局状态的特征向量，因此在在线过程中，也需要将之前计算出来的对局状态数据进行必要的缓存。在新的对局事件到达时，在线逻辑应当结合对局状态缓存和事件详情，综合计算出当前时间片的对局状态特征向量。

匹配历史对局

“当前关键帧是否有效” 和 “需要更新关键帧” 阶段的判定逻辑，与后续逻辑直接相关，因此我们暂时先跳过这个阶段，首先讲解后续逻辑之后再返回来说明。

220426_图-总体过程图_05_匹配历史对局.png

在获取了当前时间片的对局状态特征向量 $V_{Ri}$ 之后，在这一阶段，这个特征向量也应与离线的特征向量矩阵 $M_M$ 左乘上完全相同的权重：

$$
V_{WRt} = W_M\times V_{Rt} =
\begin{bmatrix}
f_{WR1t} & f_{WR2t} & ... & f_{WRpt}
\end{bmatrix}^{T}
$$

我们可以使用 $V_{WRt}$ 在向量匹配引擎中进行匹配。匹配的原则是向量相似度，根据特征向量的选取原则，主要考虑使用余弦相似度和欧几里得距离两种算法：

当选取的特征向量具体值，包含玩家所处位置坐标信息，并且这些信息难以进行方向化的编码时（比如坐标 <10, 20> 与 <20, 40> 视为完全不同的值），则需要采取欧几里得距离
当选取的特征向量包含的都是玩家的转向、战术取向等在数学意义上偏 “方向” 性的操作，那么可以采用余弦距离

匹配的时候还需要包含以下限制：

仅匹配与当前时间片相同的历史特征向量，也即对于每一个 $t = i$ 的 $V_{WRi}$，限定匹配 $V_{WMi}$。
其他与游戏相关的限制，比如说对于吃鸡类游戏，不同的对局可能采用了不用的地图，因此必须限定匹配范围，仅在该地图所对应的对局范围中进行匹配。

匹配虽然首先采纳向量相似度优先原则，但也可以多匹配数个或数十个特征向量，也即多匹配一些历史对局，然后从符合条件的结果中进行一定的随机选取，以提高随机性和多样性。

获取和选择关键帧

220426_图-总体过程图_06_获取和选择关键帧.png

1. 获取关键帧序列详情

匹配到了一个历史特征向量之后，由于在特征向量的附加属性中包含了对局 ID，因此可以循此对局 ID 在 KV 缓存中获取到指定对局 ID 中已经在离线阶段中计算出来的所有关键帧数据。

获取了关键帧数据后，下一步的逻辑就是从关键帧中选取出后续需要推送给实时玩家的一个或多个关键帧。

2. 关键帧序列的截断

由于关键帧是包含了时间片属性的，时间片的定义，指的是相对于对局开始的时间偏移量。我们获取历史对局的关键帧列表之后，我们可以把所有的关键帧按时间片排序之后，分为两类：

“过去” 了的关键帧：指的是时间片值小于或等于当前实时对局所处的时间片。这些关键帧类比到当前对局中，可以视为已经 “发生过了”，或者是 “以前” 的关键帧，这些关键帧对当前玩家来说没有推荐意义
“将来” 的关键帧：指的是时间片值大于当前实时对局所处的时间片。这种关键帧表征了未来可能发生的事件，或者是未来推荐玩家进行的操作，因此对玩家有推荐意义

选取关键帧的步骤，第一步是删除所有 “过去” 了的关键帧，因为这些关键帧在当前对局来说没有保存的意义。

第二步是要对 “将来” 的关键帧序列，做一个 “截断逻辑”。截断逻辑的效果，是去除 “将来” 某个时间片之后的关键帧。抛弃的原因如下：

关键帧序列所代表的一个历史玩家的行为，是一条已经发生了的、确定的时间线。但是当前对局中的用户，ta 将来的行为，是一个尚未发生的、不确定的时间线。我们基于一条历史的时间线给现实玩家进行推荐，那么玩家在未来可能会遇到以下几种需要重新推荐关键帧的情况：

不跟随推荐的关键帧进行实际行动——在这种情况下，我们需要考虑给玩家推荐另外一条关键帧序列
跟随推荐的关键帧进行下一步行动。那么当玩家进行或完成了下一个关键帧中所列举的行为时，可能会有以下两种情况
- 2.1 - 玩家决定不跟随推荐的关键帧，而是进行别的选择，这个时候我们回到 1，也即需要考虑推荐另外一条关键帧序列
- 2.2 - 玩家虽然继续按照关键帧行动，但是对局环境发生了较大变化，以至于当前关键帧已经不再适应对局的情况，需要考虑重新推荐

针对情况 1 和 2.1，这属于我们前文跳过的 “当前关键帧是否有效” 和 “需要更新关键帧” 阶段逻辑，请参见下文。而针对情况 2.2，我们需要考虑的是：在玩家这条已选择的历史路线（关键帧序列）行动的前提下，这条路线到什么时间片为止，依然是适合玩家当前状态的；而到了什么时间片之后，即便玩家按照推荐采取行动，我们也应该重新给玩家匹配一条的关键帧序列。这一标准的选择因不同的游戏而异，也因应不同的游戏特性会有不同的算法。当然，也有可能完全不做 “将来” 的关键帧的截断，而完完全全地将关键帧更新的逻辑放在 “当前关键帧是否有效” 和 “需要更新关键帧” 阶段中。

3. 关键帧缓存

获得了截断后的关键帧，我们也需要缓存下来，便于下一个事件到来时的在线过程的迭代。

关键帧序列的刷新

220426_图-总体过程图_07_关键帧刷新.png

说明了后续的关键帧匹配逻辑之后，我们回过头来说明这一步在之前被跳过的逻辑。这两步逻辑决定了当前事件到来时，主逻辑是否需要继续往下持续到 “向玩家展示” 的步骤。

从示意图上我们可以看到，当事件到来时，更新了对局状态缓存之后，我们首先判断一下当前关键帧序列是否有效，如果关键帧序列已经无效了，那么直接开始匹配历史对局。显然，如果当前对局从来没有匹配过关键帧（推荐关键帧缓存为空），这显然是需要刷新关键帧序列的。

而第二个判断是判断当前玩家是否已经完成当前已推荐的关键帧，如果未完成，那么当前事件逻辑结束，等待下一次事件驱动；如果已经完成了，那么进入到下一个阶段的检查。

下一阶段是检查是否前进到下一个关键帧。当玩家已经完成当前关键帧的时候进行该阶段检查。如果需要前进到下一个关键帧，那么就将当前推荐的关键帧视为 “过去” 了的关键帧进行截断之后，推荐紧接着的下一个关键帧，如果不需要，那么也一样，结束当前事件逻辑，等待下一次事件。

1. 判断当前关键帧序列有效

判断当前关键帧序列，主要是进行以下条件的判断：

如果之前没有成功推荐过关键帧（关键帧缓存为空），那么显然需要刷新关键帧序列
关键帧是带时间片属性的，如果玩家行动的进度相比关键帧而言明显落后时，需要考虑刷新关键帧序列
- 比如从关键帧的角度，玩家应该在1分钟前就已经到达了某地，但是从目前玩家的状态来看，玩家最快也要3分钟才能到达，那么明显我们需要重新匹配
如果玩家的行为明显偏离关键帧所推荐的行为模式，那么有必要重新匹配关键帧序列。
- 比如推荐玩家往西北方向1000米移动，但是从推荐开始后，玩家往东南方向移动了1500米，这明显就偏离了关键帧的路线。
如果发生了重大事件，导致之前匹配到的关键帧明显不合适，或者是大概率不再合适时，那么这个时候需要考虑刷新关键帧序列
- 比如对于 MOBA 类游戏，之前推荐的关键帧是基于上、中、下路的塔防均完整的情况下进行的推荐，但现在其中一个塔被摧毁了，那么需要考虑重新匹配关键帧，采用新的战术。

2. 判断当前关键帧是否已实现

这一阶段主要是判断实时玩家的操作是否已经完成了关键帧中所指定的行为或目标，判断标准也因游戏而异。比如说玩家是否已经到达了目的地，或者是玩家已经将血量补满，或者是玩家已经击杀了指定目标等等。

3. 判断是否前进到下一个关键帧

当推荐关键帧序列中有下一个关键帧时，那么我们可以将当前关键帧截掉，并且将下一个关键帧推荐给用户。

如果没有下一个关键帧时，我们可以分两种情况来处理

如果可遇见下一个重大事件节点非常近时，那么即便没有下一关键帧，我们依然无需重新推荐，而是等待下一个重大事件到来的时候，自然会触发新的匹配过程
也可以简单删除关键帧缓存，触发下一个事件迭代过程时的关键帧匹配过程。

向玩家提示

当获得关键帧之后，我们即可以按照关键帧所代表的物理含义，或者说是所代表的在游戏中的操作，将关键帧的信息向玩家提示。提示方式不限，可以通过地图标注、语音提示、文字提示等等方式，给玩家进行提示。提示的具体手段不属于本专利的关注范围。