知识点13 | FlashAttention
注1:本文系"每天一个多模态知识点"专栏文章。本专栏致力于对多模态大模型/CV领域的高频高难面试题进行深度拆解。本期攻克的难题是:FlashAttention。 注2:本文Markdown源码可提供下载,详情见文末 关注"每天一个多模态知识点"公众号,每天一个知识点的深度解析! 面试官提问: 核心直觉: FlashAttention的核心突破在于从计算思维转向IO思维。传统注意力算法关注浮点运算数量(FLOPs),而FlashAttention认识到在现代GPU上,内存访问带宽才是真正的性能瓶颈。通过精心设计的IO-aware算法,FlashAttention将注意力计算从compute-bound转变为memory-bound场景下的性能杀手,在保持数学精确性的前提下,将HBM访问量从O(N²)降低到O(N),从而实现了2-4倍的端到端加速和显著的长序列处理能力提升。 首先需要理解现代GPU的内存层次结构。以NVIDIA A100为例: GPU内存层次(以A100为例): 关键洞察: SRAM的带宽是HBM的10倍以上,但容量仅为HBM的1/1000。FlashAttention的核心策略就是:尽可能将数据驻留在SRAM中完成计算,减少HBM的访问次数。 标准注意力计算公式: $$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$ 其中 $Q, K, V \in \mathbb{R}^{N \times d_k}$,N为序列长度,$d_k$为注意力头维度。 标准实现的内存访问模式: 问题分析: IO复杂度计算: 标准注意力需要: 总计:Ω(N² + Nd_k) 次HBM访问 FlashAttention通过分块策略,将整个注意力矩阵的计算分解为在SRAM中完成的小块计算: 分块策略: 设块大小为$B_r$(行块)和$B_c$(列块),满足$B_r \cdot B_c \cdot d_k \leq \text{SRAM\_capacity}$ 将Q, K, V分别划分为: 算法流程: 关键优势: 这是FlashAttention最精妙的数学创新。传统softmax需要先知道全局最大值,而分块计算打破了这一依赖。 传统softmax: $$\text{softmax}(x)_i = \frac{\exp(x_i)}{\sum_j \exp(x_j)}$$ 数值稳定版本: $$\text{softmax}(x)_i = \frac{\exp(x_i - \max_j x_j)}{\sum_j \exp(x_j - \max_j x_j)}$$ 在线softmax推导: 假设已经处理了前j-1个块,已知: 现在处理第j个块,得到局部统计量: 更新全局统计量: 新的全局最大值: 新的归一化因子需要将前j-1个块的结果缩放到新的最大值下: $$l_j = \sum_{k=1}^{j} \exp(x_k - m_j) = \sum_{k=1}^{j-1} \exp(x_k - m_j) + \sum_{k \in \text{block}_j} \exp(x_k - m_j)$$ 利用指数的性质: $$\sum_{k=1}^{j-1} \exp(x_k - m_j) = \sum_{k=1}^{j-1} \exp(x_k - m_{j-1}) \cdot \exp(m_{j-1} - m_j) = l_{j-1} \cdot \exp(m_{j-1} - m_j)$$ $$\sum_{k \in \text{block}_j} \exp(x_k - m_j) = \sum_{k \in \text{block}_j} \exp(x_k - m_{local}^{(j)}) \cdot \exp(m_{local}^{(j)} - m_j) = l_{local}^{(j)} \cdot \exp(m_{local}^{(j)} - m_j)$$ 最终更新公式: $$l_j = l_{j-1} \cdot \exp(m_{j-1} - m_j) + l_{local}^{(j)} \cdot \exp(m_{local}^{(j)} - m_j)$$ 输出累积更新: 对于输出$O = \sum_i \text{softmax}(x_i) V_i$,同样需要在线更新: $$O_{j} = O_{j-1} \cdot \frac{l_{j-1}}{l_j} \cdot \exp(m_{j-1} - m_j) + \text{softmax}_{local}^{(j)} \cdot V_{local}^{(j)}$$ 这个技巧保证了分块计算的数值稳定性和数学精确性。 FlashAttention的IO复杂度: 每个Q块需要遍历所有K/V块,因此: 其中 $T_c = N / B_c$,块大小 $B_c \times B_r \approx M/d_k$(M为SRAM容量) 因此: 对比: 对于典型参数:$d_k = 64$,$M = 192$KB: 这解释了FlashAttention为何能实现如此显著的加速。 传统注意力需要存储中间结果用于反向传播: $$\frac{\partial L}{\partial Q} = \left(\frac{\partial L}{\partial O} \cdot V^T - \sum_j P_{ij} \frac{\partial L}{\partial O}_{ij}\right) \cdot P \cdot \frac{1}{\sqrt{d_k}}$$ 这需要存储完整的注意力矩阵P(O(N²)内存)。 FlashAttention的反向传播优化: 在正向传播中,只存储: 反向传播时,重新计算注意力矩阵,而不是从HBM读取。虽然增加了计算量(2×FLOPs),但由于避免了O(N²)的HBM读取,反而更快。 面试追问: 为什么重计算反而更快? 因为GPU的浮点运算速度远快于内存访问速度。以A100为例: 重计算增加的计算开销远小于减少的HBM访问开销。 FlashAttention将以下四个步骤融合为一个CUDA kernel: 融合的优势: 追问1:FlashAttention-2相比FlashAttention-1有哪些改进? 回答要点: 追问2:FlashAttention的局限性和改进方向? 局限性: 改进方向: 追问3:如何选择最优的块大小? 考虑因素: 经验法则: $$B_{optimal} \approx \sqrt{\frac{M}{d_k \times 4}}$$ 其中4是考虑数据类型(float16)和额外的存储开销。 当前热点: 应用前景: 常见错误1: 认为FlashAttention是近似算法 纠正: FlashAttention是精确算法,它不进行任何近似,通过精确的数学推导保证与标准注意力数值等价。 常见错误2: 忽略IO复杂度,只谈论FLOPs 纠正: 现代GPU上,IO瓶颈往往比计算瓶颈更严重。FlashAttention的核心贡献是将注意力算法的设计焦点从FLOPs转向IO复杂度。 常见错误3: 混淆Tiling和Block-Sparse Attention 纠正: Tiling是实现技巧,用于减少内存访问;Block-Sparse是算法近似,用于降低计算复杂度。FlashAttention使用Tiling但不进行近似。 常见错误4: 认为重计算总是更慢 纠正: 在计算密集型和内存受限的场景下,重计算可能更快,因为避免了昂贵的内存访问。 FlashAttention代表了深度学习算法设计的范式转变:从单纯追求计算效率到统筹考虑硬件特性的系统级优化。它不仅仅是一个算法改进,更是算法-硬件协同设计的典范。 核心价值: 面试要点回顾: FlashAttention的成功证明了:优秀的算法设计需要深入理解硬件特性,在数学理论和工程实现之间找到最佳平衡点。 这也是系统AI研究的重要方向。 谢谢阅读~ 关注"每天一个多模态知识点"公众号,回复"FlashAttention"即可下载本文markdown源码 本文由mdnice多平台发布
知识点13 | FlashAttention深度攻略:从IO复杂度理论到CUDA kernel实现的完整解析
面试原题复现
"请解释FlashAttention算法的核心思想,并分析它相比传统注意力算法在计算复杂度和内存复杂度上的差异。为什么它能在不牺牲精度的情况下显著提升性能?请从IO复杂度、Tiling算法和在线Softmax三个维度进行详细阐述。"
关键回答(The Hook)
深度原理解析(The Meat)
1. 硬件性能瓶颈分析

2. 标准注意力实现的性能分析
# 标准注意力实现
def standard_attention(Q, K, V):
# Step 1: 计算注意力矩阵 S = QK^T
S = Q @ K.T # O(N²d_k) FLOPs, O(N²) 内存
# Step 2: 计算 softmax
P = softmax(S) # O(N²) 内存
# Step 3: 加权求和
O = P @ V # O(N²d_k) FLOPs, O(N²) 内存
return O3. FlashAttention的核心创新:Tiling算法

def flash_attention(Q, K, V):
# 初始化
O = zeros_like(Q) # 输出矩阵
m = -inf * ones(N) # 每行的最大值
l = zeros(N) # 每行的指数和(归一化因子)
# 外层循环:遍历K和V的块
for j in range(T_c):
K_block = K[j*B_c:(j+1)*B_c, :]
V_block = V[j*B_c:(j+1)*B_c, :]
# 内层循环:遍历Q的块
for i in range(T_r):
Q_block = Q[i*B_r:(i+1)*B_r, :]
# 在SRAM中计算
S_block = Q_block @ K_block.T # B_r × B_c
# 在线softmax更新
m_new = max(m[i*B_r:(i+1)*B_r], rowmax(S_block))
l_new = l[i*B_r:(i+1)*B_r] * exp(m[i*B_r:(i+1)*B_r] - m_new) + \
sum(exp(S_block - m_new), dim=1)
# 缩放累加输出
O[i*B_r:(i+1)*B_r, :] = O[i*B_r:(i+1)*B_r, :] * \
exp(m[i*B_r:(i+1)*B_r] - m_new) + \
softmax(S_block) @ V_block
# 更新统计量
m[i*B_r:(i+1)*B_r] = m_new
l[i*B_r:(i+1)*B_r] = l_new
# 最终归一化
O = O / l.reshape(-1, 1)
return O4. 在线Softmax的数学推导
$$m_j = \max(m_{j-1}, m_{local}^{(j)})$$
5. IO复杂度分析
$$\text{HBM访问} = N \times \frac{N}{B_c} \times d_k = \frac{N^2 d_k^2}{M}$$算法 IO复杂度 典型参数下的性能 标准注意力 Ω(N² + Nd_k) 基准 FlashAttention O(N²d_k²/M) 减少2-4倍HBM访问
$$\frac{N^2 d_k^2}{M} \approx \frac{N^2 \times 4096}{192 \times 1024} \approx 0.02 N^2$$6. 反向传播的重计算策略
7. 算子融合优化
代码手撕环节(Live Coding)
FlashAttention核心实现
import torch
import math
class FlashAttention(torch.nn.Module):
def __init__(self, head_dim, block_size=128):
super().__init__()
self.head_dim = head_dim
self.block_size = block_size
self.scale = head_dim ** -0.5
def forward(self, q, k, v, causal_mask=False):
"""
q, k, v: (batch_size, seq_len, num_heads, head_dim)
输出: (batch_size, seq_len, num_heads, head_dim)
"""
batch_size, seq_len, num_heads, head_dim = q.shape
# 重塑为 (batch_size * num_heads, seq_len, head_dim)
q = q.transpose(1, 2).contiguous()
k = k.transpose(1, 2).contiguous()
v = v.transpose(1, 2).contiguous()
q = q.view(-1, seq_len, head_dim)
k = k.view(-1, seq_len, head_dim)
v = v.view(-1, seq_len, head_dim)
# 初始化输出和统计量
o = torch.zeros_like(q)
m = torch.full((q.shape[0], q.shape[1]), float('-inf'),
device=q.device, dtype=q.dtype)
l = torch.zeros((q.shape[0], q.shape[1]),
device=q.device, dtype=torch.float32)
# 分块计算
num_blocks = (seq_len + self.block_size - 1) // self.block_size
for i in range(num_blocks):
start_i, end_i = i * self.block_size, min((i + 1) * self.block_size, seq_len)
q_block = q[:, start_i:end_i, :] # (B, B_r, d)
for j in range(num_blocks):
start_j, end_j = j * self.block_size, min((j + 1) * self.block_size, seq_len)
# 因果掩码
if causal_mask and j > i:
continue
k_block = k[:, start_j:end_j, :] # (B, B_c, d)
v_block = v[:, start_j:end_j, :] # (B, B_c, d)
# 在SRAM中计算注意力分数 (B, B_r, B_c)
s_block = torch.matmul(q_block, k_block.transpose(-2, -1)) * self.scale
# 因果掩码(如果需要)
if causal_mask:
mask = torch.triu(torch.ones(s_block.shape[1], s_block.shape[2]),
diagonal=1).bool().to(s_block.device)
s_block = s_block.masked_fill(mask, float('-inf'))
# 在线softmax更新
m_new = torch.maximum(m[:, start_i:end_i], s_block.max(dim=-1).values)
l_new = l[:, start_i:end_i] * torch.exp(m[:, start_i:end_i] - m_new) + \
torch.exp(s_block - m_new.unsqueeze(-1)).sum(dim=-1)
# 更新输出
o[:, start_i:end_i, :] = o[:, start_i:end_i, :] * torch.exp(
m[:, start_i:end_i] - m_new).unsqueeze(-1) + \
torch.exp(s_block - m_new.unsqueeze(-1)).unsqueeze(-1) * v_block.unsqueeze(1)
# 更新统计量
m[:, start_i:end_i] = m_new
l[:, start_i:end_i] = l_new
# 最终归一化
o = o / l.unsqueeze(-1)
# 重塑回原始形状
o = o.view(batch_size, num_heads, seq_len, head_dim)
o = o.transpose(1, 2).contiguous()
return o
# 使用示例
if __name__ == "__main__":
batch_size = 2
seq_len = 512
num_heads = 8
head_dim = 64
q = torch.randn(batch_size, seq_len, num_heads, head_dim,
device='cuda', dtype=torch.float16)
k = torch.randn(batch_size, seq_len, num_heads, head_dim,
device='cuda', dtype=torch.float16)
v = torch.randn(batch_size, seq_len, num_heads, head_dim,
device='cuda', dtype=torch.float16)
flash_attn = FlashAttention(head_dim=head_dim, block_size=128).cuda()
output = flash_attn(q, k, v, causal_mask=True)
print(f"输出形状: {output.shape}") # 应为 (2, 512, 8, 64)标准注意力对比
def standard_attention(q, k, v, causal_mask=False):
"""
标准注意力实现(用于对比)
"""
scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(q.shape[-1])
if causal_mask:
mask = torch.triu(torch.ones(scores.shape[-2], scores.shape[-1]),
diagonal=1).bool().to(scores.device)
scores = scores.masked_fill(mask, float('-inf'))
attn_weights = torch.softmax(scores, dim=-1)
output = torch.matmul(attn_weights, v)
return output
# 验证数值等价性
def test_equivalence():
# 创建小规模测试数据
batch_size, seq_len, num_heads, head_dim = 2, 64, 4, 32
q = torch.randn(batch_size, seq_len, num_heads, head_dim,
dtype=torch.float32, requires_grad=True)
k = torch.randn(batch_size, seq_len, num_heads, head_dim,
dtype=torch.float32, requires_grad=True)
v = torch.randn(batch_size, seq_len, num_heads, head_dim,
dtype=torch.float32, requires_grad=True)
# FlashAttention
flash_attn = FlashAttention(head_dim=head_dim, block_size=32)
flash_output = flash_attn(q, k, v, causal_mask=True)
# 标准注意力
q_std = q.transpose(1, 2)
k_std = k.transpose(1, 2)
v_std = v.transpose(1, 2)
std_output = standard_attention(q_std, k_std, v_std, causal_mask=True).transpose(1, 2)
# 比较数值
diff = (flash_output - std_output).abs().max()
print(f"最大数值差异: {diff.item()}")
# 应该小于1e-5(允许数值误差)
assert diff < 1e-5, f"数值差异过大: {diff}"
print("✓ FlashAttention与标准注意力数值等价")
test_equivalence()进阶追问与展望
1. 面试官可能的深度追问
2. 与其他优化方法的对比
方法 核心思想 精度 适用场景 FlashAttention IO-aware tiling + 在线softmax 精确 通用长序列处理 Linear Attention 低秩近似 近似 超长序列(N > 10^5) Sparse Attention 结构化稀疏模式 近似 长序列 + 局部依赖 Reformer Locality Sensitive Hashing 近似 大规模序列建模 Performer 随机特征近似 近似 理论研究、小规模应用 3. 前沿研究方向
面试避坑指南
总结与展望
参考文献