Whisper STT 在面试场景的部署优化：从端到端 1.2s 到 350ms

TL;DR（先看结论）

实时面试 / 对话场景下 Whisper 端到端延迟（声音落到文字出来）的 5 个工程降耗点：

模型选型：默认 large-v3 → 换成 distil-whisper-large-v3 (蒸馏版)，精度损失 < 1.5% WER，推理速度 5.4×
流式分块：固定 30s 切片改 VAD 触发的 1-3s 动态切片，无声段直接跳过
GPU warm-up：服务启动时预加载 weights + 跑 1 条 dummy audio，避免首次冷启动 600ms+
Beam search → Greedy：实时场景把 beam_size 从 5 降到 1，吞吐 ×3，WER 仅 +0.4
音频前处理上 GPU：mel-spectrogram 别留在 CPU，CUDA kernel 直接算，省 80-120ms

下面把每一点拆开讲，最后附 5 个 FAQ。

一、为什么"听清楚一句话"会卡 1.2 秒

Whisper 默认 pipeline 在面试场景的耗时分布（实测，A10 单卡，Python 3.11 + faster-whisper）：

环节	耗时	占比
音频上行 (WebRTC → Server)	80-150ms	10%
重采样 16kHz	30ms	2%
Mel 特征 (CPU)	90ms	7%
Whisper encoder	220ms	18%
Whisper decoder + beam search	600ms	50%
后处理 + 文本回传	80ms	6%
其他 (序列化/调度)	~80ms	7%

总计约 1.2s。这个数字对实时会议场景勉强能用，但放到面试这种"对话节奏 4-7s 一轮"的场景就明显感觉到对方"反应慢"——而面试 AI 助手最忌讳的就是用户问完后 AI 还没听完。

可优化空间集中在 decoder + beam search（占 50%），其次是 mel 特征和 encoder。

二、模型选型：distil-whisper 取代 large-v3

distil-whisper 是 HuggingFace 团队 2025 年发布的蒸馏版本，把 32 层 decoder 砍到 2 层，参数量从 1550M 降到 756M。在 LibriSpeech test-clean 上 WER 从 2.7 涨到 3.1，对中文识别（结合微调）影响约 +1.5% CER，可接受。

部署改动很小：

from faster_whisper import WhisperModel

# 旧
model = WhisperModel("large-v3", device="cuda", compute_type="float16")

# 新
model = WhisperModel("distil-large-v3", device="cuda", compute_type="float16")

实测 decoder 部分从 600ms → 110ms，端到端从 1.2s → 700ms。这一步是最大单点收益。

顺带提一下，我自己在写一个面试实时辅助工具叫即答侠（macOS / Windows 桌面），跑这套链路时主要的工程痛点就是 STT 延迟——用户说完话到屏幕上跳出 AI 建议，超过 800ms 就会被吐槽"反应慢"。所以 distil-whisper 这一步几乎是必做的。

三、VAD 触发的动态分块：让安静的时候不跑模型

Whisper 默认按 30s 切片，但面试场景里，候选人答题平均一句话 1-3s，中间还有大量"嗯"、"那个"、停顿。如果按 30s 切，要么得攒够 30s 才识别（延迟爆炸），要么按固定 1-3s 切但很多片段是静音（白跑）。

正确做法：上 VAD（Voice Activity Detection），只对有声段触发 STT。Silero-VAD 是首选：

import torch
vad_model, utils = torch.hub.load(
    'snakers4/silero-vad', 'silero_vad', force_reload=False
)
(get_speech_timestamps, _, _, _, _) = utils

# 滑动窗口收 audio chunk (e.g. 200ms 一帧)
def on_audio_chunk(pcm_chunk):
    speech_ts = get_speech_timestamps(pcm_chunk, vad_model, sampling_rate=16000)
    if not speech_ts:
        return  # 静音，不跑 STT
    # 累积音频，遇到静音 > 400ms 就触发 transcribe
    ...

工程上要处理两个边界：

拼接边界丢字：上一块结尾和下一块开头如果切到一个字中间，会丢音节。解决：每块往前 overlap 200ms。
VAD 假阳性：键盘声、空调风扇都可能被识别成 speech。可以加个 RMS 能量阈值二次过滤。

加了 VAD 后，"安静时段"不再跑模型，单卡 QPS 从 ~12 路上到 ~30 路，端到端降到 ~500ms（用户感知是"几乎说完就出来"）。

四、Beam Search 的代价

Whisper 默认 beam_size=5，意味着 decoder 每步保留 5 个候选序列做束搜索。这在离线转录有用——能避免局部最优。但实时场景下：

收益：WER 从 3.1 降到 2.6（相对降低 ~16%）
成本：decoder 时间 ×3-5

实测把 beam_size=1（greedy decoding）后：

segments, info = model.transcribe(
    audio,
    beam_size=1,       # was 5
    best_of=1,         # was 5
    temperature=0.0,
    condition_on_previous_text=False,  # 防止上下文污染
    vad_filter=True,
)

中文 CER 实测从 6.2% 涨到 6.6%（绝对值 0.4%），但延迟从 110ms 降到 35ms。在面试这种对话场景，这点 CER 涨幅几乎察觉不到（用户脑子会自动纠错"嗯/呃"），但延迟差异非常明显。

五、Mel-Spectrogram 上 GPU

很多 Whisper 部署默认用 librosa.feature.melspectrogram 在 CPU 算 mel 特征。30s 音频要 ~90ms，对实时场景来说是纯纯浪费——CPU↔GPU 还要拷一次。

faster-whisper 内部其实已经支持 GPU mel，但要显式开：

# kaldi-native-fbank 或 nemo 风格
import torchaudio.transforms as T
mel_extractor = T.MelSpectrogram(
    sample_rate=16000, n_fft=400, hop_length=160, n_mels=80
).cuda()

audio_tensor = torch.from_numpy(pcm_array).cuda()
mel = mel_extractor(audio_tensor)  # 直接在 GPU
# 然后喂 encoder，无需 CPU↔GPU 拷贝

省 80ms，且 batch 调度更顺（前后都是 GPU op）。

六、GPU 冷启动与连接预热

服务启动后的第 1 个请求往往慢 600-900ms：CUDA context 还没建、weights 还没真正加载到显存。生产做法：

# 启动时跑一遍假音频
import numpy as np
dummy = np.zeros(16000 * 5, dtype=np.float32)  # 5s 静音
list(model.transcribe(dummy, beam_size=1))  # 触发 lazy load

加上 K8s readiness probe 等到 dummy 跑完才接流量，首请求体验和热实例一致。

七、整体延迟分布（优化后）

把上面 5 步全做完，A10 单卡 30 并发场景下端到端延迟分布：

环节	优化前	优化后
音频上行	80-150ms	80-150ms
Mel (GPU)	90ms (CPU)	12ms
Encoder	220ms	90ms (distil)
Decoder	600ms	35ms (greedy + distil)
后处理	80ms	60ms
合计	~1.2s	~350ms

3.4× 提升，WER 涨幅可控（CER +0.5% 左右）。

常见问题 FAQ

Q1: distil-whisper 中文识别精度还能用吗？
A: 直接用 distil-large-v3 中文 CER 大约 7-8%，比原版 large-v3 (5.5%) 略差。如果对中文要求高，建议在自己业务数据上 LoRA 微调一次（5-10h 标注就够），CER 可拉回 5.5% 左右。

Q2: VAD 用 webrtcvad 还是 silero-vad？
A: 实时 / 低延迟场景 silero 更准（深度学习模型），但需要 ~5MB 内存和 CUDA。webrtcvad 是 C++ 实现纯 CPU，~3ms 一帧，适合超大并发但假阳性更多。建议 silero 主选，webrtcvad 备用。

Q3: 为什么 beam_size=1 不会让"幻听"变多？
A: Whisper 的"幻听"（hallucination，无声段编出文字）主要由 condition_on_previous_text=True 导致——上一段的输出会被当 prompt 喂下一段。把这个关掉，再加 VAD 跳过静音段，幻听会大幅减少。greedy vs beam 对幻听影响很小。

Q4: 流式 partial result 怎么做？
A: 用 chunk-based streaming：每 200ms 收一段，累计 1s 喂 transcribe，但只 commit "前 80%" 文本（最后 20% 容易因为字未说完被切错）。等下一个 chunk 来再 commit 上一轮的剩余部分。faster-whisper 0.10+ 有 stream 接口可参考。

Q5: 端侧部署 Whisper 可行吗？
A: 桌面端（M2 Mac / 8GB 显存 PC）跑 distil-whisper-small 完全够用，端到端 ~600ms。CoreML 转换后 M2 上甚至能 ~400ms。但 large 系列建议留服务器，端侧吃不消。

小结

实时 STT 优化的核心就一句话：非必要不跑模型，能并行的别串行。VAD + 蒸馏 + greedy + GPU mel 这 4 步覆盖了 90% 的延迟来源，剩下 10% 在网络上行，那是另一个工程问题（QUIC / Opus 编码）。

如果你也在做实时面试 / 对话类产品，3.4× 提升 + 不到 1% 精度损失基本是免费午餐，建议优先做。

—— 工程实测，欢迎在评论区交流踩坑细节。