本文为转载内容,保留原帖观点与结构;如有侵权请联系我处理。
做了两年的 AI 应用开发,积累了一些大模型选型的经验,跟大家分享一下
选型之前,先科普一下大模型型号上的核心参数:
1. 模型系列及版本号
Qwen3: 模型系列,Qwen 系列模型的第三代。
2. 模型架构或类型
VL:Vision-Language(视觉 - 语言) ,表示该模型支持多模态(如图像 + 文本)任务。
o:omni(全模态),例如 GPT-4o、Qwen3-Omni,标识该模型支持全模态(一般包括文本、图像和音频)任务。
MoE :Mixture of Experts(专家混合) ,表示该模型使用了 MoE 架构,实际可以理解为内部放置了多个小模型,收到任务时,会在内部进行路由,找到对应领域模型再执行任务。
3. 模型参数规模
30B:Billion(十亿),表示模型拥有 300 亿个参数(权重),一般来说,参数量越大,模型 “脑容量” 越大,理论上能力也越强
A * B:Activated*Billion(激活参数 * 十亿)
4. 后训练方式
基础格式:
Base:基础模型,仅做了预训练,没有做任何其他后训练,这个版本一般不可直接使用,适合微调等二次开发
Instruct:指令微调模型,在 base 模型上针对各种任务场景做了 sft 微调,能精准理解任务和完成任务,适合:意图识别,query 改写等,任务驱动型的场景。
Chat:对话微调模型,在 base 模型上做 sft+rlhf 微调,更侧重于对话场景(多轮对话的逻辑、语言风格)的优化,适合直接与人类交互。
深度思考格式:
Thinking:推理模式,将从前 prompt 中用到的 Cot 思维链推理,通过后训练内置到模型中,每家的命名方式不同,例如 deepseek-r1、gpt-o1。
Hybrid Reasoning:混合推理模式:以 qwen3 为例,在 thinking 模型基础上通过注入空的 thinking 块,让同一个模型实现思考和非思考两种模式的推理
领域特化:
Coder / Code:代码特化模型。例如 DeepSeek-Coder、Qwen2.5-Coder。这类模型在代码生成、De-bug 上的能力远超同参数的通用模型,但通用对话能力可能稍弱。
Math:数学特化模型。针对数学推理进行了额外训练。
蒸馏:
Distill:蒸馏模型。一般来说指的是,通过教师模型(能力很强的模型)输出的问答数据,去训练一个学生模型(小参数模型),从而让小模型能 “继承” 大模型的部分能力。例如:deepseek-r1-Distill-Llama-8B,是使用 deepseek-r1 的输出数据作为数据集,微调了 llama-8b 的模型。
5. 量化精度
模型量化的知识比较杂,不过只需要知道:量化的本质是压缩模型,通过损失性能的方式加速推理。
这里只介绍一下常见的量化精度、方式的选择策略
精度:
BF16/FP16:大部分模型出厂的满血版都是这个精度,可理解为没有精度损失。
INT8:考虑模型效果的最佳选择。性能大概在满血模型的 80-90% 左右。
Int4 / Q4_K_M (4-bit 量化):考虑性价比的最佳选择。性能大概在满血模型的 60-80% 左右。
占用显存估算:
权重显存 ≈ 参数量 × 量化字节数(如 Int4 为 0.5)。
以 7B 的模型为例:
| dtype | 每 10 亿(B)参数需要占用内存 | 所需内存 |
|---|---|---|
| float32 | 4g | 7B * 4 = 28g |
| fp16/bf16 | 2g | 7B * 2 = 14g |
| int8 | 1g | 7B * 1 = 7g |
| int4 | 0.5g | 7B * 0.5 = 4g |
额外预留:请务必预留 2-4GB 显存给模型上下文和系统后台,否则对话一长就会爆显存
Int4 量化方式:
GPTQ:老牌量化方案,模型兼容性都挺好。
AWQ:近年来热门的量化方案,比 GPTQ 精度稍好一点,推理速度比 GPTQ 快,大多数情况一般选这个。
GGUF:这是专门为 Ollama 或 llama.cpp 设计的。不依赖 cuda,适合 mac、移动设备、没有显卡的设备。
6. 上下文长度
这是目前大模型中非常常见的一个参数,决定了模型的记忆力容量。
32k / 128k:标准长度,表示一次 input 不能超过 32k/128k token。适合日常对话、简单的翻译任务。
256k / 1M / Long:长文本版本。适合 rag 或 coding。
今天先介绍大模型型号的基本参数定义,后续再分享选型策略,欢迎关注后续哈
以上均为个人的经验总结,如果有讲错的地方,也欢迎佬友们批评指正~
评论区(暂无评论)