【纯干货】大模型选型全拆解：型号、架构、量化、上下文，一次讲清

本文为转载内容，保留原帖观点与结构；如有侵权请联系我处理。

做了两年的 AI 应用开发，积累了一些大模型选型的经验，跟大家分享一下

选型之前，先科普一下大模型型号上的核心参数：

1. 模型系列及版本号

Qwen3： 模型系列，Qwen 系列模型的第三代。

2. 模型架构或类型

VL：Vision-Language（视觉 - 语言） ，表示该模型支持多模态（如图像 + 文本）任务。

o：omni（全模态），例如 GPT-4o、Qwen3-Omni，标识该模型支持全模态（一般包括文本、图像和音频）任务。

MoE ：Mixture of Experts（专家混合） ，表示该模型使用了 MoE 架构，实际可以理解为内部放置了多个小模型，收到任务时，会在内部进行路由，找到对应领域模型再执行任务。

3. 模型参数规模

30B：Billion（十亿），表示模型拥有 300 亿个参数（权重），一般来说，参数量越大，模型 “脑容量” 越大，理论上能力也越强

A * B：Activated*Billion（激活参数 * 十亿）

4. 后训练方式

基础格式：

Base：基础模型，仅做了预训练，没有做任何其他后训练，这个版本一般不可直接使用，适合微调等二次开发

Instruct：指令微调模型，在 base 模型上针对各种任务场景做了 sft 微调，能精准理解任务和完成任务，适合：意图识别，query 改写等，任务驱动型的场景。

Chat：对话微调模型，在 base 模型上做 sft+rlhf 微调，更侧重于对话场景（多轮对话的逻辑、语言风格）的优化，适合直接与人类交互。

深度思考格式：

Thinking：推理模式，将从前 prompt 中用到的 Cot 思维链推理，通过后训练内置到模型中，每家的命名方式不同，例如 deepseek-r1、gpt-o1。

Hybrid Reasoning：混合推理模式：以 qwen3 为例，在 thinking 模型基础上通过注入空的 thinking 块，让同一个模型实现思考和非思考两种模式的推理

领域特化：

Coder / Code：代码特化模型。例如 DeepSeek-Coder、Qwen2.5-Coder。这类模型在代码生成、De-bug 上的能力远超同参数的通用模型，但通用对话能力可能稍弱。

Math：数学特化模型。针对数学推理进行了额外训练。

蒸馏：

Distill：蒸馏模型。一般来说指的是，通过教师模型（能力很强的模型）输出的问答数据，去训练一个学生模型（小参数模型），从而让小模型能 “继承” 大模型的部分能力。例如：deepseek-r1-Distill-Llama-8B，是使用 deepseek-r1 的输出数据作为数据集，微调了 llama-8b 的模型。

5. 量化精度

模型量化的知识比较杂，不过只需要知道：量化的本质是压缩模型，通过损失性能的方式加速推理。

这里只介绍一下常见的量化精度、方式的选择策略

精度：

BF16/FP16：大部分模型出厂的满血版都是这个精度，可理解为没有精度损失。

INT8：考虑模型效果的最佳选择。性能大概在满血模型的 80-90% 左右。

Int4 / Q4_K_M (4-bit 量化)：考虑性价比的最佳选择。性能大概在满血模型的 60-80% 左右。

占用显存估算：

权重显存 ≈ 参数量 × 量化字节数（如 Int4 为 0.5）。

以 7B 的模型为例:

dtype	每 10 亿（B）参数需要占用内存	所需内存
float32	4g	7B * 4 = 28g
fp16/bf16	2g	7B * 2 = 14g
int8	1g	7B * 1 = 7g
int4	0.5g	7B * 0.5 = 4g

额外预留：请务必预留 2-4GB 显存给模型上下文和系统后台，否则对话一长就会爆显存

Int4 量化方式：

GPTQ：老牌量化方案，模型兼容性都挺好。

AWQ：近年来热门的量化方案，比 GPTQ 精度稍好一点，推理速度比 GPTQ 快，大多数情况一般选这个。

GGUF：这是专门为 Ollama 或 llama.cpp 设计的。不依赖 cuda，适合 mac、移动设备、没有显卡的设备。

6. 上下文长度

这是目前大模型中非常常见的一个参数，决定了模型的记忆力容量。

32k / 128k：标准长度，表示一次 input 不能超过 32k/128k token。适合日常对话、简单的翻译任务。

256k / 1M / Long：长文本版本。适合 rag 或 coding。

今天先介绍大模型型号的基本参数定义，后续再分享选型策略，欢迎关注后续哈

以上均为个人的经验总结，如果有讲错的地方，也欢迎佬友们批评指正～

📌 转载信息

来源：
https://linux.do/t/topic/1357519

原作者：
Dao_er

转载时间：
2025/12/24 17:09:22

【纯干货】大模型选型全拆解：型号、架构、量化、上下文，一次讲清

阅读选项

1. 模型系列及版本号

2. 模型架构或类型

3. 模型参数规模

4. 后训练方式

基础格式：

深度思考格式：

领域特化：

蒸馏：

5. 量化精度

6. 上下文长度

1. 模型系列及版本号

2. 模型架构或类型

3. 模型参数规模

4. 后训练方式

基础格式：

深度思考格式：

领域特化：

蒸馏：

5. 量化精度

6. 上下文长度

那年今日

微信分享二维码

随机文章

轻松月入10万,3小时0基础打造QQ营销赚钱提款机(共18节)价值3000元

【账号共享】天眼查、爱企查账号分享

多种dump lsass思路和工具汇总

获取QQ会员，尽享不一样的福利

gMKVExtractGUI v2.6.4 汉化版

常用CMS漏洞exp&poc批量扫描的python脚本

评论区(暂无评论)

我要评论

这里空空如也，快来评论吧~

【纯干货】大模型选型全拆解：型号、架构、量化、上下文，一次讲清

阅读选项

1. 模型系列及版本号

2. 模型架构或类型

3. 模型参数规模

4. 后训练方式

基础格式：

深度思考格式：

领域特化：

蒸馏：

5. 量化精度

6. 上下文长度

1. 模型系列及版本号

2. 模型架构或类型

3. 模型参数规模

4. 后训练方式

基础格式：

深度思考格式：

领域特化：

蒸馏：

5. 量化精度

6. 上下文长度

那年今日

微信分享二维码

随机文章

轻松月入10万,3小时0基础打造QQ营销赚钱提款机(共18节)价值3000元

【账号共享】天眼查、爱企查账号分享

多种dump lsass思路和工具汇总

获取QQ会员，尽享不一样的福利

gMKVExtractGUI v2.6.4 汉化版

常用CMS漏洞exp&amp;poc批量扫描的python脚本

评论区(暂无评论)

我要评论

这里空空如也，快来评论吧~

常用CMS漏洞exp&poc批量扫描的python脚本