Ollama |本地 AI 大模型部署工具使用教程
Ollama 怎么装?命令怎么用?模型怎么选?一文吃透Ollama全知识点,含安装步骤、常用命令速查、模型导入与生态集成,解决本地大模型部署所有基础问题,新手零门槛上手。 文章目录 ** 想本地部署大模型,却被复杂配置、命令操作劝退?这篇Ollama全实操指南,从基础定义、多系统安装,到模型运行、量化自定义,手把手教你上手,新手也能快速实现本地大模型自由。 第一次听说 Ollama 是2025年,那时候其实没太在意,觉得大概又是某种跑模型用的轮子。但实际用了一段时间之后发现,这玩意儿确实值得写一篇笔记。 Ollama 是一个开源跨平台的大模型工具,专为在本地环境运行大型语言模型设计。它的核心价值在于降低在本地部署大模型的门槛。你不必像早期那样手动配置环境、处理依赖、写一堆 Python 代码,一个命令就能把模型拉下来跑起来。Ollama 有点像Docker的感觉。 Ollama 的支持范围很广,主流的开源模型基本都覆盖了,包括 Llama 系列、DeepSeek-R1、Qwen 系列、Gemma 等等,Ollama官方的模型库在 https://ollama.com/library 。 Ollama 支持 macOS、Windows、Linux,操作方法各有不同。对机器的配置也有一定的要求,详情可参考: 本地部署AI大模型需要多高的电脑配置,你的电脑能跑大模型吗? 我自己用的是 Mac,安装有两种方式: Homebrew(推荐): 直接下载 DMG: 去 Ollama官网下载地址 下载 ollama.dmg,把应用拖到 Applications 文件夹里。 系统要求是 macOS Sonoma (v14) 或更新版本,支持 Apple M 系列和 x86(仅 CPU)。 Windows 用户去官网下载 Ollama MSI 安装包或者直接运行 OllamaSetup.exe,一路下一步。安装完成后,Ollama 后台自动运行,ollama 命令就可以在 cmd、PowerShell 或任何终端里用了。系统要求 Windows 10 22H2 或更新版本。 关于 GPU:如果用的是 NVIDIA 显卡,安装 452.39 或更新版本的驱动;如果用的是 AMD Radeon,需要对应驱动。 Linux 可以用Ollama官方提供的一键安装脚本: 如果是 Linux 系统作为服务运行,建议用 systemd 来管理。脚本会自动帮你配置好 service 文件,启动服务用 Docker 部署也很方便。CPU 版本直接用: 如果有 NVIDIA GPU,需要先安装 NVIDIA Container Toolkit,然后带 假设你已经装好了 Ollama。先开个终端手动启动ollama: 再开一个终端执行: 输入命令之后,Ollama 会去自动下载模型文件。 下载完成后,会自动跳进交互式对话界面。屏幕上会出现类似下面的东西: 在这里打字回车,模型就会开始回复。按 Ctrl+D 或者单独一行打 /bye 可以退出。比如: 装了 Ollama 之后,最重要的就是掌握几种常用的命令了。 手动启动 Ollama API 服务。Ollama 默认服务端口是 11434,服务启动后就可以用 API 来生成回复了。 拉取(下载)模型到本地: pull 命令会从官方仓库下载模型文件,模型文件通常有几个 GB 到几十 GB 不等。如果下载速度慢,可以配置代理或者换国内镜像地址。还有一个小技巧:下载卡住的时候 Ctrl+C 取消,再跑一次 pull 命令,有时能恢复。 运行模型,如果是第一次用,会自动先 pull: 查看本地已经下载了哪些模型。 查看当前哪些模型加载在内存里,以及它们用了什么处理器(GPU 还是 CPU)。 通过 Modelfile 创建自定义模型,比如导入手动下载的 GGUF 文件。 「创建模型」这个说法容易让人误解,以为是在训练一个全新的模型。其实 Ollama 的 create 做的事情是:基于现有模型生成一个「变体」,变体可以改、可以量化、可以合并 LoRA 适配器,但底层骨架还是原来的模型。 补充一句,Ollama 的命令结构和 Docker 挺像的,用习惯 Docker 的人会感觉熟悉。 更多 Ollama 命令详细用法请参考文章: Ollama 命令详解(含参数完整说明) Ollama 官方模型库的模型已经够多了,但有时候需要导入自己的模型文件(比如从 Hugging Face 下载的 Safetensors 格式或 GGUF 格式的模型)。 写一个 Modelfile 文件: 然后在同目录下执行: 这样就可以通过 如果你有微调好的 LoRA 适配器(Safetensors 格式),Modelfile 写法如下: 然后执行 量化这是一个化整为零的过程,会把模型里那些高精度的数据,比如32位浮点数(FP32),转换成更精简的4位或8位整数(INT4/INT8)来进行运算。 打个比方:你可以把浮点数(FP32)想象成一份详尽到小数的财务报表,而整数(INT8/INT4)相当于四舍五入到个位。虽然损失了些许“精度”,但数据量大大降低,计算速度也快得多了。对大模型来说,这点精度的牺牲通常不影响回答质量,但省下的资源是实实在在的。 Ollama 还支持直接把 FP16/FP32 模型量化成 GGUF 格式: 相关阅读推荐: Ollama 支持很多环境变量来定制化行为,几个常用的: OLLAMA_MODELS: 模型文件的存放目录,默认是 OLLAMA_HOST: 服务监听的地址和端口,默认 OLLAMA_CONTEXT_LENGTH: 上下文长度,默认根据显存动态决定(VRAM < 24G 时 4k,24-48G 时 32k,≥48G 时 256k),但可以手动改。 OLLAMA_NUM_GPU: 指定使用的 GPU 数量。 Ollama 的一大特点是支持流式输出。就是模型生成回复的时候一字一字地往外蹦,而不是等全部生成完了再一次性返回。 REST API 默认开启了 streaming,SDK 里需要显式设置 流式输出里还能处理多字段:常规内容就是 一些 Thinking-capable 模型(比如 DeepSeek-R1、Qwen3)会在 使用的时候可以控制是否启用 thinking: 在命令行交互模式下,也可以用 结构化输出是 Ollama 一个很实用的能力。通过提供 JSON schema,可以强制模型按照固定格式返回 JSON,而不是自由发挥。 建议把 temperature 设低(比如 0),输出会更稳定。Ollama 的云端版本暂时不支持结构化输出,只有本地模型能用。 Vision 模型可以接受图片输入,模型会描述图片内容、识别物体、回答关于图片的问题。 API 调用时把图片转成 base64 编码后传给 相关阅读: CURD 程序员,该如何理解 AI 大模型中的多模态(Multimodal)? Embeddings 模型把文本转成向量(浮点数数组,长度一般 384-1024 维度),可以用来做语义搜索、RAG 等。 或者通过 API 批量生成: 相关阅读: 从零上手 Ollama 嵌入向量:语义搜索 + RAG 落地代码教程 Ollama 支持函数调用,模型可以根据用户问题决定调用哪个工具,然后把工具返回的结果纳入回复中。可以单次调用一个工具,也支持并行调用多个工具。 相关阅读: Ollama 工具调用(Tool Calling)学习笔记 Ollama 还提供 Web Search API。可以用来让模型获取最新信息、减少幻觉。前提是注册 Ollama 账号并创建 API Key,然后用 Ollama 的一大优势就是和众多 AI 工具和 IDE 的集成做得很好。官方文档列出了很多: OpenClaw 可以把 Ollama 变成个人 AI 助理,跨 WhatsApp、Telegram、Slack、Discord 等平台,自带 web search 能力。推荐至少 64k 上下文长度。启动命令: Hermes Agent 是 Nous Research 做的 AI Agent,支持自动技能创建、跨会话记忆,内置 70 多种技能。 Claude Code(Anthropic 的智能编程工具)可以通过 Ollama 的 Anthropic兼容 API 来用开源模型。 Codex(OpenAI):用 VS Code 可以直接在 Copilot Chat 的模型选择器里用 Ollama 的模型。 详情阅读: Ollama 生态集成实操指南:Claude Code、Codex、Hermes Agent、OpenClaw、VS Code等工具集成实操(附命令)Ollama 是什么
如何安装 Ollama
macOS 安装 Ollama
brew install ollamaWindows 安装 Ollama
Linux 安装 Ollama
curl -fsSL https://ollama.com/install.sh | shsystemctl start ollama,查看状态用 systemctl status ollama。Docker 安装 Ollama
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama--gpus=all 参数启动。AMD GPU 则用 rocm 标签。Quick Start:从零开始跑第一个模型
ollama serveollama run qwen3.5:4bollama run qwen3.5:4b
>>> Send a message (/? for help)>>> 你好
Thinking...
嗯,用户发来“你好”,看起来是个简单的打招呼。可能刚打开对话框,想测试一下我的反应,或者只是随便说句话。作为助
手,我应该保持友好热情,但也不要太冗长。
用户用“你好”开头,属于非常基础的问候,没有具体需求。这时候直接追问问题可能显得机械。我应该先回应问候,再给出
一些可切入的选项,比如帮助、聊天、任务等,让用户选择下一步方向。
不过,用户可能只是单纯想聊聊天,不一定有明确目标。所以除了提供帮助的选项,也可以提一句“随便聊聊也可以”。另外
,用表情符号能让语气更友好,比如笑脸或帮助手势。
最后,保持简短,避免信息过载。如果用户真有需求,他们会继续提问;如果只是打招呼,这样回应也合适。
...done thinking.
你好!有什么我可以帮你的吗?无论是解答问题、处理任务,还是随便聊聊,我都在这里哦~ 😊
>>> Send a message (/? for help)Ollama 常用命令
ollama serve
ollama pull
ollama pull llama3.2ollama run
ollama run gemma3ollama run 启动后会进入交互式聊天模式,你可以直接敲问题和模型对话。也可以加上参数来调整模型行为,比如 --temperature 0.7。ollama list
ollama ps
ollama create
Ollama 模型导入与自定义
导入 GGUF 模型
FROM /path/to/your/model.ggufollama create my-model -f Modelfileollama run my-model 来用了。导入 LoRA 适配器
FROM llama3.2
ADAPTER /path/to/adapter/directoryollama create my-model 构建模型。量化
ollama create --quantize q4_K_M mymodel -f ModelfileOllama 环境变量配置
~/.ollama/models。如果 C 盘满了或者想放到外置硬盘,改这个变量就行。127.0.0.1:11434。如果想允许局域网其他设备访问,改成 0.0.0.0:11434。Ollama 的核心能力
Streaming(流式输出)
stream=True。content 字段,思考过程在 thinking 字段,工具调用则在 tool_calls 字段里。Thinking(思考链)
thinking 字段输出推理过程,然后最终的答案在 content 字段里。这个能力可以帮助你理解模型是怎么一步步推理出答案的,也可以用来调试模型的逻辑是不是跑偏了。ollama run deepseek-r1 --think "What's the capital of France?"
ollama run deepseek-r1 --hidethinking "Summarize this article"/set think 或 /set nothink 来临时开关。Structured Outputs(结构化输出)
from ollama import chat
from pydantic import BaseModel
class Pet(BaseModel):
name: str
animal: str
age: int
response = chat(
model='gpt-oss',
messages=[{'role': 'user', 'content': '我有两只猫...'}],
format=Pet.model_json_schema(),
)
pet = Pet.model_validate_json(response.message.content)Vision(视觉/多模态)
ollama run gemma3 ./image.png "what's in this image?"images 数组。SDK 支持文件路径、URL 或 raw bytes,REST API 只接受 base64。Embeddings(嵌入向量)
ollama run embeddinggemma "Hello world"curl -X POST http://localhost:11434/api/embed \
-H "Content-Type: application/json" \
-d '{"model": "embeddinggemma", "input": ["sentence1", "sentence2"]}'Tool calling(工具调用)
Web search
ollama.web_search("your query") 调用。Ollama 的生态集成
ollama launch openclaw。--oss 标志就能对接。OpenCode 也是类似的终端 AI 编程助手。