[大模型实战 01] 本地大模型初体验:Ollama 部署与 Python 调用指南
核心摘要 (TL;DR) 官网地址:https://ollama.com/ Ollama 是目前最火的本地大模型部署工具。 对于咱们来说,它就是在大模型时代装在电脑里的“运行环境”,必不可少。 这些命令咱们以后会经常用到,建议收藏: Ollama 官网收录了很多模型,可以通过详情页复制命令下载,但由于服务器在海外,咱们在国内访问经常断连,速度也很慢。 主流的模型平台是 HuggingFace,但它也在海外,国内下载需要魔法工具。 操作步骤: 在搜索框输入咱们想要的模型,比如 回到命令提示符,加上前缀进行下载,网速直接拉满: 在命令行工具输入 Ollama 默认服务运行在端口 设置环境变量: 为了运行连接 Ollama 的 Python 脚本,我们需要准备以下环境: Ollama 完美兼容 OpenAI 的 API 格式,所以咱们直接用 OpenAI 的库就行: 这里整理了咱们在入门时最关心的问题: Q: 除了 Ollama 还有哪些方式可以部署,它们有什么差别? Q: Ollama 开机自动启动,我要怎么关闭?关闭后如何手动启动? Q: HuggingFace 和魔搭 (ModelScope) 有什么区别? Q: 平台看起来很丰富,还有什么别的好玩儿的功能? Q: 大模型有什么类型? Q: 我该如何快速计算我的电脑能支持多大的模型? Q: 大模型不是需要显卡吗?为什么 Ollama 可以运行在没有显卡的设备上? 本文作者: Algieba01. Ollama 介绍
简单来说,它能帮咱们快速拉取模型文件,让模型在本地直接运行并进行对话。同时,它还能把模型打包成一个标准的接口,通过端口开放给咱们写的 Python 脚本调用。02. 安装 Ollama



Win+R 打开运行窗口,输入 cmd 打开命令提示符。输入命令 ollama --version。如果看到版本号,就说明 Ollama 已经安装完毕,正在运行了。

第一阶段顺利完成!03. Ollama 常用命令速查
场景 命令示例 备注 第一次下模型 ollama run qwen3:7b会自动先 pull 再运行,一步到位 只下载不运行 ollama pull llama3:8b适合提前囤模型 国内加速 ollama pull modelscope.cn/Qwen/Qwen3-7B-GGUF推荐!下文会细讲 查看本地库存 ollama list 或 ollama ls大小/ID/修改时间一目了然 删除省空间 ollama rm llama2:latest支持通配符,可写 llama2:*给模型改短名 ollama cp qwen3:7b q7后面直接 ollama run q7 方便调用查模型详情 ollama show q7参数量、量化层、标签全列出 04. 下载模型(解决网速慢的问题)
咱们的解决方案:使用阿里的 魔搭社区 (ModelScope)。Qwen3-0.6B-GGUF。注意:Ollama 目前主要支持 GGUF 格式,搜索时一定要带上这个后缀。

Qwen/Qwen3-0.6B-GGUF。
ollama pull modelscope.cn/Qwen/Qwen3-0.6B-GGUFollama pull hf.co/Qwen/Qwen3-0.6B-GGUFollama list 查看信息:NAME ID SIZE MODIFIED
modelscope.cn/Qwen/Qwen3-0.6B-GGUF:latest xxxxxxx xxx MB x ago05. 运行模型
ollama run modelscope.cn/Qwen/Qwen3-0.6B-GGUF。
看到交互界面后,咱们就可以愉快地跟大模型对话了。
06. 更改服务端口(进阶)
11434 上。如果咱们在自己的服务器上部署,为了安全或避免端口冲突,可以修改它。Windows 环境

Win + S,搜索“编辑账户环境变量”并打开。OLLAMA_HOST0.0.0.0:5656 (假设咱们想改到 5656 端口,0.0.0.0 表示允许所有网卡访问)。
http://localhost:5656,如果显示 Ollama is running 说明端口修改成功了。Linux 环境
sudo systemctl edit ollama.service[Service]
Environment="OLLAMA_HOST=0.0.0.0:5656"sudo systemctl daemon-reload
sudo systemctl restart ollama07. 在 Python 脚本中使用模型
pip install openaifrom openai import OpenAI
# 初始化客户端
client = OpenAI(
# 这里的端口号要对应咱们上面修改后的端口号,记得加上 /v1
base_url='http://localhost:5656/v1',
# Ollama 不需要真正的 Key,但这里随便填一个,不能留空
api_key='ollama',
)
# 发起对话请求
response = client.chat.completions.create(
# 填入咱们在 ollama list 中看到的模型名称
model="modelscope.cn/unsloth/Qwen3-0.6B-GGUF",
messages=[
{"role": "system", "content": "你是一个有用的助手。"},
{"role": "user", "content": "你好,请简单介绍一下你自己。"},
]
)
print(response.choices[0].message.content)08. 常见问题 (Q&A)
A:
A:Quit Ollama 只是临时关闭。要彻底关闭自启,请在 任务管理器 -> 启动应用 中找到 Ollama 并设为禁用。sudo systemctl disable ollama 关闭自启。ollama serve 即可。
A:
A:
A:
A: 一般来说模型的占用可以通过一个快速公式来计算:
模型显存占用 ≈ 参数量 × 0.70.6 × 0.7 ≈ 0.42GB。7 × 0.7 ≈ 4.9GB,咱们至少需要 6GB 显存。
A: Ollama 底层使用了 llama.cpp 技术。如果它检测到咱们没有显卡,会将模型权重从显存(VRAM)加载到 系统内存 (RAM) 中,使用 CPU 指令集进行计算。虽然速度比在显卡上慢,但让手机、普通轻薄本等设备也有了运行大模型的可能性。
本文链接: https://blog.algieba12.cn/run-our-own-model-on-pc/
版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!