作为一名长期关注AI工具的开发者,我在过去两年里尝试了无数种本地运行大语言模型的方案。在众多工具中,Ollama无疑是我使用频率最高、也最推荐给新手的一款开源项目。
Ollama是一个开源的本地大模型运行框架,它让普通用户也能在自己的电脑上轻松运行Llama、Mistral、Qwen、DeepSeek等主流开源大模型。你不需要深厚的机器学习背景,也不需要复杂的配置,只需要几条命令就能拥有一个完全离线运行的AI助手。
截至2026年,Ollama已经支持超过200个开源模型,涵盖了从7B参数到405B参数的各种规格。它最大的优势在于:
- 完全免费:开源MIT协议,商用无限制
- 隐私安全:所有数据都在本地处理,不经过任何第三方服务器
- 简单易用:一条命令安装,一条命令运行模型
- 跨平台支持:Windows、macOS、Linux全面覆盖
- API兼容:提供OpenAI兼容的API接口,方便集成到各种应用中
如果你正在寻找一种免费、安全、易用的方式来体验大语言模型,Ollama绝对是你的首选。在AI工具合集2026中,我也对Ollama做了重点推荐。
二、安装Ollama(Windows/Mac/Linux)
Windows安装
在Windows系统上安装Ollama非常简单。我建议你直接去官网 ollama.com 下载安装包:
- 访问 ollama.com/download,点击Windows版本的下载按钮
- 运行下载的
.exe安装文件 - 按照向导提示完成安装
- 安装完成后,打开PowerShell或命令提示符,输入
ollama --version验证安装
你也可以使用winget命令行安装:
winget install Ollama.Ollama
安装完成后,Ollama会自动在后台启动一个服务,监听默认的11434端口。
macOS安装
macOS用户可以通过Homebrew或者直接下载安装:
# 使用Homebrew安装
brew install ollama
# 或者直接下载安装包
# 访问 ollama.com/download 下载 .dmg 文件
安装完成后,你可以在应用程序文件夹中找到Ollama,或者直接在终端中使用 ollama 命令。
Linux安装
Linux用户可以使用官方提供的安装脚本:
curl -fsSL https://ollama.com/install.sh | sh
这个脚本会自动检测你的系统架构并安装对应的版本。安装完成后,Ollama会以systemd服务的形式在后台运行。
如果你的Linux系统有NVIDIA GPU,Ollama会自动检测并使用GPU加速。确保你已经安装了最新的NVIDIA驱动和CUDA工具包。
三、下载和选择模型
安装好Ollama后,下一步就是下载你想要运行的模型。Ollama支持的模型库非常丰富,你可以在 ollama.com/library 中浏览所有可用模型。
热门模型推荐
根据我的使用经验,以下是几个最值得尝试的模型:
| 模型名称 | 参数量 | 适用场景 | 显存需求 |
|---|---|---|---|
| llama3.1 | 8B | 通用对话、写作 | 6GB |
| llama3.1 | 70B | 复杂推理、编程 | 48GB |
| qwen2.5 | 7B | 中文对话、翻译 | 6GB |
| qwen2.5 | 72B | 中文复杂任务 | 50GB |
| deepseek-r1 | 7B | 推理、数学 | 6GB |
| deepseek-r1 | 70B | 深度推理、分析 | 48GB |
| mistral | 7B | 轻量级对话 | 6GB |
| codellama | 7B | 代码生成 | 6GB |
| gemma2 | 9B | 多语言对话 | 8GB |
| phi3 | 3.8B | 低配置设备 | 4GB |
下载模型命令
下载模型只需要一条命令:
# 下载并运行Llama 3.1 8B模型
ollama run llama3.1
# 只下载不运行
ollama pull llama3.1
# 下载特定版本
ollama pull qwen2.5:7b
ollama pull deepseek-r1:7b
模型文件默认存储在以下位置:
- Windows:
C:\Users\<用户名>\.ollama\models - macOS:
~/.ollama/models - Linux:
~/.ollama/models
如果你想更改存储位置,可以设置 OLLAMA_MODELS 环境变量。
四、运行模型和交互
下载完成后,你就可以开始和AI对话了。在终端中输入:
ollama run llama3.1
Ollama会加载模型并进入交互模式。你可以直接输入你的问题,模型会实时生成回答。
常用交互命令
在交互模式中,你可以使用以下命令:
/bye- 退出交互模式/show info- 显示模型信息/show modelfile- 显示模型配置文件/set temperature 0.7- 设置生成温度/set system "你是一个中文助手"- 设置系统提示词
多轮对话
Ollama原生支持多轮对话。在一次会话中,模型会记住之前的对话内容:
>>> 请用中文解释什么是机器学习
>>> 能举个具体的例子吗?
>>> 那深度学习和机器学习有什么区别?
每次对话都会自动保存上下文,模型能理解你之前提到的内容。
五、API调用
Ollama提供了与OpenAI兼容的API接口,这对于开发者来说非常重要。你可以用它来构建自己的AI应用,也可以将它集成到现有的工作流中。
启动API服务
Ollama安装后默认会启动API服务,监听 http://localhost:11434。
基本API调用
import requests
import json
url = "http://localhost:11434/api/chat"
data = {
"model": "llama3.1",
"messages": [
{"role": "user", "content": "请用中文解释什么是API"}
],
"stream": False
}
response = requests.post(url, json=data)
result = response.json()
print(result["message"]["content"])
OpenAI兼容接口
Ollama还提供了与OpenAI完全兼容的API端点 http://localhost:11434/v1,这意味着你可以直接使用OpenAI的Python SDK:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 任意字符串即可
)
response = client.chat.completions.create(
model="llama3.1",
messages=[
{"role": "user", "content": "写一首关于春天的诗"}
]
)
print(response.choices[0].message.content)
这种兼容性使得你可以轻松地将现有的OpenAI应用迁移到本地部署。更多关于AI编程工具的信息,可以参考2026年AI编程工具推荐。
六、自定义模型
Ollama允许你基于现有模型创建自定义版本,这对于特定场景的优化非常有用。
创建Modelfile
创建一个名为 Modelfile 的文件:
FROM llama3.1
# 设置系统提示词
SYSTEM "你是一个专业的Python编程导师,擅长用通俗易懂的方式解释复杂的编程概念。"
# 设置参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
# 设置停止词
PARAMETER stop "用户:"
构建自定义模型
# 基于Modelfile创建自定义模型
ollama create my-python-tutor -f Modelfile
# 运行自定义模型
ollama run my-python-tutor
常用自定义场景
我经常会创建以下几种自定义模型:
- 编程助手:设置系统提示词为编程专家,专注于代码相关的问题
- 翻译工具:设置为专业翻译角色,支持多语言互译
- 写作助手:设置为文案编辑角色,帮助润色和改写文章
- 学习辅导:设置为教师角色,用循序渐进的方式解答问题
七、Ollama与LM Studio对比
很多用户在选择本地大模型工具时,会在Ollama和LM Studio之间犹豫。我两个工具都长期使用了,下面是我的详细对比:
| 对比维度 | Ollama | LM Studio |
|---|---|---|
| 界面类型 | 命令行CLI | 图形界面GUI |
| 安装难度 | 非常简单 | 非常简单 |
| 模型来源 | 官方模型库 | HuggingFace |
| 模型格式 | GGUF(内置) | GGUF |
| API支持 | 原生支持 | 需要手动开启 |
| OpenAI兼容 | 完整支持 | 部分支持 |
| 资源占用 | 轻量级 | 较重量级 |
| GPU支持 | 自动检测 | 手动配置 |
| 多模型切换 | 命令行切换 | 界面点选 |
| 自定义模型 | Modelfile | 参数面板 |
| 量化支持 | 自动处理 | 手动选择 |
| 社区生态 | 非常丰富 | 较丰富 |
我的建议:如果你喜欢命令行操作和编程集成,选择Ollama;如果你更喜欢图形界面和直观的操作体验,选择LM Studio。两者可以并存,不冲突。
详细的LM Studio教程可以参考2026年LM Studio教程中的相关章节。
八、常见问题解答(FAQ)
Q1:Ollama运行模型需要多大的内存?
一般来说,7B参数的模型需要至少8GB内存(或6GB显存),13B模型需要16GB内存,70B模型需要64GB以上内存。如果你使用量化版本(如Q4_K_M),内存需求可以降低30-50%。建议优先使用量化模型以获得更好的性能。
Q2:没有GPU可以运行Ollama吗?
完全可以。Ollama支持CPU推理,只是速度会比GPU慢很多。对于7B模型,在普通CPU上每秒大约能生成5-10个token,日常使用基本够用。如果你有GPU,Ollama会自动检测并使用GPU加速,速度可以提升5-10倍。
Q3:如何在局域网内共享Ollama服务?
默认情况下Ollama只监听localhost。如果你想让局域网内的其他设备也能访问,需要设置环境变量 OLLAMA_HOST=0.0.0.0:11434,然后重启Ollama服务。注意做好访问控制,避免未授权访问。
Q4:Ollama下载的模型文件可以备份和迁移吗?
可以的。模型文件存储在 .ollama/models 目录下,你可以将整个目录复制到新设备的相同位置。Ollama会自动识别已下载的模型,不需要重新下载。这在重装系统或更换电脑时非常实用。
以上就是Ollama本地大模型部署的完整教程。无论你是想保护隐私、节省API费用,还是纯粹出于技术兴趣,Ollama都是一个值得深入学习的工具。如果你还想了解更多本地部署方案,可以查看AI本地部署完全指南获取更多进阶内容。