2026年Ollama本地大模型部署教程:搭建你的私人AI助手

从零开始学习Ollama本地大模型部署,涵盖Windows、Mac、Linux安装教程,模型下载、API调用、自定义模型等完整指南,帮你搭建私人AI助手。

5 分钟阅读
提效录
2026年Ollama本地大模型部署教程:搭建你的私人AI助手

作为一名长期关注AI工具的开发者,我在过去两年里尝试了无数种本地运行大语言模型的方案。在众多工具中,Ollama无疑是我使用频率最高、也最推荐给新手的一款开源项目。

Ollama是一个开源的本地大模型运行框架,它让普通用户也能在自己的电脑上轻松运行Llama、Mistral、Qwen、DeepSeek等主流开源大模型。你不需要深厚的机器学习背景,也不需要复杂的配置,只需要几条命令就能拥有一个完全离线运行的AI助手。

截至2026年,Ollama已经支持超过200个开源模型,涵盖了从7B参数到405B参数的各种规格。它最大的优势在于:

  • 完全免费:开源MIT协议,商用无限制
  • 隐私安全:所有数据都在本地处理,不经过任何第三方服务器
  • 简单易用:一条命令安装,一条命令运行模型
  • 跨平台支持:Windows、macOS、Linux全面覆盖
  • API兼容:提供OpenAI兼容的API接口,方便集成到各种应用中

如果你正在寻找一种免费、安全、易用的方式来体验大语言模型,Ollama绝对是你的首选。在AI工具合集2026中,我也对Ollama做了重点推荐。

二、安装Ollama(Windows/Mac/Linux)

Windows安装

在Windows系统上安装Ollama非常简单。我建议你直接去官网 ollama.com 下载安装包:

  1. 访问 ollama.com/download,点击Windows版本的下载按钮
  2. 运行下载的 .exe 安装文件
  3. 按照向导提示完成安装
  4. 安装完成后,打开PowerShell或命令提示符,输入 ollama --version 验证安装

你也可以使用winget命令行安装:

winget install Ollama.Ollama

安装完成后,Ollama会自动在后台启动一个服务,监听默认的11434端口。

macOS安装

macOS用户可以通过Homebrew或者直接下载安装:

# 使用Homebrew安装
brew install ollama

# 或者直接下载安装包
# 访问 ollama.com/download 下载 .dmg 文件

安装完成后,你可以在应用程序文件夹中找到Ollama,或者直接在终端中使用 ollama 命令。

Linux安装

Linux用户可以使用官方提供的安装脚本:

curl -fsSL https://ollama.com/install.sh | sh

这个脚本会自动检测你的系统架构并安装对应的版本。安装完成后,Ollama会以systemd服务的形式在后台运行。

如果你的Linux系统有NVIDIA GPU,Ollama会自动检测并使用GPU加速。确保你已经安装了最新的NVIDIA驱动和CUDA工具包。

三、下载和选择模型

安装好Ollama后,下一步就是下载你想要运行的模型。Ollama支持的模型库非常丰富,你可以在 ollama.com/library 中浏览所有可用模型。

热门模型推荐

根据我的使用经验,以下是几个最值得尝试的模型:

模型名称参数量适用场景显存需求
llama3.18B通用对话、写作6GB
llama3.170B复杂推理、编程48GB
qwen2.57B中文对话、翻译6GB
qwen2.572B中文复杂任务50GB
deepseek-r17B推理、数学6GB
deepseek-r170B深度推理、分析48GB
mistral7B轻量级对话6GB
codellama7B代码生成6GB
gemma29B多语言对话8GB
phi33.8B低配置设备4GB

下载模型命令

下载模型只需要一条命令:

# 下载并运行Llama 3.1 8B模型
ollama run llama3.1

# 只下载不运行
ollama pull llama3.1

# 下载特定版本
ollama pull qwen2.5:7b
ollama pull deepseek-r1:7b

模型文件默认存储在以下位置:

  • Windows: C:\Users\<用户名>\.ollama\models
  • macOS: ~/.ollama/models
  • Linux: ~/.ollama/models

如果你想更改存储位置,可以设置 OLLAMA_MODELS 环境变量。

四、运行模型和交互

下载完成后,你就可以开始和AI对话了。在终端中输入:

ollama run llama3.1

Ollama会加载模型并进入交互模式。你可以直接输入你的问题,模型会实时生成回答。

常用交互命令

在交互模式中,你可以使用以下命令:

  • /bye - 退出交互模式
  • /show info - 显示模型信息
  • /show modelfile - 显示模型配置文件
  • /set temperature 0.7 - 设置生成温度
  • /set system "你是一个中文助手" - 设置系统提示词

多轮对话

Ollama原生支持多轮对话。在一次会话中,模型会记住之前的对话内容:

>>> 请用中文解释什么是机器学习
>>> 能举个具体的例子吗?
>>> 那深度学习和机器学习有什么区别?

每次对话都会自动保存上下文,模型能理解你之前提到的内容。

五、API调用

Ollama提供了与OpenAI兼容的API接口,这对于开发者来说非常重要。你可以用它来构建自己的AI应用,也可以将它集成到现有的工作流中。

启动API服务

Ollama安装后默认会启动API服务,监听 http://localhost:11434

基本API调用

import requests
import json

url = "http://localhost:11434/api/chat"
data = {
    "model": "llama3.1",
    "messages": [
        {"role": "user", "content": "请用中文解释什么是API"}
    ],
    "stream": False
}

response = requests.post(url, json=data)
result = response.json()
print(result["message"]["content"])

OpenAI兼容接口

Ollama还提供了与OpenAI完全兼容的API端点 http://localhost:11434/v1,这意味着你可以直接使用OpenAI的Python SDK:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意字符串即可
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "user", "content": "写一首关于春天的诗"}
    ]
)

print(response.choices[0].message.content)

这种兼容性使得你可以轻松地将现有的OpenAI应用迁移到本地部署。更多关于AI编程工具的信息,可以参考2026年AI编程工具推荐

六、自定义模型

Ollama允许你基于现有模型创建自定义版本,这对于特定场景的优化非常有用。

创建Modelfile

创建一个名为 Modelfile 的文件:

FROM llama3.1

# 设置系统提示词
SYSTEM "你是一个专业的Python编程导师,擅长用通俗易懂的方式解释复杂的编程概念。"

# 设置参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096

# 设置停止词
PARAMETER stop "用户:"

构建自定义模型

# 基于Modelfile创建自定义模型
ollama create my-python-tutor -f Modelfile

# 运行自定义模型
ollama run my-python-tutor

常用自定义场景

我经常会创建以下几种自定义模型:

  1. 编程助手:设置系统提示词为编程专家,专注于代码相关的问题
  2. 翻译工具:设置为专业翻译角色,支持多语言互译
  3. 写作助手:设置为文案编辑角色,帮助润色和改写文章
  4. 学习辅导:设置为教师角色,用循序渐进的方式解答问题

七、Ollama与LM Studio对比

很多用户在选择本地大模型工具时,会在Ollama和LM Studio之间犹豫。我两个工具都长期使用了,下面是我的详细对比:

对比维度OllamaLM Studio
界面类型命令行CLI图形界面GUI
安装难度非常简单非常简单
模型来源官方模型库HuggingFace
模型格式GGUF(内置)GGUF
API支持原生支持需要手动开启
OpenAI兼容完整支持部分支持
资源占用轻量级较重量级
GPU支持自动检测手动配置
多模型切换命令行切换界面点选
自定义模型Modelfile参数面板
量化支持自动处理手动选择
社区生态非常丰富较丰富

我的建议:如果你喜欢命令行操作和编程集成,选择Ollama;如果你更喜欢图形界面和直观的操作体验,选择LM Studio。两者可以并存,不冲突。

详细的LM Studio教程可以参考2026年LM Studio教程中的相关章节。

八、常见问题解答(FAQ)

Q1:Ollama运行模型需要多大的内存?

一般来说,7B参数的模型需要至少8GB内存(或6GB显存),13B模型需要16GB内存,70B模型需要64GB以上内存。如果你使用量化版本(如Q4_K_M),内存需求可以降低30-50%。建议优先使用量化模型以获得更好的性能。

Q2:没有GPU可以运行Ollama吗?

完全可以。Ollama支持CPU推理,只是速度会比GPU慢很多。对于7B模型,在普通CPU上每秒大约能生成5-10个token,日常使用基本够用。如果你有GPU,Ollama会自动检测并使用GPU加速,速度可以提升5-10倍。

Q3:如何在局域网内共享Ollama服务?

默认情况下Ollama只监听localhost。如果你想让局域网内的其他设备也能访问,需要设置环境变量 OLLAMA_HOST=0.0.0.0:11434,然后重启Ollama服务。注意做好访问控制,避免未授权访问。

Q4:Ollama下载的模型文件可以备份和迁移吗?

可以的。模型文件存储在 .ollama/models 目录下,你可以将整个目录复制到新设备的相同位置。Ollama会自动识别已下载的模型,不需要重新下载。这在重装系统或更换电脑时非常实用。


以上就是Ollama本地大模型部署的完整教程。无论你是想保护隐私、节省API费用,还是纯粹出于技术兴趣,Ollama都是一个值得深入学习的工具。如果你还想了解更多本地部署方案,可以查看AI本地部署完全指南获取更多进阶内容。

分享文章:

常见问题

Ollama本地大模型部署教程零基础能学会吗?
完全可以。文中从零开始逐步讲解,配有详细截图和操作步骤,新手也能轻松跟上。
学Ollama本地大模型部署教程需要花钱吗?
核心功能大多免费,部分高级功能需要订阅,文中标注了每项功能的免费和付费情况。
学完Ollama本地大模型部署教程能达到什么水平?
学完可以独立完成实际项目,文中包含实战案例和进阶建议,帮你从入门到熟练。

相关文章