Ollama本地大模型部署教程零基础能学会吗？

完全可以。文中从零开始逐步讲解，配有详细截图和操作步骤，新手也能轻松跟上。

学Ollama本地大模型部署教程需要花钱吗？

核心功能大多免费，部分高级功能需要订阅，文中标注了每项功能的免费和付费情况。

学完Ollama本地大模型部署教程能达到什么水平？

学完可以独立完成实际项目，文中包含实战案例和进阶建议，帮你从入门到熟练。

2026年Ollama本地大模型部署教程：搭建你的私人AI助手

作为一名长期关注AI工具的开发者，我在过去两年里尝试了无数种本地运行大语言模型的方案。在众多工具中，Ollama无疑是我使用频率最高、也最推荐给新手的一款开源项目。

Ollama是一个开源的本地大模型运行框架，它让普通用户也能在自己的电脑上轻松运行Llama、Mistral、Qwen、DeepSeek等主流开源大模型。你不需要深厚的机器学习背景，也不需要复杂的配置，只需要几条命令就能拥有一个完全离线运行的AI助手。

截至2026年，Ollama已经支持超过200个开源模型，涵盖了从7B参数到405B参数的各种规格。它最大的优势在于：

完全免费：开源MIT协议，商用无限制
隐私安全：所有数据都在本地处理，不经过任何第三方服务器
简单易用：一条命令安装，一条命令运行模型
跨平台支持：Windows、macOS、Linux全面覆盖
API兼容：提供OpenAI兼容的API接口，方便集成到各种应用中

如果你正在寻找一种免费、安全、易用的方式来体验大语言模型，Ollama绝对是你的首选。在AI工具合集2026中，我也对Ollama做了重点推荐。

二、安装Ollama（Windows/Mac/Linux）

Windows安装

在Windows系统上安装Ollama非常简单。我建议你直接去官网 ollama.com 下载安装包：

访问 ollama.com/download，点击Windows版本的下载按钮
运行下载的 .exe 安装文件
按照向导提示完成安装
安装完成后，打开PowerShell或命令提示符，输入 ollama --version 验证安装

你也可以使用winget命令行安装：

winget install [Ollama](/tool/kw-c23e8db4).Ollama

安装完成后，Ollama会自动在后台启动一个服务，监听默认的11434端口。

macOS安装

macOS用户可以通过Homebrew或者直接下载安装：

# 使用Homebrew安装
brew install ollama

# 或者直接下载安装包
# 访问 ollama.com/download 下载 .dmg 文件

安装完成后，你可以在应用程序文件夹中找到Ollama，或者直接在终端中使用 ollama 命令。

Linux安装

Linux用户可以使用官方提供的安装脚本：

curl -fsSL https://ollama.com/install.sh | sh

这个脚本会自动检测你的系统架构并安装对应的版本。安装完成后，Ollama会以systemd服务的形式在后台运行。

如果你的Linux系统有NVIDIA GPU，Ollama会自动检测并使用GPU加速。确保你已经安装了最新的NVIDIA驱动和CUDA工具包。

三、下载和选择模型

安装好Ollama后，下一步就是下载你想要运行的模型。Ollama支持的模型库非常丰富，你可以在 ollama.com/library 中浏览所有可用模型。

模型名称	参数量	适用场景	显存需求
llama3.1	8B	通用对话、写作	6GB
llama3.1	70B	复杂推理、编程	48GB
qwen2.5	7B	中文对话、翻译	6GB
qwen2.5	72B	中文复杂任务	50GB
deepseek-r1	7B	推理、数学	6GB
deepseek-r1	70B	深度推理、分析	48GB
mistral	7B	轻量级对话	6GB
codellama	7B	代码生成	6GB
gemma2	9B	多语言对话	8GB
phi3	3.8B	低配置设备	4GB

下载模型命令

下载模型只需要一条命令：

# 下载并运行Llama 3.1 8B模型
ollama run llama3.1

# 只下载不运行
ollama pull llama3.1

# 下载特定版本
ollama pull qwen2.5:7b
ollama pull deepseek-r1:7b

模型文件默认存储在以下位置：

Windows: C:\Users\<用户名>\.ollama\models
macOS: ~/.ollama/models
Linux: ~/.ollama/models

如果你想更改存储位置，可以设置 OLLAMA_MODELS 环境变量。

四、运行模型和交互

下载完成后，你就可以开始和AI对话了。在终端中输入：

ollama run llama3.1

Ollama会加载模型并进入交互模式。你可以直接输入你的问题，模型会实时生成回答。

常用交互命令

在交互模式中，你可以使用以下命令：

/bye - 退出交互模式
/show info - 显示模型信息
/show modelfile - 显示模型配置文件
/set temperature 0.7 - 设置生成温度
/set system "你是一个中文助手" - 设置系统提示词

多轮对话

Ollama原生支持多轮对话。在一次会话中，模型会记住之前的对话内容：

>>> 请用中文解释什么是机器学习
>>> 能举个具体的例子吗？
>>> 那深度学习和机器学习有什么区别？

每次对话都会自动保存上下文，模型能理解你之前提到的内容。

五、API调用

Ollama提供了与OpenAI兼容的API接口，这对于开发者来说非常重要。你可以用它来构建自己的AI应用，也可以将它集成到现有的工作流中。

启动API服务

Ollama安装后默认会启动API服务，监听 http://localhost:11434。

基本API调用

import requests
import json

url = "http://localhost:11434/api/chat"
data = {
    "model": "llama3.1",
    "messages": [
        {"role": "user", "content": "请用中文解释什么是API"}
    ],
    "stream": False
}

response = requests.post(url, json=data)
result = response.json()
print(result["message"]["content"])

OpenAI兼容接口

Ollama还提供了与OpenAI完全兼容的API端点 http://localhost:11434/v1，这意味着你可以直接使用OpenAI的Python SDK：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意字符串即可
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "user", "content": "写一首关于春天的诗"}
    ]
)

print(response.choices[0].message.content)

这种兼容性使得你可以轻松地将现有的OpenAI应用迁移到本地部署。更多关于AI编程工具的信息，可以参考2026年AI编程工具推荐。

六、自定义模型

Ollama允许你基于现有模型创建自定义版本，这对于特定场景的优化非常有用。

创建Modelfile

创建一个名为 Modelfile 的文件：

FROM llama3.1

# 设置系统提示词
SYSTEM "你是一个专业的Python编程导师，擅长用通俗易懂的方式解释复杂的编程概念。"

# 设置参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096

# 设置停止词
PARAMETER stop "用户:"

构建自定义模型

# 基于Modelfile创建自定义模型
ollama create my-python-tutor -f Modelfile

# 运行自定义模型
ollama run my-python-tutor

常用自定义场景

我经常会创建以下几种自定义模型：

编程助手：设置系统提示词为编程专家，专注于代码相关的问题
翻译工具：设置为专业翻译角色，支持多语言互译
写作助手：设置为文案编辑角色，帮助润色和改写文章
学习辅导：设置为教师角色，用循序渐进的方式解答问题

七、Ollama与LM Studio对比

很多用户在选择本地大模型工具时，会在Ollama和LM Studio之间犹豫。我两个工具都长期使用了，下面是我的详细对比：

对比维度	Ollama	LM Studio
界面类型	命令行CLI	图形界面GUI
安装难度	非常简单	非常简单
模型来源	官方模型库	HuggingFace
模型格式	GGUF(内置)	GGUF
API支持	原生支持	需要手动开启
OpenAI兼容	完整支持	部分支持
资源占用	轻量级	较重量级
GPU支持	自动检测	手动配置
多模型切换	命令行切换	界面点选
自定义模型	Modelfile	参数面板
量化支持	自动处理	手动选择
社区生态	非常丰富	较丰富

我的建议：如果你喜欢命令行操作和编程集成，选择Ollama；如果你更喜欢图形界面和直观的操作体验，选择LM Studio。两者可以并存，不冲突。

详细的LM Studio教程可以参考Ollama本地部署AI模型中的相关章节。

八、常见问题解答（FAQ）

Q1：Ollama运行模型需要多大的内存？

一般来说，7B参数的模型需要至少8GB内存（或6GB显存），13B模型需要16GB内存，70B模型需要64GB以上内存。如果你使用量化版本（如Q4_K_M），内存需求可以降低30-50%。建议优先使用量化模型以获得更好的性能。

Q2：没有GPU可以运行Ollama吗？

完全可以。Ollama支持CPU推理，只是速度会比GPU慢很多。对于7B模型，在普通CPU上每秒大约能生成5-10个token，日常使用基本够用。如果你有GPU，Ollama会自动检测并使用GPU加速，速度可以提升5-10倍。

Q3：如何在局域网内共享Ollama服务？

默认情况下Ollama只监听localhost。如果你想让局域网内的其他设备也能访问，需要设置环境变量 OLLAMA_HOST=0.0.0.0:11434，然后重启Ollama服务。注意做好访问控制，避免未授权访问。

Q4：Ollama下载的模型文件可以备份和迁移吗？

可以的。模型文件存储在 .ollama/models 目录下，你可以将整个目录复制到新设备的相同位置。Ollama会自动识别已下载的模型，不需要重新下载。这在重装系统或更换电脑时非常实用。

以上就是Ollama本地大模型部署的完整教程。无论你是想保护隐私、节省API费用，还是纯粹出于技术兴趣，Ollama都是一个值得深入学习的工具。如果你还想了解更多本地部署方案，可以查看AI本地部署完全指南获取更多进阶内容。