大模型本地部署教程Ollama零基础能学会吗？

完全可以。文中从零开始逐步讲解，配有详细截图和操作步骤，新手也能轻松跟上。

学大模型本地部署教程Ollama需要花钱吗？

核心功能大多免费，部分高级功能需要订阅，文中标注了每项功能的免费和付费情况。

学完大模型本地部署教程Ollama能达到什么水平？

学完可以独立完成实际项目，文中包含实战案例和进阶建议，帮你从入门到熟练。

大模型本地部署教程：Ollama从零上手指南

引言：为什么要本地部署大模型？

随着大语言模型的普及，越来越多的人开始关注一个问题：我的数据真的安全吗？ 当你把公司内部文档、客户信息、个人隐私数据发给云端API时，这些数据可能已经被用于模型训练或被第三方访问。

去年我在一家做金融数据的公司实习，老板严禁我们把任何客户数据传到外部API。但工作中确实需要AI帮忙做数据分析和报告生成，怎么办？后来我发现了Ollama，在本地跑大模型，数据完全不出公司内网，老板终于放心了。

本地部署大模型有四大核心优势：

隐私安全：所有数据留在本机，不经过任何第三方服务器
离线可用：没有网络也能正常使用，适合飞机、地铁等场景
零成本：开源模型完全免费，无需按token付费
自由定制：可以微调模型、修改系统提示词，打造专属助手

如果你还不了解AI Agent的概念，建议先阅读什么是AI Agent？，有助于理解本文中的部分应用场景。

Ollama简介

Ollama是一个开源的本地大模型运行工具，让你像使用Docker拉取镜像一样，一条命令就能下载并运行大语言模型。它基于llama.cpp构建，支持GPU加速，兼容Mac、Linux和Windows三大平台。

大模型本地部署教程：Ollama从零上手指南 - 配图1

我第一次用Ollama的时候真的被惊艳到了——以前在本地跑大模型需要折腾Python环境、安装CUDA驱动、下载模型权重、配置推理框架，少说也要半天时间。Ollama把这些全部封装好了，从安装到对话，10分钟搞定。

核心优势：

一键安装，零配置即可运行，不需要手动下载模型权重或配置推理框架
支持主流开源模型（Llama 3、Qwen2、DeepSeek等），而且模型库在持续增长
内置HTTP API，方便与各种前端工具集成，开发者可以直接调用
自动管理模型下载、缓存和版本，你不需要关心文件放在哪里
跨平台支持（Mac/Linux/Windows），三个主流系统都覆盖到了
社区活跃，遇到问题很容易在网上找到解决方案

安装Ollama

Mac


![大模型本地部署教程：Ollama从零上手指南 - 配图2](/images/inline/ollama-guide/img-2.webp)
brew install ollama
ollama serve  # 启动服务（macOS应用版会自动启动）

也可以直接访问ollama.com下载macOS应用程序，双击安装即可。我用的就是Mac M2，安装后自动使用Metal加速，跑7B模型速度飞快，每秒能生成25-30个token，和ChatGPT的体验差距不大。

Linux

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，Ollama会自动作为系统服务启动。可以通过以下命令验证安装是否成功：

ollama --version

如果看到版本号输出，说明安装成功了。Linux用户如果需要让Ollama开机自动启动，可以执行sudo systemctl enable ollama命令来设置系统服务。

Windows

访问ollama.com/download下载Windows安装包，安装后会在系统托盘运行。Windows用户如果有NVIDIA显卡，安装时会自动检测并启用CUDA加速，不需要额外配置。安装完成后打开命令提示符输入ollama --version验证即可。

下载和运行模型

安装完成后，下载模型只需一条命令：

大模型本地部署教程：Ollama从零上手指南 - 配图3

# 下载Llama 3模型（约4.7GB）
ollama pull llama3

# 直接运行模型（会自动下载）
ollama run llama3

进入交互模式后，就可以直接对话了：

>>> 用一句话解释什么是机器学习
机器学习是让计算机从数据中自动学习规律，而不需要显式编程的技术。

模型	用途	大小	最低内存	推荐场景
llama3:8b	通用对话	4.7GB	8GB	英文对话和通用问答
qwen2:7b	中文场景首选	4.4GB	8GB	中文写作和问答
deepseek-coder:6.7b	编程辅助	3.8GB	8GB	代码生成和调试
phi3:mini	轻量级	2.3GB	4GB	低配电脑入门
llama3:70b	高质量推理	40GB	64GB	高配机器深度使用

API调用

Ollama启动后会在本地11434端口提供HTTP API，可以轻松集成到你的应用中。这个设计非常贴心——你不需要自己搭服务器，Ollama已经帮你做好了。

cURL调用

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "解释什么是深度学习",
  "stream": false
}'

Python调用（兼容OpenAI格式）

Ollama兼容OpenAI API格式，这意味着你可以直接复用已有的OpenAI代码：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意值即可
)

response = client.chat.completions.create(
    model="llama3",
    messages=[
        {"role": "system", "content": "你是一个有帮助的AI助手"},
        {"role": "user", "content": "用Python写一个快速排序"}
    ]
)

print(response.choices[0].message.content)

这种方式的好处是：你可以无缝切换云端和本地模型，代码几乎不需要修改。我之前写的一个AI小工具，原本接的是OpenAI的API，后来把base_url改成localhost:11434就自动切换到本地模型了，一行多余的代码都不用改。

搭建私有ChatGPT：Ollama + Open WebUI

虽然命令行够酷，但大多数人更习惯图形界面。Open WebUI是一个开源的ChatGPT风格前端，搭配Ollama使用体验极佳。

想深入了解ChatGPT？可以参考我们的ChatGPT完整教程。

Docker一键部署

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

启动后访问http://localhost:3000，注册一个本地账户即可使用。

界面功能

类ChatGPT的对话界面，支持Markdown渲染和代码高亮
多模型切换：在设置中切换不同已下载的模型
对话历史管理：支持搜索、导出、删除
知识库上传：支持RAG（检索增强生成），你可以上传公司文档让模型基于内部资料回答
多用户管理：适合团队内部部署，每个用户有自己的对话空间

我在公司部署了一套Ollama + Open WebUI，同事们都用来查内部文档和写周报。因为数据全部在内网，信息安全部门完全没意见。如果你想了解更多AI自动化工作流的搭建方法，推荐阅读2026年AI编程工具推荐。

另外推荐看看我们的AI编程使用教程，讲得很详细。

与开发工具集成

VS Code + Continue插件

Continue是一个开源的VS Code AI编程助手插件，支持接入Ollama作为后端：

在VS Code中安装Continue插件
打开设置，添加Ollama模型配置：

{
  "models": [
    {
      "title": "[Ollama](/tool/kw-c23e8db4) DeepSeek Coder",
      "provider": "ollama",
      "model": "deepseek-coder:6.7b"
    }
  ]
}

配置完成后，你可以在VS Code中享受代码补全、解释代码、生成测试等功能，且完全本地运行。我用这套组合写Python脚本的时候体验非常好，代码补全速度快，而且因为是本地模型，公司代码不用担心泄露。更多关于AI编程工具的信息可以看 Copilot替代品评测。

n8n自动化工作流

Ollama的API可以与n8n等自动化工具集成，实现：

邮件自动分类和回复
文档自动摘要和归档
客服工单自动处理

在n8n中使用HTTP Request节点，配置Ollama的API端点即可。

自定义Modelfile

你可以通过Modelfile创建定制化的模型，类似于写Dockerfile：

FROM llama3

SYSTEM "你是一个资深的Python开发工程师，回答简洁专业。"

PARAMETER temperature 0.7
PARAMETER top_p 0.9

保存为Modelfile后，创建自定义模型：

ollama create my-python-expert -f Modelfile
ollama run my-python-expert

对AI工具链协议感兴趣？查看MCP协议完全指南了解如何让AI工具之间无缝协作。

进阶技巧

1. 多模型并行管理

Ollama支持同时下载多个模型。你可以用ollama list查看所有已下载的模型，用ollama run 模型名随时切换。建议至少下载一个通用模型（llama3或qwen2）和一个代码模型（deepseek-coder），覆盖日常使用和编程辅助两个场景。

2. 调整生成参数优化输出质量

默认参数不一定适合所有场景。写创意内容时把temperature调高到0.9，写技术文档时调低到0.3。在Modelfile里设置PARAMETER temperature 0.3即可。

3. 利用System Prompt定制专家角色

别小看System Prompt的作用。我测试过，同样的问题，设不设System Prompt回答质量差距很大。比如让它”作为一个有10年经验的Python工程师回答”，写出来的代码明显更规范、注释更完善。

4. 定期更新模型版本

开源模型更新很快，隔一段时间ollama pull 模型名拉取最新版本，通常会有明显的效果提升。我上个月更新了qwen2，新版本在中文长文本总结上比旧版好了不少。

5. 搭配RAG实现私有知识库

把你的笔记、工作文档、技术手册上传到Open WebUI的知识库，模型就能基于你的私有资料回答问题。这个功能特别适合团队内部使用——新员工可以直接问AI”公司的报销流程是什么”，AI从内部文档里找到答案回答，比翻Wiki快多了。

性能优化

性能优化是本地部署大模型绕不开的话题。我第一次在老笔记本上跑llama3的时候，一个字一个字往外蹦，看得我着急死了。后来换了带显卡的台式机，体验完全不同。下面分享一些我摸索出来的优化经验。

GPU加速

Ollama会自动检测并使用可用的GPU：

NVIDIA：需要安装CUDA驱动，支持RTX 20系列及以上。我用RTX 3060 12GB跑7B模型，每秒能生成35-40个token，速度和ChatGPT差不多。
AMD：需要ROCm驱动，支持RX 6000系列及以上
Mac：M1/M2/M3芯片自动使用Metal加速，效果非常好。Mac M2 Air跑qwen2:7b可以达到每秒25个token左右

验证GPU是否被使用：

# NVIDIA
nvidia-smi

# 查看Ollama运行日志
ollama run llama3 --verbose

模型量化

量化可以显著降低内存需求，同时保持较好的效果。推荐使用Q4_K_M量化版本。量化后的模型体积大概缩小到原来的四分之一，但效果损失很小——我自己对比过全精度和Q4量化的llama3，日常对话几乎看不出区别：

# 使用量化版本（默认大部分模型已经是Q4量化）
ollama pull llama3:8b-instruct-q4_K_M

内存优化技巧

关闭不使用的模型：ollama stop llama3。很多人不知道这个命令，用完一个模型后它还会继续占用内存，记得手动停掉。
设置模型保持时间：OLLAMA_KEEP_ALIVE=5m ollama serve，这样模型空闲5分钟后会自动卸载，释放内存。
小内存用户选择Phi-3 mini（3.8B）或Gemma 2B
避免同时加载多个模型，切换模型时前一个会自动卸载，但如果你的内存不够大，建议用完一个再切另一个
关闭不必要的后台程序，给Ollama留足内存空间

实际应用场景分享

光讲技术不够，我分享几个自己和身边朋友用Ollama解决实际问题的案例，让你更直观地了解它能干什么。

场景一：公司内部知识库问答

我们公司有大量的内部文档（产品手册、技术文档、流程规范），以前新员工入职需要花两周时间翻文档。我在内网服务器上部署了Ollama加Open WebUI，把所有文档上传到知识库，现在新员工可以直接问AI”请假流程怎么走""XX产品的API接口文档在哪里”，几秒钟就能得到准确答案。整个部门的工作效率提升了不少。

场景二：写周报和工作总结

每周五下午是我最讨厌的时间——写周报。现在我让Ollama本地的qwen2模型帮我写。我把这周做的事情列出来（几行关键词就行），让它帮我扩写成一份完整的周报。因为是在本地运行，公司项目的名称、客户的信息都可以放心写进去，不用担心泄露。

场景三：离线环境编程辅助

我有个朋友在军工单位工作，那里完全断网。以前遇到问题只能翻书或者查离线文档，现在他在内网电脑上跑了Ollama加deepseek-coder，写代码的时候有个AI助手随时可以问，幸福感直线上升。他说这比他之前用的任何工具都好用。

场景四：个人日记和情感树洞

有些人不愿意把自己的心事发到网上或者告诉别人，但又需要一个”倾听者”。本地的AI模型完美解决了这个问题——你可以把最私密的想法告诉它，它不会保存、不会上传、不会评判你。我知道有人每天睡前和Ollama跑的小模型聊半小时，比写日记更有互动感。

场景五：学生学习和考试辅助

考研的同学可以把自己的复习资料上传到知识库，然后让AI出题考自己。学英语的同学可以让llama3做口语陪练（搭配文字对话），遇到不理解的语法让它详细解释。关键是完全免费，不限次数，想问多少问多少。

常见问题与排错

Q: 运行模型时提示内存不足？ A: 尝试使用更小的模型（如phi3:mini），或使用量化版本（q4_0、q4_K_M）。

Q: GPU没有被利用？ A: 确认已安装正确的GPU驱动。NVIDIA用户运行nvidia-smi检查驱动版本，CUDA版本需>=11.8。

Q: 模型生成速度很慢？ A: 纯CPU推理速度确实较慢（约5-10 tokens/s），建议使用GPU或选择更小的模型。Mac M系列芯片表现优秀，可达20-40 tokens/s。

Q: 如何更新模型？ A: 重新执行ollama pull 模型名即可拉取最新版本。

Q: API连接失败？ A: 确认Ollama服务正在运行（ollama serve），默认监听127.0.0.1:11434。如需远程访问，设置环境变量OLLAMA_HOST=0.0.0.0。

常见问题FAQ

Q1：Ollama和直接用ChatGPT有什么区别？

最大的区别是数据隐私和离线使用。ChatGPT的数据要经过OpenAI的服务器，而Ollama完全在你自己的电脑上运行。另外Ollama是免费的，不存在按token计费的问题。但在模型能力上，7B到13B的本地模型确实比GPT-4弱不少，适合日常辅助而非高难度任务。我的使用习惯是：简单问题问本地模型，复杂问题还是找ChatGPT。两者互补而不是替代。

Q2：我的电脑配置不够怎么办？

如果内存只有8GB，选phi3:mini（2.3GB）或qwen2:7b（4.4GB）。如果有独立显卡（6GB显存以上），可以跑更大的模型。实在不行，买个二手RTX 3060（12GB显存），二手市场大概800到1000块，性价比极高。另外还有一种思路：用云服务器跑Ollama。阿里云和腾讯云都有GPU实例，按小时计费，偶尔用一下花不了多少钱。

Q3：Ollama能用来做商业用途吗？

可以。Ollama本身是开源的（MIT协议），它运行的模型大部分也是开源可商用的（Llama 3、Qwen2等都有商用许可）。但具体模型的商用条款需要单独确认，建议在使用前查看模型的LICENSE文件。有些模型对商用有用户数量限制（比如Llama 3对月活超过7亿的公司有特殊条款），普通中小企业完全不受影响。

总结

Ollama让本地运行大模型变得前所未有的简单。从安装到使用，整个过程不超过10分钟。无论你是注重隐私的个人用户、需要离线使用的出差党，还是想在内部部署AI能力的团队，Ollama都是一个优秀的选择。

我用Ollama大半年来，最大的感受是它降低了大模型的使用门槛。以前觉得本地跑大模型是高级程序员才能玩的东西，现在普通人也能轻松上手。而且随着开源模型越来越强（特别是Qwen2和Llama 3），本地模型和云端模型的差距在快速缩小。

快速回顾：

ollama pull下载模型
ollama run开始对话
通过API（localhost:11434）集成到你的应用中
搭配Open WebUI获得ChatGPT般的体验

本地部署不是要替代云端服务，而是给你多一个选择——一个完全由你掌控的选择。在这个数据越来越值钱的时代，能够自主掌控AI能力的工具和知识，是每个技术人都值得投入时间去学习的核心技能。

如果你对AI自动化和效率工具感兴趣，欢迎持续关注提效录，我们会定期分享最实用的AI工具和使用技巧。也可以看看我们的免费AI工具大全和AI工具合集2026。

深度扩展阅读

本文涵盖的内容是AI领域持续发展的方向之一。如果想进一步了解相关知识,可以参考以下推荐阅读:

大模型本地部署教程：Ollama从零上手指南

大模型本地部署教程：Ollama从零上手指南

引言：为什么要本地部署大模型？

Ollama简介

安装Ollama

Mac

Linux

Windows

下载和运行模型

推荐模型

API调用

cURL调用

Python调用（兼容OpenAI格式）

搭建私有ChatGPT：Ollama + Open WebUI

Docker一键部署

界面功能

与开发工具集成

VS Code + Continue插件

n8n自动化工作流

自定义Modelfile

进阶技巧

性能优化

GPU加速

模型量化

内存优化技巧

实际应用场景分享

常见问题与排错

常见问题FAQ

总结

深度扩展阅读

相关工具推荐

推荐阅读

免费生成 AI 图片

常见问题

相关文章

向量数据库入门：2026年主流方案对比

Vercel部署AI项目2026：从代码到上线10分钟

元宝AI语音对话功能实测：腾讯AI的免费语音助手

读完文章了？试试提效录自建工具