当前位置：首页 > news >正文

windows ai本地化部署常用Ollama软件详解

news 2025/3/18 22:59:54

现在用最简单的方式介绍一下 Ollama 的作用和用法：

Ollama 是什么？

Ollama 是一个让你能在自己电脑上免费运行大型语言模型（比如 Llama 3、Mistral 等）的工具。

相当于你本地电脑上有一个类似 ChatGPT 的 AI，但完全不用联网，所有数据都在自己电脑里处理，更安全、更私密。

它有什么用？

离线使用 AI：不联网也能和 AI 对话、生成文本、写代码等。
保护隐私：你的对话内容不会上传到服务器，适合处理敏感信息。
开发者友好：方便测试、调试 AI 模型，或集成到自己的项目中。

硬件要求

ollama 本身对硬件要求并不高，主要取决于运行模型的要求。基本建议：

你应该至少有 4 GB 的 RAM 来运行 1.5B 模型，至少有 8 GB 的 RAM 来运行 7B 模型，16 GB 的 RAM 来运行 13B 模型，以及 32 GB 的 RAM 来运行 33B 模型。

假若需要本地私有化部署具有实用性的模型，应至少有独立显卡并有 4G 以上显存。纯 CPU 模式虽然也可以运行，但生成速度很慢，仅适用于本地开发调试体验一下。

本人实测在Mac Studio 2023 版(Apple M2 Max 芯片：12核、32G内存、30核显、1TB SSD)上，运行 deepseek:1.5b 模型响应非常快，可以较为流畅的运行 deepseek-r1:32b 及以下的模型。

怎么用？（3步搞定）

1. 安装 Ollama

Mac/Linux：官网下载安装包，或终端直接运行：

curl -fsSL https://ollama.com/install.sh | sh

Windows（测试版）：从官网下载安装包。Ollama主页：https://ollama.com/

windows 环境配置

关闭开机自启动（可选）：
Ollama 默认会随 Windows 自动启动，可以在「文件资源管理器」的地址栏中访问以下路径，删除其中的Ollama.lnk快捷方式文件，阻止它自动启动。

%APPDATA%\Microsoft\Windows\Start Menu\Programs\Startup

在这里插入图片描述

配置环境变量（必须）：
Ollama 的默认模型存储路径如下：C:\Users%username%.ollama\models，无论 C 盘空间大小，需要安装多少模型，都建议换一个存放路径到其它盘，否则会影响电脑运行速度。

打开「系统环境变量」，新建一个系统变量OLLAMA_MODELS ，然后设置ollama模型的存储路径。

变量名：OLLAMA_MODELS

变量值（路径）：D:\Work\ollama\models

配置端口（可选）：
Ollama API 的默认访问地址和侦听端口是http://localhost:11434，只能在装有 Ollama 的系统中直接调用。如果要在网络中提供服务，请修改 API 的侦听地址和端口（在系统环境变量里设置）：

变量名：OLLAMA_HOST

变量值（端口）：:8000

只填写端口号可以同时侦听（所有） IPv4 和 IPv6 的:8000 端口。(变量值的端口前号前有个冒号:)

注：要使用 IPv6，需要 Ollama 0.0.20 或更高版本。另外，可能需要在 Windows 防火墙中开放相应端口的远程访问。

允许浏览器跨域请求（可选）：
Ollama 默认只允许来自127.0.0.1和0.0.0.0的跨域请求，如果你计划在其它前端面板中调用 Ollama API，比如Open WebUI，建议放开跨域限制：

变量名：OLLAMA_ORIGINS

变量值：*

2. 下载模型

在终端输入命令下载模型（比如下载最流行的 Llama 3）：

ollama run llama3  # 自动下载并运行

在这里插入图片描述

其他模型（如 mistral、phi3、gemma）同理，替换名字即可。
执行指令ollama run <模型名称>，首次执行会从模型库中下载模型，所需时间取决于你的网速和模型大小。模型库地址：https://ollama.org.cn/library

3. 开始对话

运行模型后，直接在终端输入问题，比如：

>>> 用一句话解释量子力学
>>> 写一个Python代码计算斐波那契数列

在这里插入图片描述

按 Ctrl+D 或输入 /bye 退出。

如果觉得直接在黑框里运行不优雅，可以将Ollama接入到成熟的UI系统中，比如Open WebUI，地址如下：
https://github.com/ollama/ollama?tab=readme-ov-file#community-integrations

常用命令

ollama list：查看已下载的模型
ollama run 模型名：运行指定模型
ollama pull 模型名：只下载不运行
ollama rm 模型名：删除模型

Usage:ollama [flags]ollama [command]Available Commands:serve       启动 Ollama 服务create      从 Modelfile 创建一个模型show        查看模型详细信息run         运行一个模型stop        停止正在运行的模型pull        从注册表拉取一个模型push        将一个模型推送到注册表list        列出所有可用的模型ps          列出当前正在运行的模型cp          复制一个模型rm          删除一个模型help        获取关于任何命令的帮助信息Flags:-h, --help      help for ollama-v, --version   Show version information

高级用法

网页端对话：安装后访问 http://localhost:11434 使用网页界面。
API 调用：可以用代码通过接口调用本地模型（类似 OpenAI 的 API）。
自定义模型：修改模型参数后，用 ollama create 创建自己的版本。

调用 Ollama 接口

Ollama 提供了丰富的 API 接口，供外部调用访问。详细的接口文档可以在官方 GitHub 中找到。

接口名称	接口地址	请求方法	接口描述
Generate	`/api/generate`	POST	使用提供的模型为给定提示生成响应。
Chat	`/api/chat`	POST	使用提供的模型生成聊天中的下一条消息
Create	`/api/create`	POST	从 Modelfile 创建一个新的模型。
Tags	`/api/tags`	GET	列出本地可提供的型号。
Show	`/api/show`	POST	获取指定模型的详细信息。
Copy	`/api/copy`	POST	从现有模型创建副本。
Delete	`/api/delete`	DELETE	删除模型及其数据。
Pull	`/api/pull`	POST	从 Ollama 库中下载指定模型。
Push	`/api/push`	POST	将模型上传到模型库。
Embed	`/api/embed`	POST	使用指定模型生成嵌入。
ListRunning	`/api/ps`	POST	列出当前加载到内存中的模型。
Embeddings	`/api/embeddings`	POST	生成嵌入（与 Embed 类似，但可能适用场景不同）。
Version	`/api/version`	GET	获取 Ollama 服务的版本号。