windows ai本地化 部署常用Ollama软件详解
现在用最简单的方式介绍一下 Ollama 的作用和用法:
Ollama 是什么?
Ollama 是一个让你能在自己电脑上免费运行大型语言模型(比如 Llama 3、Mistral 等)的工具。
相当于你本地电脑上有一个类似 ChatGPT 的 AI,但完全不用联网,所有数据都在自己电脑里处理,更安全、更私密。
它有什么用?
- 离线使用 AI:不联网也能和 AI 对话、生成文本、写代码等。
- 保护隐私:你的对话内容不会上传到服务器,适合处理敏感信息。
- 开发者友好:方便测试、调试 AI 模型,或集成到自己的项目中。
硬件要求
ollama 本身对硬件要求并不高,主要取决于运行模型的要求。基本建议:
你应该至少有 4 GB 的 RAM 来运行 1.5B 模型,至少有 8 GB 的 RAM 来运行 7B 模型,16 GB 的 RAM 来运行 13B 模型,以及 32 GB 的 RAM 来运行 33B 模型。
假若需要本地私有化部署具有实用性的模型,应至少有独立显卡并有 4G 以上显存。纯 CPU 模式虽然也可以运行,但生成速度很慢,仅适用于本地开发调试体验一下。
本人实测在Mac Studio 2023 版(Apple M2 Max 芯片:12核、32G内存、30核显、1TB SSD)
上,运行 deepseek:1.5b
模型响应非常快,可以较为流畅的运行 deepseek-r1:32b
及以下的模型。
怎么用?(3步搞定)
1. 安装 Ollama
- Mac/Linux:官网下载安装包,或终端直接运行:
curl -fsSL https://ollama.com/install.sh | sh
- Windows(测试版):从官网下载安装包。Ollama主页:https://ollama.com/
windows 环境配置
- 关闭开机自启动(可选):
Ollama 默认会随 Windows 自动启动,可以在「文件资源管理器」的地址栏中访问以下路径,删除其中的Ollama.lnk快捷方式文件,阻止它自动启动。
%APPDATA%\Microsoft\Windows\Start Menu\Programs\Startup
- 配置环境变量(必须):
Ollama 的默认模型存储路径如下:C:\Users%username%.ollama\models,无论 C 盘空间大小,需要安装多少模型,都建议换一个存放路径到其它盘,否则会影响电脑运行速度。
打开「系统环境变量」,新建一个系统变量OLLAMA_MODELS ,然后设置ollama模型的存储路径。
变量名:OLLAMA_MODELS
变量值(路径):D:\Work\ollama\models
- 配置端口(可选):
Ollama API 的默认访问地址和侦听端口是http://localhost:11434,只能在装有 Ollama 的系统中直接调用。如果要在网络中提供服务,请修改 API 的侦听地址和端口(在系统环境变量里设置):
变量名:OLLAMA_HOST
变量值(端口)::8000
只填写端口号可以同时侦听(所有) IPv4 和 IPv6 的:8000 端口。(变量值的端口前号前有个冒号:)
注:要使用 IPv6,需要 Ollama 0.0.20 或更高版本。另外,可能需要在 Windows 防火墙中开放相应端口的远程访问。
- 允许浏览器跨域请求(可选):
Ollama 默认只允许来自127.0.0.1和0.0.0.0的跨域请求,如果你计划在其它前端面板中调用 Ollama API,比如Open WebUI,建议放开跨域限制:
变量名:OLLAMA_ORIGINS
变量值:*
2. 下载模型
在终端输入命令下载模型(比如下载最流行的 Llama 3):
ollama run llama3 # 自动下载并运行
其他模型(如 mistral
、phi3
、gemma
)同理,替换名字即可。
执行指令ollama run <模型名称>,首次执行会从模型库中下载模型,所需时间取决于你的网速和模型大小。模型库地址:https://ollama.org.cn/library
3. 开始对话
运行模型后,直接在终端输入问题,比如:
>>> 用一句话解释量子力学
>>> 写一个Python代码计算斐波那契数列
按 Ctrl+D
或输入 /bye
退出。
如果觉得直接在黑框里运行不优雅,可以将Ollama接入到成熟的UI系统中,比如Open WebUI,地址如下:
https://github.com/ollama/ollama?tab=readme-ov-file#community-integrations
常用命令
-
ollama list
:查看已下载的模型 -
ollama run 模型名
:运行指定模型 -
ollama pull 模型名
:只下载不运行 -
ollama rm 模型名
:删除模型
Usage:ollama [flags]ollama [command]Available Commands:serve 启动 Ollama 服务create 从 Modelfile 创建一个模型show 查看模型详细信息run 运行一个模型stop 停止正在运行的模型pull 从注册表拉取一个模型push 将一个模型推送到注册表list 列出所有可用的模型ps 列出当前正在运行的模型cp 复制一个模型rm 删除一个模型help 获取关于任何命令的帮助信息Flags:-h, --help help for ollama-v, --version Show version information
高级用法
-
网页端对话:安装后访问
http://localhost:11434
使用网页界面。 -
API 调用:可以用代码通过接口调用本地模型(类似 OpenAI 的 API)。
-
自定义模型:修改模型参数后,用
ollama create
创建自己的版本。
调用 Ollama 接口
Ollama 提供了丰富的 API 接口,供外部调用访问。详细的 接口文档 可以在官方 GitHub 中找到。
接口名称 | 接口地址 | 请求方法 | 接口描述 |
---|---|---|---|
Generate | /api/generate | POST | 使用提供的模型为给定提示生成响应。 |
Chat | /api/chat | POST | 使用提供的模型生成聊天中的下一条消息 |
Create | /api/create | POST | 从 Modelfile 创建一个新的模型。 |
Tags | /api/tags | GET | 列出本地可提供的型号。 |
Show | /api/show | POST | 获取指定模型的详细信息。 |
Copy | /api/copy | POST | 从现有模型创建副本。 |
Delete | /api/delete | DELETE | 删除模型及其数据。 |
Pull | /api/pull | POST | 从 Ollama 库中下载指定模型。 |
Push | /api/push | POST | 将模型上传到模型库。 |
Embed | /api/embed | POST | 使用指定模型生成嵌入。 |
ListRunning | /api/ps | POST | 列出当前加载到内存中的模型。 |
Embeddings | /api/embeddings | POST | 生成嵌入(与 Embed 类似,但可能适用场景不同)。 |
Version | /api/version | GET | 获取 Ollama 服务的版本号。 |
适合谁用?
-
想本地体验 AI 的普通用户
-
开发者测试 AI 功能
-
学习 AI 技术的学生/研究者
-
需要处理敏感数据的企业
总结:Ollama = 本地版 ChatGPT + 简单操作 + 完全免费 + 隐私保护,适合对 AI 感兴趣的所有人!