ollama 本地安装部署
准备
- 良好的网络
- 确认好 docker GPU支持
- 本文使用 windows 部署,linux 请自行解决显卡驱动问题
- 解决不了显卡驱动,请不要使用
- 安装好 docker 不同系统自行解决
- 下载 ollama
- windows 的话 建议 C 盘大亿点点,后面会用到
容器安装 ollama
创建一个目录 ollama , 用来保存下载模型,以及运行日志等文件
|
|
创建 ollama 容器 docker-compose.yml
|
|
进入 ollama 容器
|
|
本地使用 ollama
注意:这个模式下,ollama 和 外部编排容器运行的是冲突的, 建议 ollama 自己管理自己的容器,不要外部掺和编排,所以请移除上面的容器安装运行方式,就是这么设定的,阿门
windows 下需要注意的
Windows上的Ollama将文件存储在几个不同的位置。你可以查看它们
使用 <cmd>+R
键入内容 :
explorer %LOCALAPPDATA%\Ollama
包含日志和下载的更新- app.log 包含来自GUI应用程序的日志
- server.log 包含服务日志
- upgrade.log 包含用于升级的日志输出
explorer %LOCALAPPDATA%\Programs\Ollama
包含二进制文件 (The installer adds this to your user PATH)explorer %HOMEPATH%\.ollama
包含模型和配置explorer %TEMP%
包含一个或多个ollama*
目录中包含临时可执行文件
需要不小的 C 盘空间就是
windows 建议配置 环境变量
OLLAMA_KEEP_ALIVE
改为 30m 或者 60m 这样不用频繁载入模型OLLAMA_MODELS
改为一个 大号的 SSD 固态盘OLLAMA_ORIGINS
改为http://127.0.0.1:*,http://localhost:*,http://172.17.0.1:*,http://host.docker.internal:*,http://192.168.50.0:*
这样可以远程访问OLLAMA_HOST
可选,可以修改为0.0.0.0:11434
自定义启动 ollama 服务
这里在 windows powershell 环境下部署的, 因为好显卡在 windows,换其他环境请自己转换脚本
|
|
这里说明一下,不同的 环境变量可以部署多套 ollama
- OLLAMA 支持的环境变量和用途见 源码
OLLAMA_KEEP_ALIVE
修改这个时间,可以防止重复挂载模型,缺点是更占用资源OLLAMA_HOST
定义当前运行 服务 hostOLLAMA_MODELS
模型文件存储位置,这个选项可以告别 windows 爆掉 C 盘的问题OLLAMA_ORIGINS
跨域配置,这个需要点跨域知识,实在不会问生成式AI,大不了错几次
本地 open-webui 使用ollama 服务
注意: ollama 是一组后台服务, 使用
大模型
的交互前端
需要另外的部署,这里演示的是 open-webui
- docker-compose
- environment
WEBUI_SECRET_KEY
webui secret key 可以通过openssl rand -hex 16
生成OLLAMA_BASE_URL
这个根据实际情况配置HF_ENDPOINT
可以加速模型下载
- volumes
./open-webui/data:/app/backend/data
这个为 当前docker-compose.yml
文件相对目录存储数据
- ports
11435:8080
这个是 webUI 对外服务的 端口 设置 映射到11435
,如果端口占用可以跟换network_mode: host
如果开启,就是 8080,并且修改 OLLAMA_BASE_URL
- environment
|
|
使用 本地 open-webui
第一次需要注册账号
设置,进入设置
Settings
- 修改语言
General
->Language
修改为你需要的语言
- 修改语言
设置,进入
设置
->管理员设置
外部链接
确认本地 ollama 链接http://host.docker.internal:11434
可以正常使用- 也可以添加远程 ollama 链接
模型拉取
设置,进入
设置
->管理员设置
->模型
输入需要拉的模型
使用 ollama 命令
ollame 本身是一个 管理大模型的工具
ollama cli 基本使用
list
列出已经安装的模型pull
拉取模型run
run 除了拉取模型,还同时将模型对应的交互式控制台运行了起来,不建议这么做,限定死了启动方式rm
移除本地下载的模型ps
查看当前硬件资源占用serve
启动 大模型后台服务
额外说明
常用模型
- 模型格式
<name>:<num><arg>
- name 为模型发布名称,后面
<num><arg>
多少 B 表示模型有 多少 十亿 参数 - 参数规模规格为
B 十亿
M 百万
K 千
- 参数越多,所需 显存 越大,30b 左右差不多需要 20G 专有显存推理
- 参数多不代表准确,不过太小参数的 LLM 容易出现幻觉(瞎扯给结果)
- name 为模型发布名称,后面
|
|
Modelfile 自定义模型
查找 模型 配置例子
|
|
应用
ollama 扩展
查询扩展 https://github.com/ollama/ollama?tab=readme-ov-file#extensions–plugins,其中推荐试用
- Continue 代码助手,支持 vscode 和 JetBrains