Ollama 配置常见问题 - PIG AI 技术指南

如何在 Mac 上设置环境变量？

如果 Ollama 作为 macOS 应用程序运行，应使用 launchctl 设置环境变量：

对于每个环境变量，调用 launchctl setenv。

launchctl setenv OLLAMA_HOST "0.0.0.0"

重启 Ollama 应用程序。

如何在 Linux 上设置环境变量？

如果 Ollama 作为 systemd 服务运行，应使用 systemctl 设置环境变量：

通过调用 systemctl edit ollama.service 编辑 systemd 服务。这将打开一个编辑器。
对于每个环境变量，在 [Service] 部分下添加一行 Environment：

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

保存并退出。
重新加载 systemd 并重启 Ollama：

systemctl daemon-reload
systemctl restart ollama

如何在 Windows 上设置环境变量？

如何在代理后面使用 Ollama？

Ollama 从互联网拉取模型，可能需要通过代理服务器来访问这些模型。使用 HTTPS_PROXY 将出站请求重定向到代理。确保代理证书已安装为系统证书。有关如何在你的平台上使用环境变量的详细信息，请参阅上面的章节。

避免设置 HTTP_PROXY。Ollama 不使用 HTTP 拉取模型，只使用 HTTPS。设置 HTTP_PROXY 可能会中断客户端与服务器的连接。

在 Docker 中使用代理

可以通过在启动容器时传递 -e HTTPS_PROXY=https://proxy.example.com 来配置 Ollama Docker 镜像使用代理。

或者，可以配置 Docker 守护程序使用代理。有关配置 Docker Desktop 的说明，请参阅 macOS、Windows 和 Linux 的文档，以及 Docker 守护程序与 systemd 的文档。

使用 HTTPS 时，确保证书已安装为系统证书。如果使用自签名证书，可能需要创建新的 Docker 镜像。

FROM ollama/ollama
COPY my-ca.pem /usr/local/share/ca-certificates/my-ca.crt
RUN update-ca-certificates

构建并运行此镜像：

docker build -t ollama-with-ca .
docker run -d -e HTTPS_PROXY=https://my.proxy.example.com -p 11434:11434 ollama-with-ca

Ollama 是否会将我的提示和回答发送回 ollama.com？

如何在我的网络上暴露 Ollama？

模型存储在哪里以及如何更改位置？

如何指定上下文窗口大小？

默认情况下，Ollama 使用 2048 个 token 的上下文窗口大小。

使用 ollama run 时： 可以通过 /set parameter 来更改此设置：

/set parameter num_ctx 4096

使用 API 时： 指定 num_ctx 参数：

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Why is the sky blue?",
  "options": {
    "num_ctx": 4096
  }
}'

如何保持模型在内存中加载或立即卸载？

默认情况下，模型会在内存中保留 5 分钟后才被卸载。

立即卸载： 使用 ollama stop 命令：

ollama stop llama3.2

通过 API 控制： 使用 keep_alive 参数与 /api/generate 和 /api/chat 端点来设置模型在内存中保持的时间。keep_alive 参数可以设置为：

一个持续时间字符串 (例如 “10m”, “24h”)
以秒为单位的数字 (例如 3600)
任何负数，这将使模型保持在内存中 (例如 -1, “-1m”)
‘0’，这将在生成响应后立即卸载模型

示例 (保持加载):

curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "keep_alive": -1}'

示例 (立即卸载):

curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "keep_alive": 0}'

通过环境变量控制： 你可以在启动 Ollama 服务器时通过设置 OLLAMA_KEEP_ALIVE 环境变量来更改所有模型加载到内存中的时间。OLLAMA_KEEP_ALIVE 变量使用与上述 keep_alive 参数类型相同的参数类型。请参阅如何配置 Ollama 服务器部分以正确设置环境变量。

keep_alive API 参数将覆盖 OLLAMA_KEEP_ALIVE 设置。

如何管理 Ollama 服务器可以排队的最大请求数？

Ollama 如何处理并发请求？

Ollama 如何在多个 GPU 上加载模型？