私有模型接入要求

PIG AI 支持通过在线配置接入私有化(ollama/vllm)模型,部署前请确保满足以下基础要求:

  • 硬件资源:使用专业级 GPU 服务器,CPU 不适用(两个并发推理 100% 宕机)
  • 显存要求:根据模型规模需预留充足 VRAM(32B 模型建议 48G+,70B 模型建议 80G+)
  • 生产环境:推荐使用 NVIDIA A/H 及以上专业计算卡,消费级显卡可能无法满足持续推理需求
模型类型模型名称说明
聊天模型qwen2.5:72b72b 参数量聊天模型,更准确需要更多资源
推理模型deepseek-r1:32bR1 推理模型
向量模型bge-m3:latest
视觉模型minicpm-v:latest

安装 ollama

systemctl edit ollama.service

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

systemctl daemon-reload
systemctl restart ollama

运行私有模型

# 聊天模型,70b 代表参数集合数量,越大越准确,但是消耗资源越多
ollama run qwen2.5:72b
# 推理模型 R1 模型
ollama run deepseek-r1:32b
# 向量模型
ollama run bge-m3:latest
# 视觉模型
ollama run minicpm-v:latest

请注意运行 70b 模型为生产级模型,需要 GPU 80G+ 的显存,无法在普通 CPU 条件推理,模型推理速度(可以理解为提问响应速度)取决于硬件配置。

  • 如下图:两块(A6000 + 48GB)

GPU资源监控

模型接入

请注意配置的模型和如上 ollama 运行时模型名称一致,否则无法正常调用。

1

打开模型配置

进入模型配置页面,点击”新增模型”

2

配置模型参数

  • 供应商:选择 Ollama
  • 类型:根据需求选择聊天或推理模型
  • 模型名称:选择已在 Ollama 运行的模型,如 PIG AI 前端没有此模型选项可以输入添加

模型配置界面

模型运行示例